代码之家  ›  专栏  ›  技术社区  ›  Sushant Bassi

如何抓取页面初始HTML中不存在的数据[关闭]

  •  0
  • Sushant Bassi  · 技术社区  · 3 年前

    我想从网页中抓取一些数据,一旦页面完全加载,就会加载额外的数据表。预加载程序运行,并且附加数据以表格格式显示在网页上。

    我想检索该表中存在的所有数据。

    我做了一些r&d和我开始知道cURL不能使用,因为它只能抓取页面初始HTML的一部分数据。

    你能为我提供一个如何实现这一目标的解决方案吗。

    这是我现在使用的基本代码格式:

    $url = "https://example.com";
    $ch = curl_init($url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    $response = curl_exec($ch);
    
    // Use regular expressions to extract data from response
    $pattern = "/<table>(.*?)<\/table>/";
    preg_match($pattern, $response, $matches);
    $title = $matches[1];
    
    echo "Title: " . $title;
    
    0 回复  |  直到 3 年前
    推荐文章