代码之家  ›  专栏  ›  技术社区  ›  xoxo

创建一个简单的“蜘蛛”

  •  0
  • xoxo  · 技术社区  · 17 年前

    我已经研究过爬行,认为对于我正在尝试制作的一个相当简单的应用程序来说,它有点太复杂了。网页上的某些数据无法在源中查看,因为它只是由浏览器显示。

    如果我想从要在WebBrowser控件中显示的特定网页中获取值,是否有任何方法读取此浏览器内容的值?

    如果没有,是否有人对如何处理这一问题有任何建议?

    3 回复  |  直到 12 年前
        1
  •  3
  •   Bombe    17 年前

    你不是在找我 spidering screen scraping .

        2
  •  2
  •   BFree    17 年前

    我不得不同意Bombe的观点,它听起来更像是你想要HTML屏幕抓取。它需要大量的解析,如果你的抓取页面发生了变化,你的应用程序就会崩溃,但下面是一个小例子:

    WebClient webClient = new WebClient(); 
    const string strUrl = "http://www.yahoo.com/"; 
    byte[] reqHTML; 
    reqHTML = webClient.DownloadData(strUrl); 
    UTF8Encoding objUTF8 = new UTF8Encoding(); 
    string html = objUTF8.GetString(reqHTML); 
    

        3
  •  0
  •   Martin    17 年前

    因为浏览器只是呈现底层内容,所以最灵活的方法是自己解析底层内容(html/css/js/随便什么)。

    我将创建一个解析引擎来查找您的spider应用程序需要的东西。