代码之家 › 专栏 › 技术社区 › xoxo

创建一个简单的“蜘蛛”

web-crawler c#

xoxo · 技术社区 · 17 年前

我已经研究过爬行,认为对于我正在尝试制作的一个相当简单的应用程序来说,它有点太复杂了。网页上的某些数据无法在源中查看,因为它只是由浏览器显示。

如果我想从要在WebBrowser控件中显示的特定网页中获取值,是否有任何方法读取此浏览器内容的值?

如果没有,是否有人对如何处理这一问题有任何建议?

3 回复 | 直到 12 年前

Bombe 17 年前

你不是在找我 spidering screen scraping .

BFree 17 年前

我不得不同意Bombe的观点,它听起来更像是你想要HTML屏幕抓取。它需要大量的解析,如果你的抓取页面发生了变化,你的应用程序就会崩溃,但下面是一个小例子:

WebClient webClient = new WebClient(); 
const string strUrl = "http://www.yahoo.com/"; 
byte[] reqHTML; 
reqHTML = webClient.DownloadData(strUrl); 
UTF8Encoding objUTF8 = new UTF8Encoding(); 
string html = objUTF8.GetString(reqHTML);

Martin 17 年前

因为浏览器只是呈现底层内容,所以最灵活的方法是自己解析底层内容(html/css/js/随便什么)。

我将创建一个解析引擎来查找您的spider应用程序需要的东西。

推荐文章

Dinosaur · 使用BeautifulSoup点击div标签后抓取html页面

1 年前

Kentaro T. Vadney · Atlassian页面上Kendra Index WebCrawlers的限制设置

2 年前

Claudio · 如何使用Selenium下载PDF文件?

2 年前

R3FL3CT · 如何在Python中将一组网站及其链接转换为有向图?

2 年前

hidde · 页面上的不同内容Apify网络爬行

6 年前

chans.best · StormCrawler和Hortonworks 1.1.0.2.6.4.0-91之间的Commons日志版本冲突

8 年前

Tae · Python3中方法has\u key的替换

8 年前

Jonas Pohlmann · Stormcrawler没有为elasticsearch获取/索引页面

8 年前

Teslaturing · 在python中从结果中获取指定单词后的动态数字并存储在数据库中

8 年前

Vega · 如何从DOM获取所有链接?

8 年前