![]() |
1
1
有一个工具可以完全满足你的要求。 http://wikify.appointment.at/ 这不是完美的,但很有效。 |
![]() |
2
1
这里有两个单独的问题要解决:
现在,(2)更简单了,尽管它也有一些问题。维基百科似乎有 an API 这使您能够有效地收集数据,而且它们还允许“屏幕抓取”。但是消除歧义有一个问题-有时你可能会点击你不想要的条目。例如, python 链接到消歧页面,因为它可以是编程语言、蛇和其他一些东西。 (1)更难。您可以使用“简单方法”并尝试查找所有非平凡名词(甚至名词/形容词对)的链接。这里不平凡的意思是省略诸如“恶魔、文字、计算机”等词。 但这将导致大量链接,这不方便阅读。这真的取决于你决定什么是有趣的文本,这很大程度上取决于文本本身。在一篇针对专业程序员的文章中,您真的想每次都链接到“搜索算法”吗?但对于初学者来说,也许你会。 最后,我强烈怀疑是否有一个通用工具可以为您提供这种技巧。但是你确实拥有所有的选择,并且一些需要特定的东西可以不用太多的努力就可以被编码。 |
![]() |
batman · 如何用特定模式grep特定行及其子网行? 2 年前 |
![]() |
Jensen Holm · 在非常大的字符串中查找链接时遇到问题 3 年前 |
![]() |
MBF · PHP导入/解析XML文件内容保存到数据库 3 年前 |
![]() |
user10717742 · 用java编写的自定义文件解析器需要改进 3 年前 |
![]() |
Muhsin Muhammed · 向文件中的行添加引号和逗号 3 年前 |
![]() |
Felkru · 添加字符串会在Javascript中返回空字符串 3 年前 |
![]() |
Mustard Tiger · 熊猫解析文本列 3 年前 |