![]() |
1
20
Wiktionary运行在MediaWiki上 has an API API文档的一个子页是 Client code, which lists some Python libraries . |
![]() |
2
23
我曾经下载过一个维基词典,试图收集斯拉夫语的词汇和定义。我使用elementtree访问它,遍历转储的xml文件。我会尽量避免刮取或爬网站点,只下载wikimedia为wiktionary提供的xml转储文件。转到 wikimedia downloads enwiktionary )去最近的垃圾场。您可能需要pages-articles.xml.bz2文件,它只是文章内容,没有历史记录或注释。用python中您喜欢的任何xml处理库来解析它。我个人更喜欢elementtree。祝你好运。 |
![]() |
3
15
|
![]() |
4
10
是的,很多人解析Wiktionary。你通常可以在网上找到过去的经历 Wiktionary-l mailing list archives . 其他答案中没有提到的项目是DBPedia的 Wiktionary RDF extraction . Wiktionary special 而且在 other issues Recently 有人还发了一封信 English Wiktionary REST API |
![]() |
5
9
我对德国维基词典的解析很在行。我最后把它写下来,因为太难了,但我把我的(一点也不整理)代码放在了 https://github.com/benreynwar/wiktionary-parser 在我放弃之前。尽管编辑们使用了一些惯例,但除了同行监督之外,他们并没有强制执行。模板的多样性以及页面中所有的打字错误使得解析非常具有挑战性。 我认为问题在于,他们使用了与wiktionary相同的系统,这对于编辑来说非常容易使用,但是对于wiktionary更结构化的内容来说并不合适。很遗憾,如果wiktionary可以很容易地被解析,那么它将是一个非常有用的资源。 |
![]() |
6
4
我刚从德语垃圾堆里列了一张字表:
|
![]() |
7
4
欢迎使用MySQL解析Wiktionary数据库。 http://wikokit.googlecode.com |
![]() |
9
1
JWKTL 它可以很好地解析和提取wiktionary中的结构化数据。它是用Java编写的,并且支持英语、德语和俄语版本。 |
![]() |
10
0
这取决于你需要多彻底地解析它。如果你只需要获得一种语言中一个单词的所有内容(定义、词源、发音、变位等),那么这就相当容易了。不过,我以前也这么做过 in Java using jsoup
但是,如果您需要将其解析为内容的不同组件(例如,仅获取单词的定义),那么它将更具挑战性。语言中单词的Wiktionary条目没有预定义的模板,因此标题可以是
|
![]() |
11
-1
parser for the German Wiktionary dump 在Java中,只提取名词和它们的冠词,加上它们的阿拉伯语翻译,没有任何依赖关系。执行需要很长时间,所以要小心。如果有兴趣/需要分析更多或其他数据,请告诉我,如果时间允许,我可能会调查。 |