代码之家 › 专栏 › 技术社区 › Amandasaurus

有人分析过Wiktionary吗[[关闭]

wiktionary dictionary web-services python

Amandasaurus · 技术社区 · 15 年前

Wiktionary 是一本涵盖多种语言的维基词典。它甚至有翻译。我对解析和处理数据很感兴趣,以前有人做过类似的事情吗?有我能用的图书馆吗(最好是蟒蛇。)

11 回复 | 直到 9 年前

Amber 15 年前

Wiktionary运行在MediaWiki上 has an API

API文档的一个子页是 Client code, which lists some Python libraries .

ratmatz 15 年前

我曾经下载过一个维基词典,试图收集斯拉夫语的词汇和定义。我使用elementtree访问它,遍历转储的xml文件。我会尽量避免刮取或爬网站点,只下载wikimedia为wiktionary提供的xml转储文件。转到 wikimedia downloads enwiktionary )去最近的垃圾场。您可能需要pages-articles.xml.bz2文件,它只是文章内容,没有历史记录或注释。用python中您喜欢的任何xml处理库来解析它。我个人更喜欢elementtree。祝你好运。

spencercooly 13 年前

wordnik 在解析定义等方面做得很好他们有一个 great api

像其他人提到的一样,wiktionary是一个格式化灾难,它不是为计算机可读而构建的

Nemo 9 年前

是的,很多人解析Wiktionary。你通常可以在网上找到过去的经历 Wiktionary-l mailing list archives .

其他答案中没有提到的项目是DBPedia的 Wiktionary RDF extraction .

Wiktionary special 而且在 other issues

Recently 有人还发了一封信 English Wiktionary REST API

Ben Reynwar 10 年前

我对德国维基词典的解析很在行。我最后把它写下来,因为太难了,但我把我的(一点也不整理)代码放在了 https://github.com/benreynwar/wiktionary-parser 在我放弃之前。尽管编辑们使用了一些惯例,但除了同行监督之外,他们并没有强制执行。模板的多样性以及页面中所有的打字错误使得解析非常具有挑战性。

我认为问题在于,他们使用了与wiktionary相同的系统,这对于编辑来说非常容易使用,但是对于wiktionary更结构化的内容来说并不合适。很遗憾,如果wiktionary可以很容易地被解析,那么它将是一个非常有用的资源。

benroth 13 年前

我刚从德语垃圾堆里列了一张字表:

bzcat pages-articles.xml.bz2 | grep '<title>[^[:space:][:punct:]]*</title>' | sed 's:.*<title>\(.*\)</title>.*:\1:' > words

Andrew Krizhanovsky 11 年前

欢迎使用MySQL解析Wiktionary数据库。 http://wikokit.googlecode.com

如果你喜欢PHP,那么欢迎你玩 piwidict -这个机器可读Wiktionary的PHP API 2

yota 10 年前

dbnary 项目,不是python而是有趣的。 wikdict .

Jan Berkel 10 年前

JWKTL 它可以很好地解析和提取wiktionary中的结构化数据。它是用Java编写的,并且支持英语、德语和俄语版本。

Chin 10 年前

这取决于你需要多彻底地解析它。如果你只需要获得一种语言中一个单词的所有内容(定义、词源、发音、变位等),那么这就相当容易了。不过,我以前也这么做过 in Java using jsoup

但是,如果您需要将其解析为内容的不同组件(例如,仅获取单词的定义),那么它将更具挑战性。语言中单词的Wiktionary条目没有预定义的模板,因此标题可以是 <h3> 到 <h6> ,节的顺序可能混乱,也可能重复,等等。

-1

skreutzer 7 年前

parser for the German Wiktionary dump 在Java中,只提取名词和它们的冠词,加上它们的阿拉伯语翻译,没有任何依赖关系。执行需要很长时间,所以要小心。如果有兴趣/需要分析更多或其他数据,请告诉我,如果时间允许,我可能会调查。