代码之家  ›  专栏  ›  技术社区  ›  Shamik

用数千个真正的英语单词填充我的数据结构

  •  2
  • Shamik  · 技术社区  · 15 年前

    我需要测试我的数据结构(在Java中),它就像一个字典——持有一个键/值映射。我想知道您如何测试数据结构?我想在我的数据结构中插入实词,然后找到它们。我想知道是否有一种方法可以下载所有英文单词,然后我可以读取该文件并填充我的结构。一旦填充,我可以执行许多搜索,并生成一些关于搜索需要多长时间的实际统计信息?

    4 回复  |  直到 14 年前
        1
  •  3
  •   Konrad Rudolph    15 年前

    事实上,有几个针对英语的开源词典,例如 WordNet file .

    也就是说,我必须坚持英语不是一种封闭的语言,它也没有。 一个真实 官方定义。因此,没有一本词典包含所有英语单词,这样的词典永远不可能存在:英语单词是由所有时间组成的,一旦有足够的人使用它们,它们就成为英语的一部分。举个例子:__到Google.__

        2
  •  2
  •   Matthew Flaschen    15 年前

    也许 Project Gutenberg 会有帮助的。我在过去的CS项目中使用过它们。它们提供纯文本文件(例如 The Valley of Fear ,这应该很容易处理。您可能希望跳过标题以避免结果倾斜。

    这将允许您通过保留例如word->计数映射(例如 Map<String, Integer> )文件中的单词。

        3
  •  2
  •   Richard Fearn    14 年前

    如果您使用的是Linux,则可以使用 /usr/share/dict/words 还有 WordNet 一个英文单词数据库。

        4
  •  0
  •   Uri    15 年前

    如果你有一个键值对,你可能不想要一个简单的单词列表,你想要单词到定义或者其他语言的单词。

    如果你不介意分析一个文本文件, IDP 有一堆免费下载的文件。