代码之家  ›  专栏  ›  技术社区  ›  Ross

从文本字符串中提取国家名称

  •  3
  • Ross  · 技术社区  · 14 年前

    我正在编写一个mashup应用程序,它将从子插件中获取提交标题,并尝试根据它们可能相关的位置将它们绘制在地图上。我还想在以后添加Twitter之类的内容。

    我在计划中遇到的困难是如何从标题中找出最有可能与之相关的国家。我的第一个猜测是列出一个国家列表,以及它们的匹配排列(例如“English”匹配“England”等),并检查文本中这些项目的出现情况。不过,这可能会很慢,需要我列出每个国家的所有格*名称。

    我正计划用Python来实现这一点(以便学会使用它),所以我想知道是否有一个库可以实现这一点(并且我可以从中学习),或者有一个更明显的实现这一点的方法?

    为了了解我正在使用的输入类型,这里有一些示例以及我试图从中获得的内容:

    • “好吧,他们不能逮捕我们所有人——把中指交给英国法律体系(pic)”。
      • 关键字: 英国的 (英国)
    • “民意调查:维基解密的阿桑奇领导时代的‘年度人物’——阿桑奇,一个澳大利亚人,由于他公布了美国有关伊拉克和阿富汗战争的秘密军事文件,已经成为五角大楼的眼中钉,截至周五,他已经获得21736票。”
      • 关键词: 阿富汗、伊拉克[澳大利亚] (阿富汗,伊拉克,【澳大利亚】)——澳大利亚很难被发现,因为这主要是无关的,但就我的目的而言,这是可以接受的。
    • “对诺贝尔和平奖网站的网络攻击开始了。保持优雅,中国。”
      • 关键字: 中国 (中国)
    • “一位犹太外科医生在发现病人手臂上有纳粹纹身后,拒绝给病人做手术,走出手术室。”
      • 关键词: 没有人 -我可以接受

    *这可能是个错误的词

    2 回复  |  直到 14 年前
        1
  •  3
  •   Russell Dias    14 年前

    你可以看看 Yahoo! Place Maker API

    Placemaker为 相当大比例的 地理位置上的Web内容 相关但不在地理上 可发现。提供自由形式 文本,服务标识位置 在文本中提到,消除那些歧义 放置并返回唯一标识符 为每个人,以及 关于 在文本中找到了位置,以及在哪里 在文本中找到了它。不幸的事 可以通过服务返回 去雅虎!S geoplanet_ API进一步说明 地理富集和发现。

        2
  •  0
  •   Dex    14 年前

    在MySQL中使用全文搜索索引。然后使用Ajax调用查询数据库。

    推荐文章