代码之家  ›  专栏  ›  技术社区  ›  xRobot

如何在千亿个帖子中搜索关键词?

  •  6
  • xRobot  · 技术社区  · 14 年前

    我有一个数据库(mysql或postgresql不重要)有1000亿篇文章,我需要搜索(尽可能快)一个通用关键字。

    每个帖子有500-1000个关键词。

    我该怎么做?

    我可以使用一些先进的搜索引擎技术,但我不知道是哪种。

    8 回复  |  直到 12 年前
        1
  •  4
  •   Kibbee    14 年前

    你可能想退房 Sphinx

        2
  •  13
  •   Andre Holzner    14 年前

    你考虑过使用 Apache Lucene ?

    我不知道需要多少额外的空间,需要多少时间。

        3
  •  10
  •   shamittomar    14 年前

    把“1000亿”的post数据卖给谷歌。:)

    你会赚钱的。

        4
  •  5
  •   Amy B    14 年前

    嗯,地球上大约有68亿人,平均每分钟能读一篇文章。

    如果每个人都投稿,1000亿除以68亿就是14.7分钟让所有的帖子都读一遍。

    1) 征服地球。
    2) 让每个人都成为你的奴隶。
    3) 让博文阅读。
    4) ???

        5
  •  4
  •   Sabeen Malik    14 年前

    试试狮身人面像 http://sphinxsearch.com/

        6
  •  3
  •   wadesworld    14 年前

    你试过你的数据库内置的全文索引功能吗?你应该尝试一下,证明它不起作用,然后再决定它不合适,并寻找其他的东西。

        7
  •  3
  •   good_evening    14 年前

    使用谷歌自定义搜索。另外,你会赚一点,节省大量的托管资源。

        8
  •  1
  •   Gnudiff    14 年前

    首先,我们谈论的关键字是在单独的字段中还是在帖子内容中?

    如果是单独的字段,就可以了。 只需建立一个表与关键字后关系和做简单的搜索选择后\uID7。。。其中关键字='X'。