代码之家  ›  专栏  ›  技术社区  ›  Jared

如何索引和搜索.doc文件

  •  4
  • Jared  · 技术社区  · 15 年前

    我有一个应用程序需要上载.doc文件。然后,这些文档应该是索引,整个文档集合应该是可搜索的。这将在Windows服务器上运行,不安装Word,使用IIS和SQLServer,但我不希望绑定到SQLServer的全文索引。

    我在考虑使用lucene.net作为索引部分,并想知道从.doc文件中获取文本的最佳方法是什么。我可以通过在整个流中读取文本,然后使用regex提取任何常规字符来提取文本,但这似乎很重,而且容易出错。

    我看过一篇关于使用iFilter的文章,听起来很有希望,但我想我会把它放在那里,因为这不是我熟悉的东西。

    另外,如果重要的话,这些.doc文件中会有邮件合并字段,并且没有其他当前的.doc格式替代。

    3 回复  |  直到 12 年前
        1
  •  3
  •   Jared    15 年前

    对于不需要外部程序的解决方案,看起来iFilter解决方案是可行的(即使您可能将其视为外部程序)。

    下面是一篇简单的codeplex文章,以及如何完成它的代码: http://www.codeproject.com/KB/cs/IFilter.aspx

        2
  •  1
  •   Raffael Luthiger    15 年前

    在基于PHP的应用程序中,我们总是使用与此类似的外部程序: doc2txt . 然后我们把文本保存到数据库中。如果你在谷歌上搜索“doc2xt”,你会发现很多不同的程序都在做同样的事情。就拿一个最适合你的。

        3
  •  0
  •   Sinan Taifour    15 年前

    也许你想结账 Solr .