![]() |
1
7
您可以使用为索引服务设计/使用的过滤器。它们被设计用来从各种文档中提取纯文本,这对于在文档中搜索非常有用。您可以将它用于Office文件、pdf、HTML等,基本上是任何具有过滤器的文件类型。唯一的缺点是您必须在服务器上安装这些过滤器,因此如果您不能直接访问服务器,这可能是不可能的。有些过滤器是随Windows预装的,但有些过滤器(如PDF)必须自己安装。对于C#实现,请查看本文: Using IFilter in C# |
![]() |
2
5
PDF格式:你有多种选择。
PDF文本:
这将输出包含在第3-7页的文本
如果你忽略了
|
![]() |
3
0
|
![]() |
4
0
使用Word对象模型,这是唯一可靠的方法,因为Word格式是不开放的,并且版本不同。 |
![]() |
5
0
你可能想看看PDFBox。这里有一个指向代码项目页面的链接,向您展示了如何在C中使用它以及其他有用的注释。 http://www.codeproject.com/KB/string/pdf2text.aspx 至于Word,使用Word对象模型的建议可能是最准确的。 |
![]() |
6
0
Docotic.Pdf library 可用于从PDF文件中提取文本。 extract plain text and text with formatting . 还有,一个 collection of words 或者可以使用库的API检索具有边界矩形的字符。
|
![]() |
Bumboobee · 有没有办法将Pdf放入Swal模型中? 3 年前 |
![]() |
Vik G · R中PDF中的额外字体 7 年前 |
![]() |
Penachia · PDF FontDescriptor标志 7 年前 |
![]() |
Koosh · PDF文档的页数不一致 7 年前 |
![]() |
Juan Antonio · pdftk-使用FDF自动填充PDF表单 7 年前 |