代码之家  ›  专栏  ›  技术社区  ›  William

根据格式(字体名称和大小)从Word或PDF中提取文本

  •  1
  • William  · 技术社区  · 15 年前

    我需要解析大文本(大约1000页Word或PDF文档),并将文档中的一些文本放入数据库字段中。

    我发现唯一能区分我要提取的文本的是格式,它总是“Helvetica Condensed”大小12

    我能做到吗?我知道如何使用字符串函数,但是我应该使用什么来测试格式?

    如我所说,文本存储在Word文档或PDF中

    如果有第三方组件没问题,请咨询我。

    谢谢

    2 回复  |  直到 15 年前
        1
  •  1
  •   ikkebr    15 年前

    QuickPDF . 价格是249.00美元。

        2
  •  0
  •   skamradt    15 年前

    另一种选择是自己编写代码。这个 file specification 可在线获取,如果您只想从文档中提取文本,这将为您提供大部分指导。

    唯一需要注意的是完全由图像构建的文档。在这种情况下(无论您用什么读取文件),您还需要一种OCR类型的应用程序。若要查看是否是这种情况,请打开要“提取”文本的文件类型的示例,选择要复制的文本,然后尝试粘贴到记事本中。