代码之家 › 专栏 › 技术社区 › Maksym

从PDF中提取所有内容[关闭]

extract image text pdf

8

Maksym · 技术社区 · 15 年前

正在寻找从PDF文件中提取内容的解决方案(使用控制台工具或库)。

它将在服务器上用于从上传的PDF文件生成在线电子书。

需要提取以下内容:

查看Adobe PDF库(5000美元),BCL SDK(?),pdflib(__),quickpdf($250)

现在我们使用的是开源PDF2XML(提取文本、图像和链接)和ghostscript(快照和缩略图)。剩下的还有:

我们在花很多钱(可能会犯错误选择错误的解决方案)或使用免费/开源解决方案之间犹豫不决。

您推荐哪种最好的解决方案来从PDF中提取几乎所有内容?

任何评论都将不胜感激。

5 回复 | 直到 10 年前

1

4

Adam Goode 15 年前

听起来,通过几天或几周的努力,您可以根据需要调整开放源码工具。字体和所有东西都可以被提取出来,这是每个PDF阅读器都必须做的事情来显示它们。

您应该估计程序员的成本($/hr),并将其乘以添加所需的开源功能所需的估计时间(60-80小时?)如果这是更大或接近5000美元无论如何,你可以考虑购买商业软件。

否则,在(相当好的)帮助下 PDF reference 你在路上应该很好。

还有一件事,你可能会发现 Poppler 是有帮助的。它用于呈现PDF,但这与您尝试执行的操作非常相关。

2

1

Mark Redman 15 年前

A:字体:我认为字体无法提取。

B:不确定多媒体

C:什么是热点?

D:看一下ITextSharp(开源),你也许可以提取更多的页面信息。

3

1

Eugene 10 年前

也有 PDF Suite 其中包含3个专门设计用于从PDF中提取内容、将PDF呈现为图像并转换为HTML的SDK。虽然没有字体文件提取,但它支持XML输出和保留原始布局的文本提取。

有一个 "PDF Multitool" 基于此引擎的免费实用程序,因此您可以使用它来查看它如何处理您拥有的PDF文件。

免责声明:我为Bytescout工作

4

0

The_Fox 14 年前

是的,您可以提取文本、文本样式信息、图像、链接注释、书签,甚至可以获取段落ID信息,表除外。检查这个链接。

它真的很管用。

5

0

paco alcacer 10 年前

蒂卡 http://tika.apache.org/ 它的优点是从多种类型中提取文本。但它也能解决你的问题。

执行方面: Tika的目标是尽可能地重用现有的解析器库,如pdfbox或apache poi,因此Tika中的大多数解析器类都是此类外部库的适配器。

我想蒂卡可以像你描述的那样工作。用儿茶提取东西。(稍后将添加更多代码。)

还不是一个确切的答案。