![]() |
1
4
听起来,通过几天或几周的努力,您可以根据需要调整开放源码工具。字体和所有东西都可以被提取出来,这是每个PDF阅读器都必须做的事情来显示它们。 您应该估计程序员的成本($/hr),并将其乘以添加所需的开源功能所需的估计时间(60-80小时?)如果这是更大或接近5000美元无论如何,你可以考虑购买商业软件。 否则,在(相当好的)帮助下 PDF reference 你在路上应该很好。 还有一件事,你可能会发现 Poppler 是有帮助的。它用于呈现PDF,但这与您尝试执行的操作非常相关。 |
![]() |
2
1
A:字体:我认为字体无法提取。 B:不确定多媒体 C:什么是热点? D:看一下ITextSharp(开源),你也许可以提取更多的页面信息。 |
![]() |
3
1
也有 PDF Suite 其中包含3个专门设计用于从PDF中提取内容、将PDF呈现为图像并转换为HTML的SDK。虽然没有字体文件提取,但它支持XML输出和保留原始布局的文本提取。 有一个 "PDF Multitool" 基于此引擎的免费实用程序,因此您可以使用它来查看它如何处理您拥有的PDF文件。 免责声明:我为Bytescout工作 |
![]() |
4
0
是的,您可以提取文本、文本样式信息、图像、链接注释、书签,甚至可以获取段落ID信息,表除外。 检查这个链接。 http://www.pdftron.com/pdfnet/index.html 它真的很管用。 |
![]() |
5
0
蒂卡 http://tika.apache.org/ 它的优点是从多种类型中提取文本。但它也能解决你的问题。 执行方面: Tika的目标是尽可能地重用现有的解析器库,如pdfbox或apache poi,因此Tika中的大多数解析器类都是此类外部库的适配器。 我想蒂卡可以像你描述的那样工作。用儿茶提取东西。(稍后将添加更多代码。) 还不是一个确切的答案。 |