代码之家  ›  专栏  ›  技术社区  ›  Maksym

从PDF中提取所有内容[关闭]

  •  8
  • Maksym  · 技术社区  · 15 年前

    正在寻找从PDF文件中提取内容的解决方案(使用控制台工具或库)。

    它将在服务器上用于从上传的PDF文件生成在线电子书。

    需要提取以下内容:

    1. 字体和样式的文本;
    2. 图像;
    3. 音频和视频;
    4. 链接和热点。
    5. 页面快照和缩略图;
    6. 一般PDF信息,如书籍布局、页数等。

    查看Adobe PDF库(5000美元),BCL SDK(?),pdflib(__),quickpdf($250)

    现在我们使用的是开源PDF2XML(提取文本、图像和链接)和ghostscript(快照和缩略图)。剩下的还有:

    1. 字体;
    2. 多媒体;
    3. 热点;
    4. 页面信息。

    我们在花很多钱(可能会犯错误选择错误的解决方案)或使用免费/开源解决方案之间犹豫不决。

    您推荐哪种最好的解决方案来从PDF中提取几乎所有内容?

    任何评论都将不胜感激。

    5 回复  |  直到 10 年前
        1
  •  4
  •   Adam Goode    15 年前

    听起来,通过几天或几周的努力,您可以根据需要调整开放源码工具。字体和所有东西都可以被提取出来,这是每个PDF阅读器都必须做的事情来显示它们。

    您应该估计程序员的成本($/hr),并将其乘以添加所需的开源功能所需的估计时间(60-80小时?)如果这是更大或接近5000美元无论如何,你可以考虑购买商业软件。

    否则,在(相当好的)帮助下 PDF reference 你在路上应该很好。

    还有一件事,你可能会发现 Poppler 是有帮助的。它用于呈现PDF,但这与您尝试执行的操作非常相关。

        2
  •  1
  •   Mark Redman    15 年前

    A:字体:我认为字体无法提取。

    B:不确定多媒体

    C:什么是热点?

    D:看一下ITextSharp(开源),你也许可以提取更多的页面信息。

        3
  •  1
  •   Eugene    10 年前

    也有 PDF Suite 其中包含3个专门设计用于从PDF中提取内容、将PDF呈现为图像并转换为HTML的SDK。虽然没有字体文件提取,但它支持XML输出和保留原始布局的文本提取。

    有一个 "PDF Multitool" 基于此引擎的免费实用程序,因此您可以使用它来查看它如何处理您拥有的PDF文件。

    免责声明:我为Bytescout工作

        4
  •  0
  •   The_Fox    14 年前

    是的,您可以提取文本、文本样式信息、图像、链接注释、书签,甚至可以获取段落ID信息,表除外。 检查这个链接。

    http://www.pdftron.com/pdfnet/index.html

    它真的很管用。

        5
  •  0
  •   paco alcacer    10 年前

    蒂卡 http://tika.apache.org/ 它的优点是从多种类型中提取文本。但它也能解决你的问题。

    执行方面: Tika的目标是尽可能地重用现有的解析器库,如pdfbox或apache poi,因此Tika中的大多数解析器类都是此类外部库的适配器。

    我想蒂卡可以像你描述的那样工作。用儿茶提取东西。(稍后将添加更多代码。)


    还不是一个确切的答案。

    推荐文章