代码之家  ›  专栏  ›  技术社区  ›  Baiyan Huang

读取包含所有格式信息的现有PDF文件

pdf
  •  0
  • Baiyan Huang  · 技术社区  · 15 年前

    我想阅读现有的pdf文件,不仅得到文本,而且还得到格式信息,如:字体(粗体,斜体…)和段落…有没有一个代码库来实现这一点,它是开源的还是商业的?

    我在Windows上支持C语言库,但是C/C++也是可以接受的。

    3 回复  |  直到 8 年前
        1
  •  1
  •   RED SOFT ADAIR    15 年前

    我非常推荐 PDFLIB http://www.pdflib.com/ ) 它的商业版,但它也有一个精简版,你可以免费私人使用。它包含非常多的功能,可用于所有平台。

        2
  •  0
  •   szabgab Brandon Fosdick    11 年前

    我同意梅耶斯先生的说法。其中似乎有很多;在您最喜欢的搜索引擎中搜索“pdf解析器库”(加上您的语言)。

    几首热门歌曲:

    http://www.lowagie.com/iText/

    http://metacpan.org/pod/PDF::Parse

    http://podofo.sourceforge.net/

    http://www.vicman.net/download/13733/ (多个用于.net)

    请注意,如果要编辑现有的PDF,可能需要阅读以下内容:

    http://1t3xt.info/tutorials/faq.php?branch=faq.pdf_in_general&node=replace_word

        3
  •  0
  •   Andrew    8 年前

    pdfium.net sdk也可以帮助您。通过这个api,您可以访问文本、图像和其他对象以及其他属性的集合。 请注意我在开发这个api的公司工作。