下面的链接包含了我在谷歌上找到的一张图片。我并不拥有这幅图像,但出于说明目的,我正试图提取位于类似于此的结构化“块”中的信息,并以编程方式处理提取的信息。
所有文本均为打印/打字文本,理论上应具有良好的准确性。我愿意根据需要学习,以使这项工作,但我不知道从哪里开始。我想知道
这是一个一次性练习,意味着它使事情变得“漂亮”,而“哑巴证明”(即不需要GUI)并不重要。
谢谢
这可以使用两种工具的组合。iText和Tesseract OCR。 伪代码:
http://itextpdf.com/itext7/pdf2Data http://tess4j.sourceforge.net/