代码之家 › 专栏 › 技术社区 › Isa

PDF中的机械化数据提取和文本识别

ocr computer-vision pdf

Isa · 技术社区 · 8 年前

下面的链接包含了我在谷歌上找到的一张图片。我并不拥有这幅图像,但出于说明目的,我正试图提取位于类似于此的结构化“块”中的信息,并以编程方式处理提取的信息。

所有文本均为打印/打字文本,理论上应具有良好的准确性。我愿意根据需要学习,以使这项工作,但我不知道从哪里开始。我想知道

这是一个一次性练习,意味着它使事情变得“漂亮”,而“哑巴证明”(即不需要GUI)并不重要。

谢谢

1 回复 | 直到 8 年前

Joris Schellekens 8 年前

这可以使用两种工具的组合。iText和Tesseract OCR。伪代码:

推荐文章

anfas2 · 如何使用MediaPipe在Python中检测到的地标上叠加自定义形状?

1 年前

Hui Liu · 为什么在透视投影过程中需要使用齐次坐标作为相机/世界坐标?

1 年前

Jaime Manuel Garcia Dominguez · 为什么图像结果翻转了90度?

1 年前

FD22EC008 · 每当我试图在我的Smowcode ide上上传代码时;它不断上传

1 年前

samuelkaris · 如何将实时计算机视觉代码集成到django中

1 年前

Flush · 如何在计算机视觉的多类分类任务中分割数据集?

2 年前

Extra_Caterpillar · 我面临着使用白蛋白增强图像的问题

2 年前

euraad · Ballard和Guil在广义Hough变换中有什么区别?[已关闭]

2 年前

Christian Tan · 如何在react native中将jpg图像转换为张量?

2 年前

fampkin · 下载Yolov8.Net时出现问题

2 年前