代码之家 › 专栏 › 技术社区 › Daniel Micoski

如何在python中横向读取pdf?

pypdf2 landscape-portrait pdf python-3.x

0

Daniel Micoski · 技术社区 · 7 年前

我有一个面向纵向的pdf文件,但在某些页面中文本是横向的。使用PyPDF2读取上面的页面时,我从extractText()函数中获得以下文本:

page.extractText()

Out[24]:“U~00 w.T~,ca o rn o\rn rn rn ~>,p y ro ti ~ a ~ v CN d V1 U x ~ U bb Q p ~ o U y ~~ F ~ o vl VI I ~ p*00 p N o CN 0 v l o ~ o 7 0’” aIs s~ ~Y~~O~ pp p。p vl p O’O O F-1 F cn W>1千牛-英寸-英寸-英寸-英寸-英寸-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米。o o。-。在vl 3~a~tn上,以M~O为单位。m00 woNN p 00 a+-fl n ~ n a O;~o ^ o a.~ N〜G〜L〜U U 0 3ed〜a o〜zce bp eV+wb0 CI ce a tn〜o〜I“

以下是我试图提取文本的页面示例: Portrait page, landscape text

1 回复 | 直到 7 年前

1

0

J_H 7 年前

如果OCR没有将文本放入PDF文档中,则无法读取文本。

尝试使用pdflatex或文字处理器生成类似的混合定向文档,并从中提取文本进行比较。

考虑在文本识别阶段之前,通过将图像倾斜近90度的角度来帮助完成OCR包。

推荐文章

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

5 月前

Cam · Pandas列表日期到日期时间

5 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

5 月前

jjkennedy · Pandas文本文件导入:当每个文件中存在多个表时,自动选择1个表

5 月前

LMC · Numpy数组布尔索引以获取包含元素

6 月前

vr8ce · 非成对标记中特定字符的正则表达式

6 月前

Kernel · 如果指定了crs参数,shapefile的geopandas.read_file将出错

6 月前

ShaAnder · 为什么sqllachemy返回的是类而不是字符串

6 月前

sixtytrees · detectron2软件包未安装(没有名为“torch”的模块),但我安装了torch

6 月前

Pernoctador · Python映射可以复制吗?我需要参考地图

6 月前

关于移动版

代码之家 - 一站式码农服务社区

沪ICP备11025650号