代码之家  ›  专栏  ›  技术社区  ›  Daniel Micoski

如何在python中横向读取pdf?

  •  0
  • Daniel Micoski  · 技术社区  · 7 年前

    我有一个面向纵向的pdf文件,但在某些页面中 文本 是横向的。使用PyPDF2读取上面的页面时,我从extractText()函数中获得以下文本:

    page.extractText()
    

    Out[24]:“U~00 w.T~,ca o rn o\rn rn rn ~>,p y ro ti ~ a ~ v CN d V1 U x ~ U bb Q p ~ o U y ~~ F ~ o vl VI I ~ p*00 p N o CN 0 v l o ~ o 7 0’” aIs s~ ~Y~~O~ pp p。p vl p O’O O F-1 F cn W>1千牛-英寸-英寸-英寸-英寸-英寸-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米-毫米。o o。-。在vl 3~a~tn上,以M~O为单位。m00 woNN p 00 a+-fl n ~ n a O;~o ^ o a.~ N〜G〜L〜U U 0 3ed〜a o〜zce bp eV+wb0 CI ce a tn〜o〜I“

    以下是我试图提取文本的页面示例: Portrait page, landscape text

    1 回复  |  直到 7 年前
        1
  •  0
  •   J_H    7 年前

    如果OCR没有将文本放入PDF文档中,则无法读取文本。

    尝试使用pdflatex或文字处理器生成类似的混合定向文档,并从中提取文本进行比较。

    考虑在文本识别阶段之前,通过将图像倾斜近90度的角度来帮助完成OCR包。