代码之家 › 专栏 › 技术社区 › kaza

使用ExtractText命令行工具时提取错误的空格字符

pdfbox pdf java

-1

kaza · 技术社区 · 7 年前

用于提取文件的命令是 java -jar pdfbox-app-2.0.7.jar ExtractText -console DiffSzSpaceIssue.pdf . 相同的输出为。

This%is%one%
This%is%two%
This%is%three%
This%is%four%

Code Glyph Name Unicode Character Glyph
37   1          %                 None

在这种情况下,当有unicodes但没有glyph时,您能告诉我如何正确提取文本吗?我期待下面的输出,因为pdf中从未呈现“%”字符。

This is one
This is two
This is three
This is four

1 回复 | 直到 7 年前

kaza 7 年前

推荐文章

qouify · 将PDF转换为具有透明度的PNG

6 月前

paarandika · 如何使用PyMuPDF将unicode文本插入PDF?

7 月前

Yoko · 试图用Javascript在表格中发送多个PDF块

7 月前

Hammad · 调用未定义的方法Dompdf\\FrameDecorator\\Page::add_line()

8 月前

SrinivasR · 有没有办法检查pdf文件中的颜色空间

1 年前

Luka · 如何使更新的文本以粗体显示(Python)

1 年前

ChethiyaKD · 为什么Puppeter PDF生成在Windows上不起作用?

1 年前

mzkrc · ! LaTeX错误:缺少\ begin{document}。错误:LaTeX无法编译paper_template.tex

1 年前

David_E · 根据另一张图纸中的特定值创建循环并保存PDF

1 年前

Dhruv · 使用PyPDF2创建一个空白页面并添加文本内容:模块“PyPDF2”没有属性“pdf”

1 年前