代码之家  ›  专栏  ›  技术社区  ›  kaza

使用ExtractText命令行工具时提取错误的空格字符

  •  -1
  • kaza  · 技术社区  · 7 年前

    用于提取文件的命令是 java -jar pdfbox-app-2.0.7.jar ExtractText -console DiffSzSpaceIssue.pdf . 相同的输出为。

    This%is%one%
    This%is%two%
    This%is%three%
    This%is%four%
    

    Code Glyph Name Unicode Character Glyph
    37   1          %                 None
    

    在这种情况下,当有unicodes但没有glyph时,您能告诉我如何正确提取文本吗?我期待下面的输出,因为pdf中从未呈现“%”字符。

    This is one
    This is two
    This is three
    This is four
    

    here .

    1 回复  |  直到 7 年前
        1
  •  1
  •   kaza    7 年前