代码之家  ›  专栏  ›  技术社区  ›  fascinating coder

在标记我的pdf后,屏幕上的读者会阅读一些字符而不是单词吗?

  •  0
  • fascinating coder  · 技术社区  · 3 年前

    我使用PdfBox标记了一个pdf。大多数pdf在使用屏幕阅读器时阅读良好。

    案例1.我在阅读时看到了一些pdf文件,它是单独阅读一些信件的。

    case2.一些pdf在标记后显示在adobe中的标记内容下,就像TJ的文本一样。(本例屏幕阅读器阅读良好)

    我想解决这两个问题。帮助我理解,以及我如何才能做到这一点。

    示例说明:-

    案例1: 我有一个例子pdf是 here 。最后一个内容,如“签名:”、“姓名:”和“电子邮件:”这些单词的第一个字符是分开阅读的。就像“E”空格“mail”。标记后,我的内容流如下所示。

    q
    0 0 612 792 re
    W*
    n
    BT
    11.04 0 0 11.04 18 56.184 Tm
    /P << /MCID 16 >> BDC
      (E) Tj
    ET
    EMC
    Q
    BT
    11.04 0 0 11.04 23.3765 56.191 Tm
    /P << /MCID 17 >> BDC
    [ (m) -5 (ail) 4 (:) ] TJ
    EMC
    11.04 0.0 0.0 11.04 45.53378 56.191 Tm
    /P << /MCID 15 >> BDC
    ( ) Tj
    11.04 0.0 0.0 11.04 47.98466 56.191 Tm
    [ (__) 7 (__) -3 (_) 9 (__) -3 (_) 9 (__) 7 (__) -3 (_) 9 (__) -3 (_) 9 (__) -3 (__) 7 
    (__) -3 (_) 9 (__) -3 (_) 9 (__) -3 (_) 9 (__) -3 (_) 9 (__) 7 (__) -3 (_) 9 (_) 9 (__) 
    -3 (__) 7 (__) -3 (_) 9 (__) -3 (_) 9 (__) -3 (_) 9 (__) -3 (_) 9 (__) 7 (__) -3 (_) 9 
    (_) 9 (__) -3 (__) 7 (__) -3 (_) 9 (__) -3 (_) 9 (__) -3 (_) 9 (__) -3 (_) 9 (__) 7 (__) 
    -3 (_) 9.1 (_) 8.9 (__) -2.9 (__) 6.9 (__) -3 (_) 9.1 (__) -3.1 (_) 9.1 (__) -3.1 (_) 
    9.1 (__ ) ] TJ
    EMC
    ET
    

    我所知道的是,“E”的图形状态与“邮件”文本不同。这就是为什么它要单独阅读的原因吗?如果是,那么我如何删除“E”的图形状态?

    仅供参考,在adobe中标记它后,内容流如下所示(而且它的阅读非常完美)。

    enter image description here

    在这里,它删除了q、re、w*和q。图形状态它被删除了。有些用例中我们不应该删除图形状态。我怎么知道什么时候删除?

    案例2: 本例 pdf 当我在adobe标签树下标记它的显示时,如下所示。

    enter image description here

    enter image description here

    通过使用adobe,如果我在下面标记它的显示。

    enter image description here

    enter image description here

    在标记之前,我如何精确定位我的内容流以实现像adobe一样的目标?

    我可以像使用“PDFBOX”一样更改内容流吗?

    我用来标记你可以找到的pdf的代码 here

    0 回复  |  直到 3 年前