我使用PdfBox标记了一个pdf。大多数pdf在使用屏幕阅读器时阅读良好。
案例1.我在阅读时看到了一些pdf文件,它是单独阅读一些信件的。
case2.一些pdf在标记后显示在adobe中的标记内容下,就像TJ的文本一样。(本例屏幕阅读器阅读良好)
我想解决这两个问题。帮助我理解,以及我如何才能做到这一点。
示例说明:-
案例1:
我有一个例子pdf是
here
。最后一个内容,如“签名:”、“姓名:”和“电子邮件:”这些单词的第一个字符是分开阅读的。就像“E”空格“mail”。标记后,我的内容流如下所示。
q
0 0 612 792 re
W*
n
BT
11.04 0 0 11.04 18 56.184 Tm
/P << /MCID 16 >> BDC
(E) Tj
ET
EMC
Q
BT
11.04 0 0 11.04 23.3765 56.191 Tm
/P << /MCID 17 >> BDC
[ (m) -5 (ail) 4 (:) ] TJ
EMC
11.04 0.0 0.0 11.04 45.53378 56.191 Tm
/P << /MCID 15 >> BDC
( ) Tj
11.04 0.0 0.0 11.04 47.98466 56.191 Tm
[ (__) 7 (__) -3 (_) 9 (__) -3 (_) 9 (__) 7 (__) -3 (_) 9 (__) -3 (_) 9 (__) -3 (__) 7
(__) -3 (_) 9 (__) -3 (_) 9 (__) -3 (_) 9 (__) -3 (_) 9 (__) 7 (__) -3 (_) 9 (_) 9 (__)
-3 (__) 7 (__) -3 (_) 9 (__) -3 (_) 9 (__) -3 (_) 9 (__) -3 (_) 9 (__) 7 (__) -3 (_) 9
(_) 9 (__) -3 (__) 7 (__) -3 (_) 9 (__) -3 (_) 9 (__) -3 (_) 9 (__) -3 (_) 9 (__) 7 (__)
-3 (_) 9.1 (_) 8.9 (__) -2.9 (__) 6.9 (__) -3 (_) 9.1 (__) -3.1 (_) 9.1 (__) -3.1 (_)
9.1 (__ ) ] TJ
EMC
ET
我所知道的是,“E”的图形状态与“邮件”文本不同。这就是为什么它要单独阅读的原因吗?如果是,那么我如何删除“E”的图形状态?
仅供参考,在adobe中标记它后,内容流如下所示(而且它的阅读非常完美)。
在这里,它删除了q、re、w*和q。图形状态它被删除了。有些用例中我们不应该删除图形状态。我怎么知道什么时候删除?
案例2:
本例
pdf
当我在adobe标签树下标记它的显示时,如下所示。
通过使用adobe,如果我在下面标记它的显示。
在标记之前,我如何精确定位我的内容流以实现像adobe一样的目标?
我可以像使用“PDFBOX”一样更改内容流吗?
我用来标记你可以找到的pdf的代码
here
。