|
1
7
如果你有基于文本的PDF,我强烈建议 PDFTextStream . 它不是免费的,但是许可是合理的,而且比PDFBox要好得多。PDFBox阻塞了许多由较新工具生成的PDF文件,并且它所能处理的PDF文件不太一致。PDFTextStream处理我抛出的任何PDF文件,包括带有嵌入PNG图像的PDF文件,PDFBox不能这样做。 如果你质问PDFTextStream的人添加OCR,他们可能会听上去。 |
|
2
2
我们使用ABBYY FineReader引擎11。他们有java包装器。 赞成的意见:
欺骗:
|
|
|
3
1
如果要从基于文本的PDF中提取OCR,可能必须先将其转换为图像。 |
|
|
kempinski · 在分隔符之间随机化文本 10 年前 |
|
|
taiko · CSV文件-如何在Perl中使用正则表达式限制字段长度 10 年前 |
|
|
Alby · 在java中解析来自原始http请求的表单参数 11 年前 |
|
|
Katie H · 解析文本并保持原始格式-Ruby/Rails 11 年前 |
|
|
snookian · 使用2个分隔符分析格式化文本以生成两个数组[重复] 13 年前 |