|
77
|
| Mike Cialowicz · 技术社区 · 16 年前 |
|
|
1
61
|
|
|
2
0
这是一个很难解决的问题,因为视觉上相似的PDF可能有一个非常不同的结构,这取决于它们是如何产生的。在最坏的情况下,库基本上需要像OCR一样工作。另一方面,PDF可能包含足够的结构和元数据,以便轻松删除表格和图形,可以对库进行定制以利用这些结构和元数据。 我很确定没有开源工具可以解决各种各样PDF的问题,但我记得听说过商业软件声称完全按照你的要求去做。我相信你在谷歌搜索的时候会碰到他们。 |