![]() |
1
29
Linux系统具有
也就是说,文本挖掘包可能有转换器。A quick rseek.org search |
![]() |
2
26
|
![]() |
3
9
一位同事让我开始使用这个方便的开源工具: http://tabula.nerdpower.org/ . 安装、上载PDF,并在PDF中选择需要数据化的表。不是一个直接的解决方案,但肯定比体力劳动好。 |
|
4
9
纯R解决方案可以是:
然后在数组中有pdf行。 |
![]() |
5
6
|
![]() |
6
5
这个 tabula PDF表格提取器应用程序基于基于Java JAR包的命令行应用程序, tabula-extractor . 这个 R tabulizer package 提供了一个R包装器,可以轻松地将路径传递到PDF文件,并从数据表中提取数据。 tabla可以很好地猜测表的位置,但是您也可以通过指定页面的目标区域来告诉它要查看页面的哪个部分。 可以从多个页面中提取数据,如果需要,可以为每个页面指定不同的区域。 When Documents Become Databases â Tabulizer R Wrapper for Tabula PDF Table Extractor . |
|
7
2
我使用一个外部实用程序来进行转换,并从R调用它。所有文件都有一个包含所需信息的前导表 将路径设置为pdftotxt.exe文件并将pdf转换为文本
|
![]() |
qouify · 将PDF转换为具有透明度的PNG 6 月前 |
![]() |
Yoko · 试图用Javascript在表格中发送多个PDF块 7 月前 |
|
SrinivasR · 有没有办法检查pdf文件中的颜色空间 1 年前 |
![]() |
Luka · 如何使更新的文本以粗体显示(Python) 1 年前 |
![]() |
David_E · 根据另一张图纸中的特定值创建循环并保存PDF 1 年前 |