|
|
1
1
我以前遇到过类似的问题,我必须遍历数十万行.csv并解析每一行。 我采用了一种线程化的方法,尝试分批同时进行读取和解析。 这里是 粗略地 我是怎么做到的;
我只是根据我记得以前做过的事情快速地把这段代码拼凑起来,所以它可能并不完全正确。这样做当然会加快速度(至少对于非常大的文件)。 这个想法是始终从hdd中读取,因为字符串解析可能非常昂贵,因此在多个内核上进行批处理可以大大加快速度。 有了这个,我能够在7秒内解析(将每行拆分为大约50个项目,解析键/值对,并从中构建内存中的对象,这是迄今为止最耗时的部分)大约250k行。 |
|
|
2
1
抛开这一点,它与问题上的任何标签都没有特别的关系,但*nix“grep-f”功能在这里可以工作。本质上,您将有一个包含您想要匹配的字符串列表的文件(例如StringsToFind.txt),您将拥有csv输入文件(例如input.csv),下面的命令将输出匹配的行到output.csv
看见 grep man page 了解更多详细信息。 |
|
|
ViSa · 如何在python中分隔存储在变量中的文本以创建数据帧? 1 年前 |
|
|
Joan Lopez · 从csv中提取的数据获得平均值 1 年前 |
|
|
Chinmaya Tewari · 创建新csv文件时权限被拒绝 2 年前 |
|
|
Parker Clark · 通过Bash操作csv中的特定列? 2 年前 |
|
|
James Black · 如何基于列删除CSV文件中重复的行 2 年前 |