|
1
|
| Gaurav Singhal · 技术社区 · 7 年前 |
|
1
1
你的任务是IO限制的,瓶颈是硬盘。CPU只需要做一点工作来解析csv中的每一行。 如果按顺序读取,则磁盘读取速度最快。如果您想读取一个大文件,最好让磁盘寻找开始,然后按顺序读取它的所有字节。 如果在同一硬盘上有多个大文件,并且使用多个进程从中读取,那么磁盘头必须在它们之间来回跳跃,每次跳跃需要10毫秒。 多处理仍然可以使代码更快,但您需要将文件存储在多个磁盘上,这样每个磁盘头都可以专注于读取一个文件。 另一种选择是购买固态硬盘。磁盘搜索时间在0.1 ms时要低得多,吞吐量大约快5倍。 |
|
|
2
0
所以这个问题与
不良表现
或者卡在I/O上。问题与Jupyter和Windows有关。在Windows上,我们需要包含这样的if子句:
|