代码之家 › 专栏 › 技术社区 › Daniel Mahler

用dask将单个16M行csv并行转换为拼花地板

dask parquet dataframe csv python

Daniel Mahler · 技术社区 · 7 年前

以下操作有效,但需要将近2小时:

from dask import dataframe as ddf
ddf.read_csv('data.csv').to_parquet('data.pq')

有没有一种方法可以将其并行化?

文件 data.csv 是~2g未压缩,16百万行乘22列。

1 回复 | 直到 7 年前

rpanai 7 年前

我不确定是不是数据有问题。我在我的机器上做了一个玩具例子,同样的命令需要大约9秒。

import dask.dataframe as dd
import numpy as np
import pandas as pd
from dask.distributed import Client
import dask
client = Client()
# if you wish to connect to the dashboard
client

# fake df size ~2.1 GB
# takes ~180 seconds
N = int(5e6)
df = pd.DataFrame({i: np.random.rand(N) 
                   for i in range(22)})
df.to_csv("data.csv", index=False)

# the following takes ~9 seconds on my machine
dd.read_csv("data.csv").to_parquet("data_pq")

推荐文章

Bo Qiang · 使用dask对非常大的数据进行排序?

7 年前

Minsky · 对于具有Dask阵列和/或h5py的环路

7 年前

rth · Dask中具有可重用自定义图的机会缓存

7 年前

morganics · 删除Dask中的空分区

7 年前

Pablo · 使用dask。纸袋从\u序列计算核密度估计

7 年前

Magnus Berg Sletfjerding · Dask的imread返回MemoryError-在导入时更改块大小

7 年前

thebeancounter · python dask数据帧将元组列拆分为两列

7 年前

thebeancounter · python dask数据帧-连接groupby。将输出应用于单个数据帧

7 年前

Julian C · dask按聚合正确使用

7 年前

vva · 如何使用Dask在yarn上运行并行python作业?

7 年前