代码之家  ›  专栏  ›  技术社区  ›  Akash Ranjan

提高pandas向磁盘写入大数据的速度

  •  0
  • Akash Ranjan  · 技术社区  · 6 年前

    我有一个2亿行50列的大数据框。数据框包含文本和数字数据。

    我正在使用pandas将数据帧写入磁盘,下面是 to_csv() 我使用的功能,

    df.to_csv("test.csv",index=True,header=True,chunksize=100000)
    

    我已经读过很多类似的文章,但是找不到合适的答案。以下是我尝试过的要点,

    • 我已经尝试过多次通过改变块大小、使用编码和压缩来提高性能,但没有一次能显著提高性能。
    • tmpfs (ram磁盘)但没有改进,提供以下步骤以供进一步验证,

      mount -t tmpfs -o size=50000m tmpfs /tmp-disk/

      df.to_csv("/tmp-disk/test.csv",index=True,header=True,chunksize=100000)

    另外,拆分和启动多个线程在这里不是我的选择。我只需要输出csv。

    0 回复  |  直到 6 年前