代码之家  ›  专栏  ›  技术社区  ›  Vikram Ranabhatt

利用pyspark数据帧重新划分减少拼花地板尺寸

  •  0
  • Vikram Ranabhatt  · 技术社区  · 5 年前

    我将数据存储到S3中的parquet中,它当前使用列进行分区

    org_id, device_id, channel_id, source, col1, col2
    

    我正在使用pyspark读/写拼花到se bucket。

    分区列是 [org_id, device_id, channel_id]

    现在我改变了分区如下

    [source, org_id, device_id, channel_id]
    

    原来的拼花地板在重新分区后大小为220MB,变成了7.5MB

    现在我担心数据丢失。

    我尝试了df.count()方法来处理原始数据和重新分区后的数据 它给出的行数相等,即85000行 这是验证数据完整性的正确方法吗 有没有其他方法来证实这一点?

    0 回复  |  直到 5 年前