代码之家 › 专栏 › 技术社区 › Vikram Ranabhatt

利用pyspark数据帧重新划分减少拼花地板尺寸

apache-spark-sql pyspark python

Vikram Ranabhatt · 技术社区 · 5 年前

我将数据存储到S3中的parquet中,它当前使用列进行分区

org_id, device_id, channel_id, source, col1, col2

我正在使用pyspark读/写拼花到se bucket。

分区列是 [org_id, device_id, channel_id]

现在我改变了分区如下

[source, org_id, device_id, channel_id]

原来的拼花地板在重新分区后大小为220MB,变成了7.5MB

现在我担心数据丢失。

我尝试了df.count()方法来处理原始数据和重新分区后的数据它给出的行数相等,即85000行这是验证数据完整性的正确方法吗有没有其他方法来证实这一点?

0 回复 | 直到 5 年前

推荐文章

Kevin Smeeks · Pyspark JDBC分区读取

5 月前

user3579222 · 阅读以前的Spark API

5 月前

Danylo Kuznetsov · 如何在PySpark Rancher中将DataFrame转换为整数?

6 月前

JFlo · 在PySpark笔记本中读取多个Parquet文件

6 月前

Matthew Thomas · partition覆盖动态和“逻辑”分区

10 月前

lenpyspanacb · 在Pyspark中计算重复次数

10 月前

Jamal Khan · 如何在Apache Spark中读取500 GB的大文件CSV文件并对其执行聚合?

11 月前

Jamal Khan · 我们如何在Apache Spark中实现CDC(变更数据捕获)?

11 月前

maximodesousadias · 如何根据条件删除日期后的记录

11 月前

Joe Bloggr · 如何将Dataframe类型的函数参数传递给SparkSQL查询

12 月前