代码之家 › 专栏 › 技术社区 › Jamal Khan

如何在Apache Spark中读取500 GB的大文件CSV文件并对其执行聚合?

pyspark apache-spark python

2

Jamal Khan · 技术社区 · 1 年前

如何在Apache Spark中读取500 GB的大文件CSV文件,并对其中一个列执行计算和转换。我得到了一个大文件来执行ETL和计算。我是Python/Spark的新手。任何帮助都将不胜感激

尝试读取文件并应用公式,但耗时太长。

1 回复 | 直到 1 年前

1

Farrukh Naveed Anjum 1 年前

您可以采取许多火花配置和优化步骤来加快整体处理时间。