如何在Apache Spark中读取500 GB的大文件CSV文件,并对其中一个列执行计算和转换。我得到了一个大文件来执行ETL和计算。我是Python/Spark的新手。任何帮助都将不胜感激
尝试读取文件并应用公式,但耗时太长。
您可以采取许多火花配置和优化步骤来加快整体处理时间。