代码之家  ›  专栏  ›  技术社区  ›  Jamal Khan

如何在Apache Spark中读取500 GB的大文件CSV文件并对其执行聚合?

  •  2
  • Jamal Khan  · 技术社区  · 11 月前

    如何在Apache Spark中读取500 GB的大文件CSV文件,并对其中一个列执行计算和转换。我得到了一个大文件来执行ETL和计算。我是Python/Spark的新手。任何帮助都将不胜感激

    尝试读取文件并应用公式,但耗时太长。

    1 回复  |  直到 11 月前
        1
  •  1
  •   Farrukh Naveed Anjum    11 月前

    您可以采取许多火花配置和优化步骤来加快整体处理时间。

    1. 压缩输入输出数据以节省时间(使用百草枯格式,它针对大型处理进行了优化)。
    2. 尝试只阅读必要的列。
    3. 应用过滤器还可以减少时间
    4. 尝试启用Apache箭头(这将加快速度)-又名箭头优化 在配置中设置此属性 spark.sql.execution.arrow已启用 价值到 真的 .
    5. 缓存您的数据