代码之家  ›  专栏  ›  技术社区  ›  alexanoid

AWS EMR Apache Spark和VPC中的自定义S3端点

  •  0
  • alexanoid  · 技术社区  · 7 年前

    我在VP中使用ApacheSpark和Redshift,在源数据中使用AWS S3,在Redshift拷贝中使用temp数据。

    现在我怀疑AWS S3的读/写性能不够好,这是基于下面讨论中的建议 https://github.com/databricks/spark-redshift/issues/318 我已经在VPC中创建了S3端点。现在,当我从S3加载数据时,我看不到S3端点创建前后的任何性能差异。

    在Apache Spark中,我以以下方式读取数据:

    spark.read.csv("s3://example-dev-data/dictionary/file.csv")
    

    为了正确使用AWS S3端点,我是否需要在AWS EMR Apache Spark上添加/配置一些额外的逻辑/配置?

    0 回复  |  直到 7 年前
        1
  •  1
  •   spinatelli    7 年前

    S3 VPC端点是一个 Gateway Endpoint 因此,您必须在子网的路由表中添加一个新条目,从中启动将流量路由到端点的EMR群集。