代码之家 › 专栏 › 技术社区 › alexanoid

AWS EMR Apache Spark和VPC中的自定义S3端点

amazon-emr amazon-s3 apache-spark amazon-web-services

alexanoid · 技术社区 · 7 年前

我在VP中使用ApacheSpark和Redshift,在源数据中使用AWS S3,在Redshift拷贝中使用temp数据。

现在我怀疑AWS S3的读/写性能不够好,这是基于下面讨论中的建议 https://github.com/databricks/spark-redshift/issues/318 我已经在VPC中创建了S3端点。现在,当我从S3加载数据时,我看不到S3端点创建前后的任何性能差异。

在Apache Spark中,我以以下方式读取数据:

spark.read.csv("s3://example-dev-data/dictionary/file.csv")

为了正确使用AWS S3端点,我是否需要在AWS EMR Apache Spark上添加/配置一些额外的逻辑/配置?

0 回复 | 直到 7 年前

spinatelli 7 年前

S3 VPC端点是一个 Gateway Endpoint 因此,您必须在子网的路由表中添加一个新条目,从中启动将流量路由到端点的EMR群集。

推荐文章

Tim · 在java中,有没有更快的方法将字节数组写入文件?

1 年前

DSATH · 我的lambda在代码完成之前就结束了,我不知道为什么

1 年前

explorer · AWS SageMaker项目模板创建失败

1 年前

Nitrox · Terraform-创建AWS S3存储桶策略错误-策略格式错误:字段版本未知

1 年前

Keegan Husom · pd.to_detime()在转换对象时工作不一致

1 年前

Joao Fernando Fernandes Montes · 将S3存储桶中任何文件夹中的文件公开

2 年前

Scarface Jr · 如何获取S3中具有Key Error和异常的对象列表

2 年前

Sunil Garg · 使用nodejs在S3上传文件时出现格式问题

2 年前

ccohen · Github操作和创建用于创建RDS的S3 bucket

2 年前

DataGuy · 将一个S3存储桶中的一个文件复制到另一个S3储存桶中的密钥

2 年前