![]() |
1
2
s3 dist cp建立在Hadoop AWS库之上,该库不支持使用现成的加速桶。 您希望自己制作一个依赖于Hadoop AWS和Amazon-SDK-S3的JAR,在那里转换所需参数,并扩展S3ClientFactory以实现加速上载。 Maven依赖项示例:
S3客户工厂:
最后一步是为Hadoop提供S3工厂类:
这也可以从命令行中完成,因此您可以直接在EMR接口或EMR SDK中指定它。 对于副本本身,可以使用Hadoop 文件实用程序.copy API,您可以在那里指定源和目标,以及所需的配置。 对于某些特定的文件格式,或者不是基于fs的源或目标,spark可以考虑使用上述实用程序。在某些情况下,它可以使传输更快。 现在您可以向EMR发送JAR步骤:
注: 不要指定Hadoop AWS支持的特定于bucket的端点。它以与加速不兼容的方式使用,每次都会得到相同的异常。 链接: |
![]() |
Tim · 在java中,有没有更快的方法将字节数组写入文件? 7 月前 |
![]() |
DSATH · 我的lambda在代码完成之前就结束了,我不知道为什么 8 月前 |
![]() |
explorer · AWS SageMaker项目模板创建失败 1 年前 |
![]() |
Sunil Garg · 使用nodejs在S3上传文件时出现格式问题 1 年前 |