8
|
Danny · 技术社区 · 7 年前 |
![]() |
1
18
忽略它。
AWS SDK的最新版本总是在您呼叫时提醒您
请参见: SDK repeatedly complaining "Not all bytes were read from the S3ObjectInputStream
如果您经常看到这种情况,并且正在使用ORC和Parquet等列数据格式,请通过设置属性将输入流切换到随机IO over sequential
注意,Hadoop 3在S3A中有一个小补丁。最终关闭时的x HADOOP-14596 . 由EMR团队决定是否退出。 +我将在S3A疑难解答文档中添加一些文本。ASF从来没有发布过带有此问题的hadoop版本,但如果人们使用AWS SDK进行混搭(非常脆弱),那么这可能会出现 |
![]() |
2
1
注:
这仅适用于非EMR安装,因为AWS不提供
在根据Steve Loughran的回答选择忽略警告或通过设置更改输入流之前,请绝对确保您没有使用
从Spark 2开始,您应该通过
|
![]() |
Leonard · Pyspark:JSON到Pyspark数据帧 2 年前 |
![]() |
juamd · 顺序(k,<元组>)RDD 7 年前 |
![]() |
Gaurav Gupta · 如何加载多行记录的CSV文件? 7 年前 |
![]() |
Jared · 如何在本地模式下运行的pyspark中读取S3? 7 年前 |
![]() |
ka_boom · 在pyspark中链接多个groupBy 7 年前 |
![]() |
ds_user · 在apache spark中复制记录计数 7 年前 |
![]() |
ds_user · 结合类型和子类型的Apache Spark组 7 年前 |