注意
Can't read data in Presto - can in Hive
试图让我
PySpark
应用程序(使用
boto3
)工作中,我不得不做以下几次
-
重新安装
pip
-
重新安装
aws-sdk
boto3型
botocore
,
aws-cli
)
当我设法使我的申请生效时,我最终
Presto
和
S3
,所以
Hive EXTERNAL table
存储在S3上
(同时
Hive
can)
SELECT COUNT(*) FROM my_db.my_table
在普雷斯托
/var/log/presto/server.log
以下文件报告
堆栈跟踪
2018-12-04T12:29:54.433+0530 WARN hive-hive-63 com.facebook.presto.hive.util.ResumableTasks ResumableTask completed exceptionally
java.lang.NoClassDefFoundError: Could not initialize class com.amazon.ws.emr.hadoop.fs.util.EmrFsUtils
at com.amazon.ws.emr.hadoop.fs.s3n.S3Credentials.initialize(S3Credentials.java:45)
at com.amazon.ws.emr.hadoop.fs.HadoopConfigurationAWSCredentialsProvider.<init>(HadoopConfigurationAWSCredentialsProvider.java:26)
at com.amazon.ws.emr.hadoop.fs.guice.DefaultAWSCredentialsProviderFactory.getAwsCredentialsProviderChain(DefaultAWSCredentialsProviderFactory.java:44)
at com.amazon.ws.emr.hadoop.fs.guice.DefaultAWSCredentialsProviderFactory.getAwsCredentialsProvider(DefaultAWSCredentialsProviderFactory.java:28)
at com.amazon.ws.emr.hadoop.fs.guice.EmrFSProdModule.getAwsCredentialsProvider(EmrFSProdModule.java:65)
...
here
我想澄清一下
-
只有普雷斯托似乎受到了影响
蜂箱
,
,
Spark
-
我的
EC2
IAM Role
它允许从所有
S3桶
-
早前普雷斯托在读S3时没有抱怨,问题是在之后才出现的
摆弄
与环境
-
如果我
将配置单元外部表的位置设置为
HDFS
我已经浏览了一些相关的链接,但是没有用