代码之家 › 专栏 › 技术社区 › Jiew Meng

aws glue:etl读取s3 csv文件

aws-glue etl amazon-s3 amazon-web-services

Jiew Meng · 技术社区 · 6 年前

我想用ETL从S3读取数据。因为有了ETL作业,我可以设置DPU,希望能加快速度。

但我该怎么做呢?我试过了

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

## @params: [JOB_NAME]
args = getResolvedOptions(sys.argv, ['JOB_NAME'])

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)

inputGDF = glueContext.create_dynamic_frame_from_options(connection_type = "s3", connection_options = {"paths": ["s3://pinfare-glue/testing-csv"]}, format = "csv")
outputGDF = glueContext.write_dynamic_frame.from_options(frame = inputGDF, connection_type = "s3", connection_options = {"path": "s3://pinfare-glue/testing-output"}, format = "parquet")

但似乎没有写什么。我的文件夹如下:

什么不正确?我的输出S3只有一个类似以下的文件: testing_output_$folder$

1 回复 | 直到 6 年前

-3

Tanveer Uddin 6 年前

如果您正在读或写S3 bucket,则bucket名称应具有AWS glue* 用于访问桶的粘附前缀。假设您正在使用预配置的 _156;awsglueservicerole__iam role,仔细研究政策细节将回答为什么粘合作业就是这样。以下是默认的__awsglueservicerole_策略JSON。我我只保留S3相关的部分,以保持简短的演示目的。尽你所能请参见,s3 get/list bucket方法可以访问所有资源,但是当涉及到获取/放置*对象,仅限于AWS胶水- / _157;前缀

我写了一篇 blog 关于可能有帮助的几个自动焊接系统。

如果有任何错误消息,并且我建议的解决方案不起作用,您还可以粘贴日志吗?

推荐文章

Tim · 在java中,有没有更快的方法将字节数组写入文件?

7 月前

DSATH · 我的lambda在代码完成之前就结束了,我不知道为什么

9 月前

explorer · AWS SageMaker项目模板创建失败

1 年前

Nitrox · Terraform-创建AWS S3存储桶策略错误-策略格式错误:字段版本未知

1 年前

Keegan Husom · pd.to_detime()在转换对象时工作不一致

1 年前

Joao Fernando Fernandes Montes · 将S3存储桶中任何文件夹中的文件公开

1 年前

Scarface Jr · 如何获取S3中具有Key Error和异常的对象列表

1 年前

Sunil Garg · 使用nodejs在S3上传文件时出现格式问题

1 年前

ccohen · Github操作和创建用于创建RDS的S3 bucket

1 年前

DataGuy · 将一个S3存储桶中的一个文件复制到另一个S3储存桶中的密钥

1 年前