代码之家 › 专栏 › 技术社区 › hotmeatballsoup

从S3事件触发AWS EMR Spark作业

amazon-emr amazon-s3 apache-spark amazon-web-services java

hotmeatballsoup · 技术社区 · 5 年前

我正在考虑使用AWS EMR Spark对存储在S3上的非常大的拼花文件运行Spark应用程序。这里的总体流程是,一个Java进程将这些大文件上传到S3,我想自动触发在这些文件上运行Spark作业(注入上传文件的S3密钥名)。

理想情况下,会有某种基于S3的EMR触发器可供连接;也就是说,我将EMR/Spark配置为“监听”S3存储桶,并在对该存储桶进行升级时启动Spark作业。

如果不存在这样的触发器,我可能会混在一起,比如从S3事件中启动Lambda,并让Lambda以某种方式触发EMR Spark任务。

然而我的 理解力 ( 请如果我错了,请纠正我)启动火花工作的唯一方法是:

将作业打包为可执行的JAR文件;和
通过 spark-submit shell脚本

因此,如果我必须做基于Lambda的乱七八糟的工作,我不确定触发EMR/Spark工作的最佳方式是什么,因为Lambda本身并不携带 火花提交 在运行时。即使我配置了自己的Lambda运行时(我相信

有人曾用S3触发器或任何你以前有过吗?

0 回复 | 直到 5 年前

mon 5 年前

EMR Spark作业可以作为一个步骤执行,如中所示 Adding a Spark Step .步骤不仅仅是在引导后的EMR群集创建时。

aws emr add-steps --cluster-id j-2AXXXXXXGAPLF --steps Type=Spark,Name="Spark Program",ActionOnFailure=CONTINUE,Args=[--class,org.apache.spark.examples.SparkPi,/usr/lib/spark/examples/jars/spark-examples.jar,10]

因为它是AWS CLI,所以可以从Lambda调用它,在Lambda中还可以将jar文件上载到HDFS或S3,然后使用S3://或HDFS://指向它。

该文档还有一个Java示例。

AWSCredentials credentials = new BasicAWSCredentials(accessKey, secretKey);
AmazonElasticMapReduce emr = new AmazonElasticMapReduceClient(credentials);

StepFactory stepFactory = new StepFactory();
AmazonElasticMapReduceClient emr = new AmazonElasticMapReduceClient(credentials);
AddJobFlowStepsRequest req = new AddJobFlowStepsRequest();
req.withJobFlowId("j-1K48XXXXXXHCB");

List<StepConfig> stepConfigs = new ArrayList<StepConfig>();

HadoopJarStepConfig sparkStepConf = new HadoopJarStepConfig()
            .withJar("command-runner.jar")
            .withArgs("spark-submit","--executor-memory","1g","--class","org.apache.spark.examples.SparkPi","/usr/lib/spark/examples/jars/spark-examples.jar","10");            

StepConfig sparkStep = new StepConfig()
            .withName("Spark Step")
            .withActionOnFailure("CONTINUE")
            .withHadoopJarStep(sparkStepConf);

stepConfigs.add(sparkStep);
req.withSteps(stepConfigs);
AddJobFlowStepsResult result = emr.addJobFlowSteps(req);

推荐文章

Tim · 在java中,有没有更快的方法将字节数组写入文件?

4 月前

DSATH · 我的lambda在代码完成之前就结束了,我不知道为什么

6 月前

explorer · AWS SageMaker项目模板创建失败

10 月前

Nitrox · Terraform-创建AWS S3存储桶策略错误-策略格式错误:字段版本未知

10 月前

Keegan Husom · pd.to_detime()在转换对象时工作不一致

11 月前

Joao Fernando Fernandes Montes · 将S3存储桶中任何文件夹中的文件公开

1 年前

Scarface Jr · 如何获取S3中具有Key Error和异常的对象列表

1 年前

Sunil Garg · 使用nodejs在S3上传文件时出现格式问题

1 年前

ccohen · Github操作和创建用于创建RDS的S3 bucket

1 年前

DataGuy · 将一个S3存储桶中的一个文件复制到另一个S3储存桶中的密钥

1 年前