代码之家 › 专栏 › 技术社区 › WomenWhoCode

在EMR上运行Spark应用程序速度较慢

amazon-emr emr mapreduce java-8 apache-spark

WomenWhoCode · 技术社区 · 7 年前

我是Spark和MApReduce的新手,在Elastic Map Reduce(EMR)AWS集群上运行Spark时遇到问题。问题是在EMR上运行要花费我很多时间。

例如,我有数百万的记录。csv文件,我在JavaRDD中读取和转换。对于Spark,在此数据集上计算简单的mapToDouble()和sum()函数需要104.99秒。

然而,当我在没有Spark的情况下使用Java8和转换进行相同的计算时。要列出csv文件,只需0.5秒。(见下面的代码)

这是火花代码(104.99秒):

    private double getTotalUnits (JavaRDD<DataObject> dataCollection)
{
    if (dataCollection.count() > 0) 
    {
        return dataCollection
                .mapToDouble(data -> data.getQuantity())
                .sum();
    }
    else
    {
        return 0.0;
    }
}

这是相同的Java代码,没有使用spark(0.5秒)

    private double getTotalOps(List<DataObject> dataCollection)
{
    if (dataCollection.size() > 0)
    {
        return dataCollection
                .stream()
                .mapToDouble(data -> data.getPrice() * data.getQuantity())
                .sum();
    }
    else
    {
        return 0.0;
    }

}

我是EMR和Spark的新手,所以我不知道该怎么解决这个问题?

更新时间: 这是函数的单个示例。我的全部任务是计算不同的统计数据(总和、平均值、中值),并对6 GB的数据执行不同的转换。这就是我决定使用Spark的原因。整个应用程序的数据容量为6gb,使用常规Java运行大约需要3分钟,使用Spark和MapReduce运行18分钟

1 回复 | 直到 7 年前

Gyanendra Dwivedi 7 年前

我想你是在拿桔子和苹果作比较。您必须了解何时使用BigData和普通Java程序?

大数据并不是为了处理小规模的数据,Bigdata框架需要在分布式环境中执行多个管理任务,这是一项巨大的开销。对于小数据,实际处理时间可能与hadoop平台中管理整个过程所需的时间相比非常小。因此,一个独立的程序比BigData工具(如 mapreduce ,则, spark 等

如果希望看到差异,请确保通过上述两个程序处理至少1 TB的数据,并比较处理相同数据所需的时间。

除此之外,BigData还在处理过程中引入了容错功能。想想看,如果JVM崩溃(比如OutOfMEmoryError)正常的Java程序执行,会发生什么?在普通java程序中,整个过程都会崩溃。在Bigdata平台中,该框架确保处理不会停止,并执行故障恢复/重试过程。这使得它具有容错性,并且不会因为崩溃而失去对数据其他部分所做的工作。

下表大致解释了您应该何时切换到大数据。

推荐文章

Suanmeiguo · 为什么集群模式下的Spark-on-thread会因“线程中的异常”驱动程序“java.lang.NullPointerException”而失败?

7 年前

CyberPlayerOne · Amazon DynamoDB:警告“DynamoDB表JobDetails的配置写入吞吐量小于集群映射容量”

7 年前

Charles Green · AWS EMR Spark未使用自定义Jar加载MainClass

7 年前

WomenWhoCode · 在EMR上运行Spark应用程序速度较慢

7 年前

Yuriy Bondaruk · 具有多个加密密钥提供程序的EMR

7 年前

Markus · 如何按需创建EMR集群并执行aws EMR命令?

7 年前

user3407267 · 如何获取集群信息以调用REST API(从驱动程序中)?

7 年前

Alex · nginx反向代理以不同的方式处理请求url

7 年前

topherW · AWS EMR Presto使用AWS Glue无法找到正确的配置单元模式

7 年前

Milos Bejda · 在齐柏林飞艇中添加spark csv依赖项会产生网络错误

7 年前