|
1
1
因此,这里的答案适用于可能需要评估哪些选项适用于卸载的其他人。事后看来,这其实并不难。请注意,此处不考虑AZURE和非AWS供应商。简而言之,那么:
EMR提供了一些工具,AMAZON认为这些工具将用于数据科学、分析等领域。但如果需要,您可以“引导”自己的需求/软件。 电子病历集群包括 短跑 EC2实例和资源调配在水下进行。这样很容易得到补丁。你也可以很容易地调整大小。计算和存储是分离的,因此很容易实现这种扩展。 弹性显然更适用于计算,只要你需要数据,数据就需要存在。EMR依靠S3将结果保存到更长期的数据库中。保存后,将终止EMR群集,并在需要时启动新的EMR群集,并将保存的S3结果(如果适用)附加到此新群集。EMRFS允许S3看起来像HDFS的一部分,并提供了方便的访问。存在支持EBS的storaged,允许在EC2实例期间将结果保存到绑定到该实例的存储器中。
S3不能很好地提供即席查询,因此您需要另一个AWS管理的服务,如Presto/Athena或Redshift(Spectrum),这是一组额外的服务和成本。仅提及这一点是因为S3性能较慢。
如果您希望自己为EC2实例提供一个syou所需的软件控制权以及在Hadoop环境中所需的内容,那么您可以选择此路径。 EC2实例(VM)具有计算能力、内存、EBS支持的临时存储,并将EFS用于HDF或(比如)KUDU和S3的文件系统。S3访问不像使用EMR的EMRFS下那么容易访问。
根据EC2实例的运行时间,计费是更可预测的,并且计费持续应用于任何持久化存储。 重要的一点是,可以将EC2方法与数据科学的EMR集群结合起来,例如,在Hadoop上加载DWH-if“卸载”。
对于临时查询,AMAZON表示他们对S3不太确定,根据经验,使用EFS fof HDFS/拼花地板或KUDU非常快,至少可以说,根据我的经验。 |
|
|
Bik · 查询如何使用EC2连接实例 2 年前 |