代码之家 › 专栏 › 技术社区 › Josh Sacks

控制数据流/Apache Beam输出分片

apache-beam google-cloud-dataflow python

Josh Sacks · 技术社区 · 8 年前

我们通过实验发现,在数据流/Apache Beam管道中设置明确的输出碎片会导致性能更差。我们的证据表明,数据流最终会秘密地执行另一个GroupBy。我们已经开始让数据流自动选择#个碎片(碎片=0)。但是,对于某些管道,这会导致大量相对较小的输出文件(约15K个文件,每个<1MB)。

是否可以向数据流发送关于输出的预期大小的提示,以便它可以相应地扩展?我们注意到,这个问题主要发生在输入数据集非常大而输出小得多的情况下。

我们正在使用Apache Beam Python 2.2。

1 回复 | 直到 8 年前

Scott Wegner 8 年前

Dataflow/Apache Beam中不支持这种类型的提示。一般来说,Dataflow和Apache Beam被设计为尽可能“无旋钮”,原因如下:

允许数据流服务自己智能地做出优化决策。数据流具有smart autoscaling 可以根据当前工作负载向上或向下扩展工作虚拟机数量的功能。
确保使用Apache Beam SDK编写的管道可以跨 runners (如数据流、Spark或Flink)。管道逻辑是根据一组抽象编写的,这样作业就可以在各种环境中运行。每个工作者都可以对这些高级抽象应用自己的一组优化。

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

1 年前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

1 年前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

1 年前

user29715306 · from_users=和chats=电视节目中的差异

1 年前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

1 年前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

1 年前

prayner · 更新嵌套字典包含列表中的项

1 年前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

1 年前

Dave · 如何在for循环中修改列表值

1 年前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

1 年前