|
|
1
2
在一些情况下,您可能需要重新整理数据。以下不是一个详尽的清单,但应该给你和你的想法,为什么你可能会改组: 当你的一个pardo变换有一个非常高的扇出这意味着平行度在pardo之后会增加。如果您不打破这里的融合,您的管道将无法将数据拆分为多台机器来处理它。 考虑一个自由度的极端情况,它为每个输入元素生成一百万个输出元素。考虑这个pardo在其输入中接收10个元素。如果你不打破这个高扇出pardo和它的下游转换之间的融合,它将只能在10台机器上运行,尽管你将拥有数百万个元素。
当您的数据在不同的机器之间没有很好地平衡时**假设您的管道使用9个10MB文件和一个10GB文件。如果每个文件都由一台机器读取,那么您将拥有一台机器,其中的数据比其他机器多得多。 如果不重新整理这些数据,则在管道运行时,大多数计算机都将处于空闲状态。重新调整它允许您重新平衡要在机器上更均匀地处理的数据。
|