|
0
|
| Bartosz Bilicki Ievgen Lukash · 技术社区 · 5 年前 |
|
|
1
1
保证大小完全相等的分组是相当困难的,但是您可以通过使用数据的散列(模化某个常量)作为键来获得非常接近的结果。例如:
这将提供大致相等的100MB分区。 此外,如果您使用的是DataflowRunner,则根本不需要指定键;系统将自动对数据进行分组,并动态地重新平衡负载以避免掉队。为此,请使用文件IO.write()而不是文件IO.writeDynamic(). |
|
|
Josh Sacks · 控制数据流/Apache Beam输出分片 8 年前 |