|
1
0
这是一个主观问题。一般来说,我会说不,这不是Apache Beam的惯用用法。Apache Beam是定义ETL管道的框架。Beam编程模型没有用于重复数据消除的意见或内置功能。重复数据消除是通过实施(您编写的业务逻辑代码)或数据存储的功能(唯一约束,在SQL或键/值存储中选择DISTINCT)实现的。
是的,梁是合适的。
我不建议在管道中间写入搜索索引。通过这样做,然后尝试在下面的转换中读回数据,您已经在DAG中有效地创建了一个循环。管道可能会受到竞争条件的影响。有两条单独的管道就不那么复杂了——一条用于写入搜索索引(重复数据消除),另一条用于写回S3。
是的,这是一种方法。我相信您可以通过 ReadableFile 班
我不太确定,但我认为这对于以流模式执行的管道来说是不可能的。 |
|
|
Josh Sacks · 控制数据流/Apache Beam输出分片 8 年前 |