代码之家 › 专栏 › 技术社区 › sobychacko

卡夫卡流中的聚集和状态存储保留

apache-kafka-streams

sobychacko · 技术社区 · 6 年前

我有一个如下的用例。对于每个即将到来的事件,我想看看某个字段,查看其状态是否从A更改为B,如果是,则将其发送到输出主题。流程如下:带有“xyz”键的事件进入状态A,一段时间后另一个事件带有状态B的键“xyz”。我有使用高级DSL的代码。

final KStream<String, DomainEvent> inputStream....

final KStream<String, DomainEvent> outputStream = inputStream
          .map((k, v) -> new KeyValue<>(v.getId(), v))
                    .groupByKey(Serialized.with(Serdes.String(), jsonSerde))
                    .aggregate(DomainStatusMonitor::new,
                            (k, v, aggregate) -> {
                                aggregate.updateStatusMonitor(v);
                                return aggregate;
                            }, Materialized.with(Serdes.String(), jsonSerde))
                    .toStream()
                    .filter((k, v) -> v.isStatusChangedFromAtoB())
                    .map((k,v) -> new KeyValue<>(k, v.getDomainEvent()));

有没有更好的方法来使用DSL编写这个逻辑?

关于由上述代码中的聚合创建的状态存储的几个问题。

它是否在默认情况下创建内存状态存储?
如果我有无限数量的唯一传入密钥,会发生什么? 如果它在默认情况下使用内存中的存储,我不需要切换到持久存储吗? 在DSL中,我们如何处理这种情况?
如果状态存储非常大(内存中或持久性),它将如何影响启动时间?如何使流处理等待,以便完全初始化存储? 或者,在处理任何传入事件之前,Kafka流是否会确保状态存储已完全初始化?

事先谢谢!

1 回复 | 直到 6 年前

Matthias J. Sax 6 年前

默认情况下,将使用持久RockSDB存储。如果你想使用内存中的存储,你可以输入 Materialized.as(Stores.inMemoryKeyValueStore(...))
如果您有无限多的唯一键,那么您最终会耗尽主内存或磁盘,应用程序也会死掉。根据您的语义,您可以通过使用带有大“间隙”参数的会话窗口聚合来终止旧密钥,从而获得“ttl”。
在处理新数据之前,将始终还原状态。如果在内存存储中使用,则会使用底层的changelog主题。根据您所在州的大小,这可能需要一段时间。如果使用Persistent RockSDB Store,则状态将从磁盘加载,因此不需要恢复,应立即进行处理。只有当您释放本地磁盘上的状态时,才会从changelog主题进行还原。

推荐文章

Stella · Kafka流处理期间处理数据时出现异常

7 年前

Stella · kafka流中的处理器节点

7 年前

mukesh210 · 卡夫卡流:Lib Rocks数据库上的UnsatifiedLinkError

7 年前

el323 · Kafka流:通过Json日志中的键进行分组

7 年前

Suchita · 如何使用Avro反序列化器和Avro序列化器为KafkaStreams编写Junit测试用例

7 年前

Cemo · 如何获得有关GlobalKTable状态存储更新的通知?

7 年前

px5x2 · Kafka将GlobalKTable同步流传输到应用程序

7 年前

Dth · 加工机为Kafka流中的单个任务多次调用init()

7 年前

nattyddubbs · Kafka Streams多实例设计含义

7 年前

dvlcis · 如何使用卡夫卡流窗口为烛台图生成创建一条记录

7 年前