![]() |
1
2
Kafka Streams通过设计避免了并发——如果累积的数据不需要容错,那么可以在内存中进行,并通过一个挂钟时间标点将其清除。 如果需要容错,可以使用状态存储并用标点符号扫描整个存储以清除它。 这将给你任务级的积累。不确定Spark的累加器是如何工作的,但是如果它提供了一个“全局”视图,我假设它需要通过网络发送数据,并且一个实例只能访问数据(或者可能是广播—不确定如何保证广播情况下的一致性)。类似地,您可以将数据发送到一个主题(具有1个分区),以便将所有数据全局收集到一个地方。 |
![]() |
yershalom · 同一消费群体中具有不同分区数量的不同卡夫卡主题 2 年前 |
![]() |
Sravan Kumar · Apache kafka模式注册表问题 3 年前 |
![]() |
MrSham · 如何确保旧版本0.10.0在卡夫卡中只处理一次 3 年前 |
![]() |
Iheb Mar · 卡夫卡制作人/消费者粉碎每一秒的API调用 3 年前 |
![]() |
Raman · Kafka流:POJO序列化/反序列化 7 年前 |