代码之家 › 专栏 › 技术社区 › samthebest Ende Neu

卡夫卡流有没有像火花一样的蓄能器?

apache-kafka-streams apache-kafka apache-spark scala java

samthebest Ende Neu · 技术社区 · 6 年前

我通常使用累加器在调试、分析、监视和诊断中连接到Spark作业中。我通常在运行Spark作业之前启动一个Future,定期打印统计数据(例如TPS、直方图、计数、计时等)

到目前为止,我找不到任何类似的卡夫卡流。有什么存在吗?我想这至少对卡夫卡应用程序的每个实例都是可能的,但要在多个实例上实现这一点,需要创建一个中间主题。

1 回复 | 直到 6 年前

Matthias J. Sax 6 年前

Kafka Streams通过设计避免了并发——如果累积的数据不需要容错,那么可以在内存中进行,并通过一个挂钟时间标点将其清除。

如果需要容错,可以使用状态存储并用标点符号扫描整个存储以清除它。

这将给你任务级的积累。不确定Spark的累加器是如何工作的,但是如果它提供了一个“全局”视图,我假设它需要通过网络发送数据,并且一个实例只能访问数据(或者可能是广播—不确定如何保证广播情况下的一致性)。类似地,您可以将数据发送到一个主题(具有1个分区),以便将所有数据全局收集到一个地方。

推荐文章

yershalom · 同一消费群体中具有不同分区数量的不同卡夫卡主题

2 年前

Oskars Apinis · 将kafka从服务器迁移到docker容器

3 年前

Sravan Kumar · Apache kafka模式注册表问题

3 年前

Panadol Chong · 无法建立到节点1(localhost/127.0.0.1:9092)的连接。经纪人可能不在。甚至传入正确的端点[重复]

3 年前

MrSham · 如何确保旧版本0.10.0在卡夫卡中只处理一次

3 年前

TheTags · Kafka-PLC4X-Modbus/TCP-作业刮取期间异常

3 年前

Iheb Mar · 卡夫卡制作人/消费者粉碎每一秒的API调用

3 年前

hasherBaba · 在为Nifi编写流媒体服务时,如何解决Java的空指针异常?[闭门]

7 年前

phaigeim · 为storm consumer检查卡夫卡主题的偏移量

7 年前

Raman · Kafka流:POJO序列化/反序列化

7 年前