代码之家 › 专栏 › 技术社区 › BARATH

apache nifi-使用kafka+合并内容+放置hdfs以避免小文件

hortonworks-dataflow apache-nifi

2

BARATH · 技术社区 · 7 年前

我在Kafka主题中有大约2000000条消息,我想使用nifi将这些记录放入HDF,因此我正在使用 put hdfs->processor for this,以及 consumekafka_0_10->code>但它在hdfs中生成小文件,因此我在推送文件之前使用合并内容处理器来合并记录。如果配置需要更改,请提供帮助。对于少量消息,这很好,但对于具有大量数据的主题,每次记录只写一个文件。

谢谢!!他的随从 ConsumeKafka_0_10 但是它在hdfs中生成小文件,所以我在推送文件之前使用合并内容处理器来合并记录。如果配置需要更改,请提供帮助。对于少量消息,这很好,但对于具有大量数据的主题,每个记录只写一个文件。


   
    
     谢谢您!!

1 回复 | 直到 7 年前

1

3

Bryan Bende 7 年前

最小条目数设置为1,这意味着它可以有从1到最大条目数的任何地方。试着把它调高一些,比如100K。