我在Kafka主题中有大约2000000条消息,我想使用nifi将这些记录放入HDF,因此我正在使用 put hdfs->processor for this,以及 consumekafka_0_10->code>但它在hdfs中生成小文件,因此我在推送文件之前使用合并内容处理器来合并记录。 如果配置需要更改,请提供帮助。对于少量消息,这很好,但对于具有大量数据的主题,每次记录只写一个文件。
put hdfs->processor for this,以及 consumekafka_0_10->code>但它在hdfs中生成小文件,因此我在推送文件之前使用合并内容处理器来合并记录。 如果配置需要更改,请提供帮助。对于少量消息,这很好,但对于具有大量数据的主题,每次记录只写一个文件。
consumekafka_0_10->code>但它在hdfs中生成小文件,因此我在推送文件之前使用合并内容处理器来合并记录。 如果配置需要更改,请提供帮助。对于少量消息,这很好,但对于具有大量数据的主题,每次记录只写一个文件。
谢谢!!他的随从 ConsumeKafka_0_10 但是它在hdfs中生成小文件,所以我在推送文件之前使用合并内容处理器来合并记录。 如果配置需要更改,请提供帮助。对于少量消息,这很好,但对于具有大量数据的主题,每个记录只写一个文件。
ConsumeKafka_0_10
谢谢您!!
最小条目数设置为1,这意味着它可以有从1到最大条目数的任何地方。试着把它调高一些,比如100K。