![]() |
1
2
没有文件大小选项,只有基于时间的旋转和刷新大小。您可以设置一个大的刷新大小,这是您认为永远不会达到的,然后基于时间的旋转将尽最大努力将大文件分区为日期分区(我们已经能够在一个小时的目录内从connect获得每个主题分区的4GB输出文件) 就个人而言,我建议使用其他工具,如hive、pig、distcp、flink/spark,这取决于可用的工具,而不是同时运行在oozie作业中,以将这些流文件“压缩”为更大的文件。 在连接之前,有卡姆斯,现在是阿帕奇戈布林。在该项目中,它提供了压缩和后期事件处理+配置单元表创建的思想。 这里的一般答案是,您有一个指定的“热着陆区”用于流式数据,然后定期将其存档或“冻结”(这将显示亚马逊冰川/雪球等技术名称) Snowplow ) |
![]() |
Ellen Spertus · 使用Scala访问HBase的推荐方法 6 年前 |
![]() |
Daniel · 目录中的Apache Flink流文件 7 年前 |
![]() |
Jicaar · 一个卡夫卡制作人可以被多个接收器安全使用吗? 7 年前 |