代码之家  ›  专栏  ›  技术社区  ›  YFl

Spark Streaming to Hive或HBase with Hive view-如何处理写入端的微小文件,而不是读取端的OLAP?

  •  0
  • YFl  · 技术社区  · 5 年前

    我的项目中有一个场景,我正在使用spark-sql-2.4.1版本阅读卡夫卡主题消息。我能够使用结构化流媒体处理一天。一旦收到数据并进行处理,我需要将数据保存到hdfs store中相应的拼花文件中。

    我能够存储和读取拼花地板文件,我保持了15秒到1分钟的触发时间。这些文件的大小非常小,因此会产生许多文件。

    这些拼花地板文件需要稍后通过配置单元查询读取。

    所以 1) 这种策略在生产环境中有效吗?还是会导致以后出现小文件问题?

    2) 处理/设计此类场景(即行业标准)的最佳实践是什么?

    3) 这些事情在生产中通常是如何处理的?

    非常感谢。

    0 回复  |  直到 6 年前