代码之家 › 专栏 › 技术社区 › YFl

Spark Streaming to Hive或HBase with Hive view-如何处理写入端的微小文件,而不是读取端的OLAP?

spark-streaming hbase hive hadoop apache-spark

YFl · 技术社区 · 5 年前

我的项目中有一个场景,我正在使用spark-sql-2.4.1版本阅读卡夫卡主题消息。我能够使用结构化流媒体处理一天。一旦收到数据并进行处理,我需要将数据保存到hdfs store中相应的拼花文件中。

我能够存储和读取拼花地板文件,我保持了15秒到1分钟的触发时间。这些文件的大小非常小,因此会产生许多文件。

这些拼花地板文件需要稍后通过配置单元查询读取。

所以 1) 这种策略在生产环境中有效吗?还是会导致以后出现小文件问题?

2) 处理/设计此类场景(即行业标准)的最佳实践是什么?

3) 这些事情在生产中通常是如何处理的?

非常感谢。

0 回复 | 直到 6 年前

推荐文章

Victor Wong · 如何迭代列A以有条件地对列B求和?

1 年前

StripyTiger · 从配置单元中的列表检索元素

2 年前

mfcss · SQL:使用年/月/日分区查询某个时间段的数据

2 年前

MOMO · 配置单元重命名具有分区的表中的列

2 年前

Minnu · json结构类型加载到配置单元

2 年前

PPSATO · 替代在AWS Athena中使用last_value和first_value

2 年前

te time · 按组获取完整的行集

2 年前

MattRgx · 配置单元中的Regexp将一列拆分为3列

4 年前

mishalhaneef · 如何更新蜂箱颤振数据

4 年前

Bhanuchander Udhayakumar · 为什么spark sql的cpu利用率高于hive?

7 年前