代码之家 › 专栏 › 技术社区 › Sun

Spark HDFS直接读取与配置单元外部表读取

apache-spark-sql

Sun · 技术社区 · 6 年前

目录结构:

/数据/表1/摄取日期=20180102

现在我们要在spark job中处理这些数据。在这个程序中,我可以通过给出确切的目录路径(选项1)直接读取这些HDFS目录,也可以从配置单元读取到数据帧和进程(选项2)。

我想知道下面的选项1或选项2是否有任何显著的区别。如果需要其他细节,请告诉我。提前谢谢

1 回复 | 直到 6 年前

Ged 6 年前

如果要选择列的子集,则只能通过火花.sql. 在你的用例中,我认为不会有显著的区别。

使用sparksql,您可以自动进行分区修剪。

推荐文章

maximodesousadias · 如何根据条件删除日期后的记录

1 年前

Joe Bloggr · 如何将Dataframe类型的函数参数传递给SparkSQL查询

1 年前

Shankar Panda · 如何从org.apache.spark.sql获取密钥。在scala中键入列并将其放入列表变量中?

1 年前

Aaron Brazier · 连接2个pyspark数据帧并继续运行窗口sum和max

1 年前

user23358051 · 火花顺序优化规则

1 年前

Tristpost · 如何从我自己的Java Stream将CSV数据最好地加载到Apache Spark数据帧中?

1 年前

David Cunningham · Pyspark结构化流媒体-来自以前记录的数据

1 年前

Surender Raja · 对case语句的pyspark查询引发错误

1 年前

ConfusedDeveloper · 取消查看SPARK SQL中的列组

1 年前

nfsp412 · 当我使用spark-sql时,将出现此错误

1 年前