代码之家  ›  专栏  ›  技术社区  ›  Sun

Spark HDFS直接读取与配置单元外部表读取

  •  1
  • Sun  · 技术社区  · 6 年前

    目录结构:

    /数据/表1/摄取日期=20180102

    现在我们要在spark job中处理这些数据。在这个程序中,我可以通过给出确切的目录路径(选项1)直接读取这些HDFS目录,也可以从配置单元读取到数据帧和进程(选项2)。

    我想知道下面的选项1或选项2是否有任何显著的区别。如果需要其他细节,请告诉我。 提前谢谢

    1 回复  |  直到 6 年前
        1
  •  0
  •   Ged    6 年前

    如果要选择列的子集,则只能通过火花.sql. 在你的用例中,我认为不会有显著的区别。

    使用sparksql,您可以自动进行分区修剪。