撇开与RDD映射部分讨论的数据库连接方面不谈,并注意到对于我来说,与RDD抽象相比,隐藏在引擎盖下的数据框架更难遵循:
从spark 2.0开始,数据帧是一个组织成命名列的数据集。为了回答您的问题,不需要将数据帧转换回RDD以实现性能和优化,因为与原始RDD相比,由于以下原因,数据集和数据帧本身非常有效。