代码之家 › 专栏 › 技术社区 › Kalpesh

如何在spark dataframe、scala中将行转换为列

transpose apache-spark-sql apache-spark scala

Kalpesh · 技术社区 · 8 年前

是否有任何方法可以将数据帧行转换为列。我有以下结构作为输入:

val inputDF = Seq(("pid1","enc1", "bat"),
                  ("pid1","enc2", ""),
                  ("pid1","enc3", ""),
                  ("pid3","enc1", "cat"),
                  ("pid3","enc2", "")
              ).toDF("MemberID", "EncounterID", "entry" )

inputDF.show:

+--------+-----------+-----+
|MemberID|EncounterID|entry|
+--------+-----------+-----+
|    pid1|       enc1|  bat|
|    pid1|       enc2|     |
|    pid1|       enc3|     |
|    pid3|       enc1|  cat|
|    pid3|       enc2|     |
+--------+-----------+-----+

expected result:

+--------+----------+----------+----------+-----+
|MemberID|Encounter1|Encounter2|Encounter3|entry|
+--------+----------+----------+----------+-----+
|    pid1|      enc1|      enc2|      enc3|  bat|
|    pid3|      enc1|      enc2|      null|  cat|
+--------+----------+----------+----------+-----+

请建议是否有任何优化的直接API可用于将行转换为列。我的输入数据量非常大,所以像收集这样的操作,我将无法执行,因为它将获取驱动程序上的所有数据。我正在使用Spark 2。x个

1 回复 | 直到 6 年前

Oli 8 年前

我不确定你需要的是你真正要求的。然而,为了以防万一,这里有一个想法:

val entries = inputDF.where('entry isNotNull)
    .where('entry !== "")
    .select("MemberID", "entry").distinct

val df = inputDF.groupBy("MemberID")
    .agg(collect_list("EncounterID") as "encounterList")
    .join(entries, Seq("MemberID"))
df.show
+--------+-------------------------+-----+
|MemberID|           encounterList |entry|
+--------+-------------------------+-----+
|    pid1|       [enc2, enc1, enc3]|  bat|
|    pid3|             [enc2, enc1]|  cat|
+--------+-------------------------+-----+

列表的顺序不是确定的,但您可以对其进行排序,然后使用 .withColumn("Encounter1", sort_array($"encounterList")(0)) ...

其他想法

如果要将entry的值放入相应的“Conference”列中,可以使用透视:

inputDF
    .groupBy("MemberID")
    .pivot("EncounterID", Seq("enc1", "enc2", "enc3"))
    .agg(first("entry")).show

+--------+----+----+----+
|MemberID|enc1|enc2|enc3|
+--------+----+----+----+
|    pid1| bat|    |    |
|    pid3| cat|    |    |
+--------+----+----+----+

正在添加 Seq("enc1", "enc2", "enc3") 是可选的,但由于您知道列的内容,因此会加快计算速度。

推荐文章

maximodesousadias · 如何根据条件删除日期后的记录

1 年前

Joe Bloggr · 如何将Dataframe类型的函数参数传递给SparkSQL查询

1 年前

Shankar Panda · 如何从org.apache.spark.sql获取密钥。在scala中键入列并将其放入列表变量中?

1 年前

Aaron Brazier · 连接2个pyspark数据帧并继续运行窗口sum和max

1 年前

user23358051 · 火花顺序优化规则

1 年前

Tristpost · 如何从我自己的Java Stream将CSV数据最好地加载到Apache Spark数据帧中?

2 年前

David Cunningham · Pyspark结构化流媒体-来自以前记录的数据

2 年前

Surender Raja · 对case语句的pyspark查询引发错误

2 年前

ConfusedDeveloper · 取消查看SPARK SQL中的列组

2 年前

nfsp412 · 当我使用spark-sql时,将出现此错误

2 年前