代码之家 › 专栏 › 技术社区 › dilalaq

比较两行,但使用相同的唯一键,并使用Pyspark数据帧只保留较大的数量

databricks pyspark dataframe

0

dilalaq · 技术社区 · 1 年前

我在pyspark中有一个数据帧

dataframe

如果数量大于其他行并且具有相同的id和价格,则我只需要保留行。

预期结果

result

我试过了,但它只是覆盖了行,而没有比较行,比如当前数量为null,前一个数量为3,它保持为null而不是3

 grp_by = ['id', 'price']
 df_fin = df.groupBy(*grp_by).agg(
            *[first(c).alias(c) for c in list(set(df.columns) - set(grp_by))]
        )

0 回复 | 直到 1 年前