我在pyspark中有一个数据帧
如果数量大于其他行并且具有相同的id和价格,则我只需要保留行。
预期结果
我试过了,但它只是覆盖了行,而没有比较行,比如当前数量为null,前一个数量为3,它保持为null而不是3
grp_by = ['id', 'price'] df_fin = df.groupBy(*grp_by).agg( *[first(c).alias(c) for c in list(set(df.columns) - set(grp_by))] )