代码之家  ›  专栏  ›  技术社区  ›  dilalaq

比较两行,但使用相同的唯一键,并使用Pyspark数据帧只保留较大的数量

  •  0
  • dilalaq  · 技术社区  · 1 年前

    我在pyspark中有一个数据帧

    dataframe

    如果数量大于其他行并且具有相同的id和价格,则我只需要保留行。

    预期结果

    result

    我试过了,但它只是覆盖了行,而没有比较行,比如当前数量为null,前一个数量为3,它保持为null而不是3

     grp_by = ['id', 'price']
     df_fin = df.groupBy(*grp_by).agg(
                *[first(c).alias(c) for c in list(set(df.columns) - set(grp_by))]
            )
    
    0 回复  |  直到 1 年前
    推荐文章