代码之家 › 专栏 › 技术社区 › maximodesousadias

如何根据条件删除日期后的记录

apache-spark-sql pyspark apache-spark

maximodesousadias · 技术社区 · 2 年前

我正在寻找一种优雅的方法来删除DataFrame中发生在最新事件之前的所有记录 '测试组件' 存在 “不满意” ,基于他们 'TEST_DT' 每个ID的值。

例如,给定ID 5000的以下DataFrame:

| ID   | TEST_ID | TEST_COMPONENT | TEST_DT                       |
|------|---------|----------------|-------------------------------|
| 5000 | ENGL    | SATISFACTORY   | 2023-01-04T00:00:00.000+11:00 |
| 5000 | ENGL    | SATISFACTORY   | 2022-09-07T00:00:00.000+10:00 |
| 5000 | OTHER   | NONE           | 2022-09-07T00:00:00.000+10:00 |
| 5000 | ENGL    | UNSATISFACTORY | 2016-05-23T00:00:00.000+10:00 |
| 5000 | OTHER   | NONE           | 2016-05-23T00:00:00.000+10:00 |
| 5000 | OTHER   | NONE           | 2016-05-23T00:00:00.000+10:00 |
| 5000 | OTHER   | NONE           | 2016-02-09T00:00:00.000+11:00 |
| 5000 | OTHER   | NONE           | 2016-02-09T00:00:00.000+11:00 |
| 5000 | OTHER   | NONE           | 2016-02-09T00:00:00.000+11:00 |
| 5000 | ENGL    | UNSATISFACTORY | 2014-05-29T00:00:00.000+10:00 |
| 5000 | OTHER   | NONE           | 2013-09-27T00:00:00.000+10:00 |

我只想保留最新的行 “不满意” 记录向前。此示例的期望输出为:

| ID   | TEST_ID | TEST_COMPONENT | TEST_DT                       |
|------|---------|----------------|-------------------------------|
| 5000 | ENGL    | SATISFACTORY   | 2023-01-04T00:00:00.000+11:00 |
| 5000 | ENGL    | SATISFACTORY   | 2022-09-07T00:00:00.000+10:00 |
| 5000 | OTHER   | NONE           | 2022-09-07T00:00:00.000+10:00 |
| 5000 | ENGL    | UNSATISFACTORY | 2016-05-23T00:00:00.000+10:00 |

我怎样才能有效地利用 PySpark ?

2 回复 | 直到 2 年前

ManishPrajapati 2 年前

以下是我使用Window函数的尝试:

window_spec = Window.partitionBy("ID")

df = df.withColumn("MAX_DATE",F.max(F.when(df['TEST_COMPONENT']=='UNSATISFACTORY',df['TEST_DT']).otherwise(None)).over(window_spec))
df_drop = df.filter((df['TEST_DT']>F.col('MAX_DATE')) | ((df['TEST_DT']==F.col('MAX_DATE')) & (df['TEST_COMPONENT']=='UNSATISFACTORY')))

df_drop.show(truncate=False)

maximodesousadias 2 年前

我通过在PySpark中执行以下3个步骤实现了这一点:

df_max = df.filter(col("TEST_COMPONENT")=="UNSATISFACTORY")\
.groupBy("ID")\
.agg(max("TEST_DT")\
.alias("LATEST_UNSAT"))

df = df.alias("a").join(\
  df_max.alias("b")\
  ,df.ID == df_max.ID\
  ,"left")

df = df.filter(col("TEST_DT") >= col("LATEST_UNSAT"))

这种方法是有效的,但我愿意听取更好的想法。

推荐文章

maximodesousadias · 如何根据条件删除日期后的记录

2 年前

Joe Bloggr · 如何将Dataframe类型的函数参数传递给SparkSQL查询

2 年前

Shankar Panda · 如何从org.apache.spark.sql获取密钥。在scala中键入列并将其放入列表变量中?

2 年前

Aaron Brazier · 连接2个pyspark数据帧并继续运行窗口sum和max

2 年前

user23358051 · 火花顺序优化规则

2 年前

Tristpost · 如何从我自己的Java Stream将CSV数据最好地加载到Apache Spark数据帧中?

2 年前

David Cunningham · Pyspark结构化流媒体-来自以前记录的数据

2 年前

Surender Raja · 对case语句的pyspark查询引发错误

2 年前

ConfusedDeveloper · 取消查看SPARK SQL中的列组

2 年前

nfsp412 · 当我使用spark-sql时,将出现此错误

2 年前