代码之家  ›  专栏  ›  技术社区  ›  Data_101

使用PySpark删除和替换字符

  •  -2
  • Data_101  · 技术社区  · 6 年前

    我有一个数据框,希望删除所有括号并替换为两个连字符。

    之前:

    +------------+
    |  dob_concat|
    +------------+
    |[1983][6][3]|
    +------------+
    

    之后:

    +------------+
    | dob_concat |
    +------------+
    | 1983-6-3   |
    +------------+
    
    1 回复  |  直到 5 年前
        1
  •  9
  •   Ramesh Maharjan    6 年前

    您可以使用 regex_replace 内置功能如下。

    from pyspark.sql import functions as F
    df.withColumn("dob_concat", F.regexp_replace(F.regexp_replace(F.regexp_replace("dob_concat", "\\]\\[", "-"), "\\[", ""), "\\]", "")).show()