复制
DataFrame
您可以将它赋给一个新的变量:
import pyspark.sql.functions as F
import pandas as pd
# Sample data
df = pd.DataFrame({'x1': [1,2,3] })
df = spark.createDataFrame(df)
df2 = df
df2 = df2.withColumn('x1', F.col('x1') + 1)
print('df:')
df.show()
print('df2:')
df2.show()
输出:
df:
+---+
| x1|
+---+
| 1|
| 2|
| 3|
+---+
df2:
+---+
| x1|
+---+
| 2|
| 3|
| 4|
+---+
如你所见,复制后
df
到
df2
改变复制品,我们的原版
数据帧
东风
保持不变。