代码之家 › 专栏 › 技术社区 › Clock Slave

python-尝试使用复制模块创建Spark数据帧的副本时出现递归错误

apache-spark-sql pyspark apache-spark python

Clock Slave · 技术社区 · 7 年前

我正在尝试使用 copy 但我遇到了一个 RecursionError . 下面是我使用的代码

>>> df = spark.createDataFrame([[1,2],[3,4]],['x1','x2'])
>>> df.show()
+---+---+
| x1| x2|
+---+---+
|  1|  2|
|  3|  4|
+---+---+
>>> import copy
>>> df_copy = copy.copy(df)

此代码导致 RecursionError: maximum recursion depth exceeded . 我用的时候也是这样 copy.deepcopy 也。

在Python中创建Spark数据帧副本的正确方法是什么?为什么当前的方法会导致递归错误?

1 回复 | 直到 7 年前

Florian 7 年前

复制 DataFrame 您可以将它赋给一个新的变量:

import pyspark.sql.functions as F
import pandas as pd

# Sample data
df = pd.DataFrame({'x1': [1,2,3] })
df = spark.createDataFrame(df)

df2 = df
df2 = df2.withColumn('x1', F.col('x1') + 1)

print('df:')
df.show()
print('df2:')
df2.show()

输出:

df:
+---+
| x1|
+---+
|  1|
|  2|
|  3|
+---+

df2:
+---+
| x1|
+---+
|  2|
|  3|
|  4|
+---+

如你所见,复制后 df 到 df2 改变复制品,我们的原版 数据帧 东风 保持不变。

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

5 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

5 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

5 月前

user29715306 · from_users=和chats=电视节目中的差异

5 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

5 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

5 月前

prayner · 更新嵌套字典包含列表中的项

5 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

5 月前

Dave · 如何在for循环中修改列表值

5 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

5 月前