代码之家 › 专栏 › 技术社区 › BYZZav

dataframe apply()真的比dataframe itertuples()慢吗?

pandas python

BYZZav · 技术社区 · 7 年前

我有一个时间+OHLC值的数据集。我想计算每行的范围。我的数据集有400万行。

我有两种方法。

1) df.apply

df['range'] = df[['high', 'low', 'open']].apply (lambda row: (row.high 
- row.low) * (10000 / row.open), axis=1)

2) df.itertuples

def calc_range(df):
   displacement = []
   for row in df.itertuples():
        displacement.append((row.high - row.low) * (10000 / row.open))
   return displacement

df['range'] = calc_range(df)

接近1:55秒

接近2:6秒

我一直认为apply比使用for循环遍历数据帧更快。但似乎我错了。

我想知道两件事- 1)是否有方法优化此应用代码? 2)对于非常大的数据帧,迭代速度是否更快?

非常感谢

0 回复 | 直到 7 年前

推荐文章

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

1 年前

Cam · Pandas列表日期到日期时间

1 年前

jjkennedy · Pandas文本文件导入:当每个文件中存在多个表时,自动选择1个表

1 年前

Sun Jar · 在另一个系列中查找当前df值的索引,并将其添加到列中

1 年前

dietzi96 · Pandas DataFrame.to_sql随机和静默地失败,没有错误消息

1 年前

Bijan · Pandas批量更新帐户字符串

1 年前

Kernel · TypeError:Index.reindex()收到意外的关键字参数fill_value'

1 年前

Kernel · 进入熊猫的定义。系列super().reindex

1 年前

adventurous_chip_55 · 如何引爆柱子

1 年前

RKIDEV · Panda迭代行并将第n行值乘以下一(n+1)行值

1 年前