代码之家 › 专栏 › 技术社区 › user3768495

如何正确使用熊猫矢量化?

apply vectorization loops pandas python

user3768495 · 技术社区 · 6 年前

根据 an article , the vectorization 比 apply 熊猫dafaframe列的函数。

但我有一个特殊的案例:

import pandas as pd

df = pd.DataFrame({'IP': [ '1.0.64.2', '100.23.154.63', '54.62.1.3']})

def compare3rd(ip):
    """Check if the 3dr part of an IP is greater than 100 or not"""
    ip_3rd = ip.split('.')[2]
    if int(ip_3rd) > 100:
        return True
    else:
        return False


# This works but very slow
df['check_results'] = df.IP.apply(lambda x: compare3rd(x))
print df

# This is supposed to be much faster
# But it doesn't work ...
df['check_results_2'] = compare3rd(df['IP'].values)
print df

完全错误跟踪如下:

Traceback (most recent call last):
  File "test.py", line 16, in <module>
    df['check_results_2'] = compare3rd(df['IP'].values)
  File "test.py", line 6, in compare3rd
    ip_3rd = ip.split('.')[2]
AttributeError: 'numpy.ndarray' object has no attribute 'split'

我的问题是:我如何正确使用这个 矢量化 方法在这种情况下?

1 回复 | 直到 6 年前

BENY 6 年前

用支票 str 在里面 pandas

df.IP.str.split('.').str[2].astype(int)>100
0    False
1     True
2    False
Name: IP, dtype: bool

自从你提到 vectorize

import numpy as np
np.vectorize(compare3rd)(df.IP.values)
array([False,  True, False])

推荐文章

Costinean Sebastian · 如何优化使用for循环处理大型数组的MATLAB脚本的执行时间?"

8 月前

Gyro · 为什么我的%xmm3寄存器在vbroadcastsd中使用第一个参数,而不是第四个参数?

1 年前

aeiou · 对日志表进行矢量化处理,以确定最新的可用性

1 年前

IchKenneDeinenNamen · 当将向量存储为类属性时,为什么NumPy的矢量化评估速度较慢?

1 年前

roshoka · 如何在不使用for循环的情况下将函数应用于林空间的每个元素

1 年前

Xavier · 变长矢量的矢量化和

1 年前

bbbb · 矢量化或在大型数据帧上使用多重处理[重复]

1 年前

Sterling Butters · NumPy 1D近邻中循环的避免

1 年前

AnthonyML · 修改2d numpy数组中分隔符后的行中的所有元素

1 年前

Tim · np.vectorize和relativelta返回“relativeltaonlydiffs datetime/date”

1 年前