代码之家 › 专栏 › 技术社区 › mr.bjerre

有效地查找字符串列表中的所有子字符串

search pandas string python

mr.bjerre · 技术社区 · 7 年前

pandas 数据帧由给定

import string
import random
import pandas as pd

n = 10000

def id_generator(chars=string.ascii_uppercase + string.digits, size=6):
    return ''.join(random.choice(chars) for _ in range(size))


mfr = [id_generator(size=random.randint(3, 20)) for _ in range(n)]
desc = [id_generator(size=random.randint(3, 50)) +
        (' ' + random.choice(mfr) if random.random() > 0.8 else '') for _ in range(n)]

df = pd.DataFrame({'id': range(n), 'mfr': mfr, 'desc': desc}).set_index('id')

                   mfr                                               desc
id                                                                       
0              XACYXAB                            6JYLELA2WUR1MVOS5 1VKF5
1   JOLB082YROZO97PGS5  YWWTUR4A19JKVB5HLBQ9RKVHNJ10J08SQZZHSLG2IB 4MK...
2                 88QO                            DUV566OX9OLSLZJZR9CRWNT
3        DW4S6WTRGWJVE                                                MFE
4             Z2I5VOWK                 IX5DY8GLSPGD5R8W350DZ6ED8CGN2C20GA

对于每个 制造商 我希望找到的价值描述 身份证件 通过

df['matches'] = df.mfr.map(lambda x: df.index[df.desc.str.contains(x)].tolist())

从而得到预期的结果

                   mfr                                               desc matches
id                                                                               
0              XACYXAB                            6JYLELA2WUR1MVOS5 1VKF5      []
1   JOLB082YROZO97PGS5  YWWTUR4A19JKVB5HLBQ9RKVHNJ10J08SQZZHSLG2IB 4MK...      []
2                 88QO                            DUV566OX9OLSLZJZR9CRWNT      []
3        DW4S6WTRGWJVE                                                MFE      []
4             Z2I5VOWK                 IX5DY8GLSPGD5R8W350DZ6ED8CGN2C20GA      []
5   UPCTNHIF2BOAGOB2WL                  MB2GCMRLQTYD1YRGBJILQ0CZ3LCR2FYHX      []
6              L8K9E3T                                         WW0M73FPD4      []
7                  ZQT               NWNMFRB1ZTMKUVXZH0BFTSIOC3R84XSPRLJS   [532]
8       SPEJJW1JGGSG8B                           7NYL32KTN8ZRNYDV2Z NK4T3      []
9               3WWZ46                Z3HVNIBSQVXJG5487YX7EA89SYPHN5M3BJ2      []

问题是我需要一个高性能的算法。提供的那一个不能很好地扩展。问题是,是否有任何好的可伸缩算法来解决这个问题?作为参考,最后一次通话需要42秒左右的时间在一个像样的桌面上 n = 10000 .

1 回复 | 直到 7 年前

jezrael 7 年前

使用嵌套 list comprehension :

n = 1000

d = df['desc'].to_dict()

In [117]: %timeit df['matches1'] = [[k for k, v in d.items() if x in v] for x in df.mfr]
80.8 ms Â± 2.81 ms per loop (mean Â± std. dev. of 7 runs, 10 loops each)

In [118]: %timeit df['matches'] = df.mfr.map(lambda x: df.index[df.desc.str.contains(x)].tolist())
877 ms Â± 27.1 ms per loop (mean Â± std. dev. of 7 runs, 1 loop each)

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

9 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

9 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

9 月前

user29715306 · from_users=和chats=电视节目中的差异

9 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

9 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

9 月前

prayner · 更新嵌套字典包含列表中的项

9 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

9 月前

Dave · 如何在for循环中修改列表值

9 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

9 月前