代码之家 › 专栏 › 技术社区 › Bussller Junior Vieira

最快的方法来计算一个字符在一个数组中出现的次数numpy.chararray公司

numpy python-3.x

Bussller Junior Vieira · 技术社区 · 6 年前

蟒蛇学家,

什么是计算一个字符在事件中出现的最快方法 numpy.character 数组。

我正在做以下工作:

In [59]: for i in range(10):
...:     m = input("Enter A or B: ")
...:     rr[0][i] = m
...:     
Enter A or B: B
Enter A or B: B
Enter A or B: B
Enter A or B: A
Enter A or B: B
Enter A or B: A
Enter A or B: A
Enter A or B: A
Enter A or B: B
Enter A or B: A

In [60]: rr
Out[60]: 
chararray([['B', 'B', 'B', 'A', 'B', 'A', 'A', 'A', 'B', 'A']],
          dtype='<U1')

In [61]: %timeit a = rr.count('A')
12.5 Âµs Â± 206 ns per loop (mean Â± std. dev. of 7 runs, 100000 loops each)

In [62]: %timeit d = len(a[a.nonzero()])
3.03 Âµs Â± 54.3 ns per loop (mean Â± std. dev. of 7 runs, 100000 loops each)

2 回复 | 直到 6 年前

Divakar 6 年前

It's better to stick to regular NumPy arrays over the chararrays :

注:

chararray类的存在是为了向后兼容 numpy1.4,如果需要字符串数组,建议使用数组,并使用中的函数numpy.char文件快速矢量化字符串模块操作。

我们可以用 np.count_nonzero 数一数 True 'A' -

np.count_nonzero(rr=='A')

进近#2

chararray 只保留单个字符元素,我们可以通过使用 uint8 然后进行比较和计数。计数会快得多,因为我们将处理数字数据。实施将是-

np.count_nonzero(rr.view(np.uint8)==ord('A'))

在 Python 2.x

np.count_nonzero(np.array(rr.view(np.uint8))==ord('A'))

时间安排

原始样本数据上的计时并缩放到 10,000x 按比例的-

# Original sample data
In [10]: rr
Out[10]: array(['B', 'B', 'B', 'A', 'B', 'A', 'A', 'A', 'B', 'A'], dtype='<U1')

# @Nils Werner's soln
In [14]: %timeit np.sum(rr == 'A')
100000 loops, best of 3: 3.86 Âµs per loop

# Approach #1 from this post
In [13]: %timeit np.count_nonzero(rr=='A')
1000000 loops, best of 3: 1.04 Âµs per loop

# Approach #2 from this post
In [40]: %timeit np.count_nonzero(rr.view(np.uint8)==ord('A'))
1000000 loops, best of 3: 1.86 Âµs per loop

# Original sample data scaled by 10,000x
In [16]: rr = np.repeat(rr,10000)

# @Nils Werner's soln
In [18]: %timeit np.sum(rr == 'A')
1000 loops, best of 3: 734 Âµs per loop

# Approach #1 from this post
In [17]: %timeit np.count_nonzero(rr=='A')
1000 loops, best of 3: 659 Âµs per loop

# Approach #2 from this post
In [24]: %timeit np.count_nonzero(rr.view(np.uint8)==ord('A'))
10000 loops, best of 3: 40.2 Âµs per loop

Nils Werner 6 年前

chararray is deprectated, use array(..., dtype='<U1') instead . 说你能行

r = np.array([['B', 'B', 'B', 'A', 'B', 'A', 'A', 'A', 'B', 'A']])

%timeit numpy.sum(r == 'A')
# 4.82 Âµs Â± 126 ns per loop (mean Â± std. dev. of 7 runs, 100000 loops each)

推荐文章

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

5 月前

Cam · Pandas列表日期到日期时间

5 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

5 月前

jjkennedy · Pandas文本文件导入:当每个文件中存在多个表时,自动选择1个表

5 月前

LMC · Numpy数组布尔索引以获取包含元素

5 月前

vr8ce · 非成对标记中特定字符的正则表达式

6 月前

Kernel · 如果指定了crs参数,shapefile的geopandas.read_file将出错

6 月前

ShaAnder · 为什么sqllachemy返回的是类而不是字符串

6 月前

sixtytrees · detectron2软件包未安装(没有名为“torch”的模块),但我安装了torch

6 月前

Pernoctador · Python映射可以复制吗?我需要参考地图

6 月前