代码之家 › 专栏 › 技术社区 › IvonaK

如何计算给定字符串在panda中的字符串数组中的出现次数

dataframe pandas python

IvonaK · 技术社区 · 2 年前

我想看看哪些标签在我的数据集中出现得最频繁。当我试着自己做这件事时,我会得到这样的结果:

df['tags'].value_counts()

[‘启动’]80
[比特币]79
[每日精选]78
[‘饮食’、‘健康’、‘身体’、‘酒精’、‘心理健康’]62

有些文章有很多标签,但是我想分别计算每个标签的跟踪计数。

2 回复 | 直到 2 年前

I'mahdi 2 年前

IIUC,你需要使用 ast.literal_eval , explode() ,然后使用 value_counts() .

from ast import literal_eval
import pandas as pd

res = df['tags'].apply(literal_eval).explode().value_counts()
print(res)

输出:

Startup      4
Bitcoin      3
Addiction    2
Health       2
Name: tags, dtype: int64

示例输入数据帧:

df = pd.DataFrame({
    "tags" : [
        "['Startup']", "['Startup']", "['Startup']", "['Startup']",
        "['Bitcoin']", "['Bitcoin']", "['Bitcoin']", 
        "['Addiction', 'Health']", "['Addiction', 'Health']"
    ]
})

感谢@ljmc:

NB。 ast.literal_eval 并不总是安全的。从…起 doc :

这一功能在过去被证明是安全的,但没有定义这意味着什么。这是误导。与更通用的eval()不同,这是专门为不执行Python代码而设计的。[…]但它并非没有攻击:相对较小的输入可能导致内存耗尽或C堆栈耗尽,从而导致进程崩溃。在某些输入上,还可能存在CPU消耗过多而拒绝服务的可能性。因此,不建议在不受信任的数据上调用它。

ljmc 2 年前

您可以使用 collections.Counter 和 apply 或 agg 到您的系列。

import pandas as pd
from collections import Counter

df = pd.DataFrame({
    "tags": [['Startup'], ["Bitcoin"], ["Startup", "Ethereum"]]
})

c = Counter()
df["tags"].apply(c.update)

c 包含

Counter({'Startup': 2, 'Bitcoin': 1, 'Ethereum': 1})

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

3 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

4 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

4 月前

user29715306 · from_users=和chats=电视节目中的差异

4 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

4 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

4 月前

prayner · 更新嵌套字典包含列表中的项

4 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

4 月前

Dave · 如何在for循环中修改列表值

4 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

4 月前