代码之家 › 专栏 › 技术社区 › pleasedontbelong

shell过滤文件中的禁止字

awk filter shell linux

pleasedontbelong · 技术社区 · 15 年前

祝贝壳爱好者们今天愉快!

基本上我有两个文件:

频率.txt: (多行,空格分隔的文件,包含单词和频率)

de 1711
a 936
et 762
la 530
les 482
pour 439
le 425
...

我有一个包含“禁止”字眼的文件:

stopwords.txt文件: (一行,空格分隔的文件)

 au aux avec le ces dans ...

所以我想删除 频率.txt 所有包含单词的行在 stopwords.txt文件

我怎么能那样做?我想可以用awk来完成。。有点像

awk 'match($0,SOMETHING_MAGICAL_HERE) == 0 {print $0}' frequency.txt > new.txt

但我不确定。。。有什么想法吗??提前付款

4 回复 | 直到 15 年前

j_random_hacker 15 年前

tr ' ' '\n' < stopwords.txt | grep -vwFf - frequency.txt

这个 -w grep 是避免的关键。 le 在stopwords.txt中删除包含喜欢 less 或 little .

ghostdog74 15 年前

$ awk 'FNR==NR{for(i=1;i<=NF;i++)w[$i];next}(!($1 in w))' stop.txt freq.txt
de 1711
a 936
et 762
la 530
les 482
pour 439

Michael Goldshteyn 14 年前

tr ' ' '\n' <stopwords.txt | grep -v -w -F -f - frequency.txt

-v是反转匹配

-F表示模式是一组换行分隔的固定字符串
-f从stopwords.txt文件中获取模式字符串

如果有问题,因为它是空格分隔的,可以使用tr将空格替换为换行符:

pixelbeat 15 年前

join -v1 <(sort frequency.txt) <(tr ' ' '\n' <stopwords.txt|sort) | sort -k2,2rn

推荐文章

mashimena · 如何在Linux中提取列然后通过计算添加新列

2 年前

user2954003 · AWK使用正则表达式匹配字符串并与前一个字符串组合

4 年前

Giancarlo D · 在IPv4地址匹配后使用SED删除行尾的冒号

4 年前

John Smith · 在特定行的末尾添加文本

4 年前

Code With Banchi · 在sed命令中使用变量-sed-e异常:“s”的选项未知

4 年前

Aravinth Kalai · 如何使用Linux shell命令[duplicate]对两列求和并将值保存到第三列

4 年前

nickcrv06 · 使用介于特殊字符之间的awk提取文本

4 年前

nickcrv06 · 在两个常量字符串之间提取单词

4 年前

JCAvila2 · 我需要了解awk Linux命令的帮助

4 年前

sasikumar karuppiah · Awk脚本提取多个不同的分隔符行

4 年前