代码之家 › 专栏 › 技术社区 › RLave

提取字符串,但有一些例外

regex r

RLave · 技术社区 · 7 年前

我有一堆这样图案的弦:

w <- c("milan 01", "New York", "las vegas 123", "London abc")

但我也得破例处理像这样的案子 "London" .

(为了简化问题,我可以将字符串传递给regex "abc"

我已经做到了:

library(stringr)

str_extract(w, "^\\S*\\s+(\\S+)")
#[1] "milan 01"   "New York"   "las vegas"  "London abc"

str_extract(w, "^\\S*\\s+(\\S+)(\\D)") # can't understand why this won't work
#[1] NA           "New York"   "las vegas " "London abc"

#[1] "milan"   "New York"   "las vegas"  "London"

1 回复 | 直到 7 年前

Wiktor StribiÅ¼ew 7 年前

你可以用

> library(stringr)
> w <- c("Milan 01", "New York", "Las vegas 123", "London abc")
> str_extract(w, "^\\p{L}+(?:\\s+(?!abc\\b)\\p{L}+)?")
# => [1] "milan"     "New York"  "las vegas" "London"

如果第一个词不能 abc 或者,在开头添加前瞻:

> str_extract(w, "^(?!abc\\b)\\p{L}+(?:\\s+(?!abc\\b)\\p{L}+)?")   
                   ^^^^^^^^^^

^ -字符串开头
\\p{L}+ [a-zA-Z]+ (取而代之)
(?:\\s+(?!abc\\b)\\p{L}+)? -一个可选的序列
- \\s+
- (?!abc\\b) -没有 abc公司 作为一个整体,单词可以直接出现在当前位置的右边
- \\p{L}+ -1+个字母

一个基本的R sub 等价物:

> sub("(?s)^(\\p{L}+(?:\\s+(?!abc\\b)\\p{L}+)?).*", "\\1", w, perl=TRUE)
> ## OR > sub("(?s)^(?!abc\\b)(\\p{L}+(?:\\s+(?!abc\\b)\\p{L}+)?).*", "\\1", w, perl=TRUE)
[1] "milan"     "New York"  "las vegas" "London"

在这里, (?s) 制造 .

推荐文章

Amp · 使用R ggplot2删除geom_radial中axis.line和panel.border之间的空格

1 年前

Hard_Course · 用另一列中的值替换行的最后一个非NA条目

1 年前

Mark R · 使用geom_sf()删除地球仪上不需要的网格线

1 年前

Joe · 根据对工作日和本周早些时候的日期的了解,找到一个日期

1 年前

Ben · 统计向量中的单词在字符串中出现的频率

1 年前

TheCodeNovice · R中符号格式的尾随零和其他问题[重复]

1 年前

katefull06 · 在R中使用terra修改范围时,会为单独的SpatRaster重写范围

1 年前

dez93_2000 · 在R管道子功能中引用管道对象的当前状态

1 年前

accibio · 在ggplot2中为同一变量创建两个连续的颜色渐变比例

1 年前

Mankka · 如何在Ggplot2中绘制均匀的径向图

1 年前