代码之家 › 专栏 › 技术社区 › 99miles

使用hpricot获取部分ref属性

hpricot regex xml ruby

99miles · 技术社区 · 14 年前

我想我需要一个hpricot和regex的组合。我需要搜索以“abc/”开头的“ref”属性的“a”标记,并返回后面的文本,直到下一个正斜杠“/”。

所以,假设:

<a href="/abc/12345/xyz123/">One</a>
<a href="/abc/67890/xyzabc/">Two</a>

12345年

有人能帮忙吗?我一直在挣扎。

3 回复 | 直到 14 年前

the Tin Man 14 年前

你不需要正则表达式,但你可以使用它。这里有两个例子,一个是使用regex,另一个是不使用Nokogiri,Nokogiri应该与Hpricot兼容,供您使用,并使用CSS访问器:

require 'nokogiri'

html = %q[
  <a href="/abc/12345/xyz123/">One</a>
  <a href="/abc/67890/xyzabc/">Two</a>
]

doc = Nokogiri::HTML(html)
doc.css('a[@href]').map{ |h| h['href'][/(\d+)/, 1] } # => ["12345", "67890"]
doc.css('a[@href]').map{ |h| h['href'].split('/')[2] } # => ["12345", "67890"]

vurte 14 年前

或者使用regex:

s = '<a href="/abc/12345/xyz123/">One</a>'
s =~ /abc\/([^\/]*)/
return $1

user142019 user142019 14 年前

把绳子分开怎么样 /

(我不知道Hpricot,但据医生说):

doc.search("a[@href]").each do |a|
    return a.somemethodtogettheattribute("href").split("/")[2]; // 2, because the string starts with '/'
end

推荐文章

DotFX · RegEx捕获关键字前但括号后的所有内容

5 月前

user66001 · 正则表达式用于匹配有引号和无引号的文本,并且不匹配任何部分

6 月前

perlchamp · 为什么这也匹配?

6 月前

con · Negative Lookaward在perl正则表达式中不起作用

6 月前

Andrus · 如何在sql中查找第二个匹配项

6 月前

iato · 确保正则表达式不从命名材料中的数字中提取

6 月前

vr8ce · 非成对标记中特定字符的正则表达式

6 月前

MARTIN · 交换第一个和最后一个单词,反转所有中间的字符

7 月前

Carsten · 使用最近的搜索模式更改文本块

7 月前

Eric Marceau · Grep:有没有一种特殊的方法可以将“无字符”作为“字符位置”匹配的置换?

7 月前