代码之家 › 专栏 › 技术社区 › astropanic

Nokogiri在段落中查找文本

nokogiri string ruby

astropanic · 技术社区 · 15 年前

我想替换XHTML文档中所有段落的内部文本。

我知道我可以像这样和诺科吉拉一起收到所有的短信

doc.xpath("//text()")

但我只想操作段落中的文本,如何选择段落中的所有文本而不影响链接中最终存在的锚文本?

#For example : <p>some text <a href="/">This should not be changed</a> another one</p>

1 回复 | 直到 15 年前

jeem 15 年前

对于段落的直接子级文本,请使用//p/text()。

irb> h = '<p>some text <a href="/">This should not be changed</a> another one</p>'
=> ...
irb> doc = Nokogiri::HTML(h)
=> ...
irb> doc.xpath '//p/text()'
=> [#<Nokogiri::XML::Text:0x80ac2e04 "some text ">, #<Nokogiri::XML::Text:0x80ac26c0 " another one">]

对于段落的子代(直接或非直接)文本,请使用//p//text()。要排除那些有锚定作为父级的文本,您只需减去它们即可。

irb> doc.xpath('//p//text()') - doc.xpath('//p//a/text()')
=> [#<Nokogiri::XML::Text:0x80ac2e04 "some text ">, #<Nokogiri::XML::Text:0x80ac26c0 " another one">]

可能有一种方法可以通过一个调用来完成,但是我的XPath知识并没有深入。

推荐文章

Alibaba17 · 如何使用nokogiri(ruby)从维基百科电影页面检索总信息[关闭]

7 年前

Dave · 如何在Nokogiri文档中检索唯一的父节点集?

7 年前

Francisco Campaña · Ruby Nokogiri。匹配动态属性名称

7 年前

Fabián · 通过h3含量nokogiri之间的<p>提取

7 年前

lumos · 循环遍历XML文件的元素,看看它们是否包含数组中的任何值?

7 年前

ForceMagic · Nokogiri正在返回根元素。为什么?

7 年前

Lucas Barreto · 使用Ruby和Nokogiri解析页面的不同类项

7 年前

Matrix · 使用mechanize获取以下特定标签?(红宝石)

8 年前

jbmyid · 创建中文xml ruby nokogiri

8 年前

sam.roberts55 · 使用带有rails-url链接的代理

9 年前