代码之家 › 专栏 › 技术社区 › pnb1

排除带有Nokogiri的HTML标记

nokogiri ruby html

pnb1 · 技术社区 · 11 年前

我正在尝试获取TD标签中的所有文本,除了里面的内容 <strong> 标签(可能有任意数量的标签)。

在本例中,我希望得到:“ graavis â diakriitik ( ) " and " 锐音符`“:

<tr class="level2">
    <td> 
        <strong> grave accent </strong> 
         <strong> (=backquote character) </strong>
         graavis â diakriitik (`) â 
         <a href="?word=sv82">acute accent</a>
    </td>
</tr>

我正在尝试使用下面的代码,但它不起作用:

desc = page.css('tr td:not(strong)').text

1 回复 | 直到 11 年前

Jikku Jose 11 年前

考虑:

page.search("strong").remove
page.css(".level2 > td").text.strip

推荐文章

Alibaba17 · 如何使用nokogiri(ruby)从维基百科电影页面检索总信息[关闭]

8 年前

Dave · 如何在Nokogiri文档中检索唯一的父节点集?

8 年前

Francisco Campaña · Ruby Nokogiri。匹配动态属性名称

8 年前

Fabián · 通过h3含量nokogiri之间的<p>提取

8 年前

lumos · 循环遍历XML文件的元素,看看它们是否包含数组中的任何值?

8 年前

ForceMagic · Nokogiri正在返回根元素。为什么?

8 年前

Lucas Barreto · 使用Ruby和Nokogiri解析页面的不同类项

8 年前

Matrix · 使用mechanize获取以下特定标签?(红宝石)

8 年前

jbmyid · 创建中文xml ruby nokogiri

8 年前

sam.roberts55 · 使用带有rails-url链接的代理

10 年前