代码之家  ›  专栏  ›  技术社区  ›  pnb1

排除带有Nokogiri的HTML标记

  •  1
  • pnb1  · 技术社区  · 11 年前

    我正在尝试获取TD标签中的所有文本,除了里面的内容 <strong> 标签(可能有任意数量的标签)。

    在本例中,我希望得到:“ graavis ● diakriitik ( ) " and " 锐音符`“:

    <tr class="level2">
        <td> 
            <strong> grave accent </strong> 
             <strong> (=backquote character) </strong>
             graavis ● diakriitik (`) ↝ 
             <a href="?word=sv82">acute accent</a>
        </td>
    </tr>
    

    我正在尝试使用下面的代码,但它不起作用:

    desc = page.css('tr td:not(strong)').text
    
    1 回复  |  直到 11 年前
        1
  •  2
  •   Jikku Jose    11 年前

    考虑:

    page.search("strong").remove
    page.css(".level2 > td").text.strip