代码之家 › 专栏 › 技术社区 › Maciek Sawicki

从Ruby中的字符串中删除XML实体

rss string regex ruby xml

Maciek Sawicki · 技术社区 · 15 年前

我尝试用简单的rss-lib解析rss-chaanal。

不幸的是,节点中有很多垃圾:

 <description>&lt;p&gt;
some decryption

&lt;/p&gt;
 &lt;a href="http://url.com/trac/xxx/wiki/foo?action=diff&amp;amp;version=28"&gt;(diff)&lt;/a&gt;</description>

我需要检索文本(“一些描述”)和可选的URL。

最好的方法是什么?regexp(如果这是答案,请给我举个例子好吗?)?

1 回复 | 直到 15 年前

Chirantan 15 年前

那不是垃圾。它只是经过HTML清理的字符串。我假设URL,你的意思是HTML标签( <a></a> )以下代码应该有效。

require 'cgi'
description = "&lt;/p&gt; &lt;a href=\"http://url.com/trac/xxx/wiki/foo?action=diff&amp;amp;version=28\"&gt;(diff)&lt;/a&gt;"
CGI.unescapeHTML(description) # => </p> <a href="http://url.com/trac/xxx/wiki/foo?action=diff&amp;version=28">(diff)</a>

如果您不想使用HTML标记,可以通过多种方式获取URL。URL的一个简单的regex应该可以工作,我把它留给您去弄清楚。(提示-google)

推荐文章

DotFX · RegEx捕获关键字前但括号后的所有内容

6 月前

user66001 · 正则表达式用于匹配有引号和无引号的文本,并且不匹配任何部分

6 月前

perlchamp · 为什么这也匹配?

6 月前

con · Negative Lookaward在perl正则表达式中不起作用

6 月前

Andrus · 如何在sql中查找第二个匹配项

7 月前

iato · 确保正则表达式不从命名材料中的数字中提取

7 月前

vr8ce · 非成对标记中特定字符的正则表达式

7 月前

MARTIN · 交换第一个和最后一个单词,反转所有中间的字符

7 月前

Carsten · 使用最近的搜索模式更改文本块

7 月前

Eric Marceau · Grep:有没有一种特殊的方法可以将“无字符”作为“字符位置”匹配的置换?

7 月前