代码之家 › 专栏 › 技术社区 › YodasMyDad

从HTML字符串中删除所有链接-Regex?

regex html c#

YodasMyDad · 技术社区 · 14 年前

我有一个字符串,它基本上是一个具有正常格式的内容块(p标记、粗体等),有时还包含编辑器放入的HTML链接。

但是我想保留所有其他的HTML,但是去掉链接。但不确定最快、最有效的方法,因为字符串可能很大(因为它们是文章)

非常感谢任何代码示例:)

1 回复 | 直到 14 年前

Marc Gravell 14 年前

不是很准确,但是 懒惰的 apprach将替换 "<a " 具有 "<span " 和 "</a>" 具有 "</span>" . 更多 精确的 结果是在DOM中解析它:

string html;
using (var client = new WebClient()) {
    html = client.DownloadString("http://stackoverflow.com");
}
var doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(html);
HtmlNode node;
// loop this way to avoid issues with nesting, mutating the set, etc
while((node = doc.DocumentNode.SelectSingleNode("//a")) != null) {
    var span = doc.CreateElement("span");
    span.InnerHtml = node.InnerHtml;
    node.ParentNode.InsertAfter(span, node);
    node.Remove();
}
string final = doc.DocumentNode.OuterHtml;

但是,请注意,删除链接标记 可能会改变造型 ,例如,如果有窗体的css样式 a.someClass { ... } 或 a someNested {...}

注意上面的代码;您还可以尝试越直接:

foreach(var node in doc.DocumentNode.SelectNodes("//a")) {
    var span = doc.CreateElement("span");
    span.InnerHtml = node.InnerHtml;
    node.ParentNode.InsertAfter(span, node);
    node.Remove();
}

但我不确定这是否会导致一些嵌套结构的变异/迭代问题。。。

推荐文章

code-geek · Jquery根据单选按钮选择隐藏或显示文本字段

4 月前

Jamie · 在CSS链接的文件名中添加Jinja占位符

4 月前

ptownbro · 重叠分区标签,同时保持以下所有分区和内容就位

4 月前

Luke Frost IEng MIMechE · Bootstrap 5.3在Div中的项目位置没有如我所期望的那样显示

4 月前

Reegan · 使用Angular ngFor指令在html中渲染嵌套对象值

4 月前

wqyutv · 当找不到文件时,任何破坏错误的东西都不会出现,我该怎么解决这个问题?

4 月前

user29519291 · 为不同的变量创建一个带有可重用Click函数的简单菜单

5 月前

Gukkey · 在React中明确隐藏日期类型输入后,如果我单击父div,如何显示日期选择器?

5 月前

Lorenzo Bertolaccini · 在Angular项目中通过对话框后,在控制台中显示但在HTML中不显示的数据数组

5 月前

john Rizzo · 按钮背景颜色、悬停和活动状态存在问题

5 月前