代码之家 › 专栏 › 技术社区 › Ben Hymers

解析XML/XHTML文档但忽略C中的错误#

xml c#

Ben Hymers · 技术社区 · 17 年前

我做了一个很好,但另一个(英国汇丰银行)被证明是个麻烦,因为它的源代码不是有效的XHTML。例如,在 <?xml?> 标签,还有一些地方 == 是用来代替 = 在属性名称及其值之间(例如。 <li class=="lastItem"> ).

当然,当我将这些数据传递到 XmlDocument

我的问题是:是否有可能放宽C#中XML解析的要求?我知道从源头上解决这些问题要好得多——这也是我的态度——但汇丰银行几乎不可能改变他们的网站,因为他们的网站已经在大多数浏览器中运行,只是为了我这个年纪不大的人。

3 回复 | 直到 17 年前

Pontus Gagge 17 年前

看一看 HTML agility pack . 它允许您通过XPath提取非XHTML兼容网页的元素,就像它是一个格式良好的XHTML文档一样。

Jon Skeet 17 年前

我不相信您可以放松解析,但您可以通过以下方式运行它 HTML Tidy 先让那个

Gregory A Beamer 17 年前

另一个选项是mshtml.HTMLDocument,在.NET中使用它有点麻烦,因为它是互操作的。

然而,最常见的屏幕刮取类型是使用正则表达式。一旦你确定了你想要的模式,你可以一次又一次地刮。

推荐文章

SpaceCowboy74 Mohammad Aghazadeh · 使用Fluent Validation比较数组中的值

1 年前

Rico Strydom · Linq to XML:如何基于文件中的其他元素获取元素

1 年前

A B · C#Excel自动调整列避免长文本时出错

1 年前

Megrez7 · C#ToArray转换合并为一行,导致数组元素更改

1 年前

Alireza Noori · 全局配置用于本地化的MudDontext验证消息?

1 年前

Aycon · 在工厂方法中释放部分创建的对象的正确方法是什么?

1 年前

Martyn C · 自定义StringEnumConverter未拾取所有枚举

1 年前

Duck0 · 这个对象在更高的帧率下会更快吗,因为它在Update()中?

1 年前

Nwerx_user · 在C#中,如何在不使用static关键字的情况下使用类外的方法?

1 年前

Sei · Avalonia/WPF将路由器传递到控制模板

1 年前