代码之家  ›  专栏  ›  技术社区  ›  Ben Hymers

解析XML/XHTML文档但忽略C中的错误#

  •  2
  • Ben Hymers  · 技术社区  · 17 年前

    我做了一个很好,但另一个(英国汇丰银行)被证明是个麻烦,因为它的源代码不是有效的XHTML。例如,在 <?xml?> 标签,还有一些地方 == 是用来代替 = 在属性名称及其值之间(例如。 <li class=="lastItem"> ).

    当然,当我将这些数据传递到 XmlDocument

    我的问题是:是否有可能放宽C#中XML解析的要求?我知道从源头上解决这些问题要好得多——这也是我的态度——但汇丰银行几乎不可能改变他们的网站,因为他们的网站已经在大多数浏览器中运行,只是为了我这个年纪不大的人。

    3 回复  |  直到 17 年前
        1
  •  7
  •   Pontus Gagge    17 年前

    看一看 HTML agility pack . 它允许您通过XPath提取非XHTML兼容网页的元素,就像它是一个格式良好的XHTML文档一样。

        2
  •  3
  •   Jon Skeet    17 年前

    我不相信您可以放松解析,但您可以通过以下方式运行它 HTML Tidy 先让 那个

        3
  •  0
  •   Gregory A Beamer    17 年前

    另一个选项是mshtml.HTMLDocument,在.NET中使用它有点麻烦,因为它是互操作的。

    然而,最常见的屏幕刮取类型是使用正则表达式。一旦你确定了你想要的模式,你可以一次又一次地刮。