代码之家  ›  专栏  ›  技术社区  ›  JiminyCricket

从某些文本中删除损坏的标记和格式不正确的HTML

  •  4
  • JiminyCricket  · 技术社区  · 14 年前

    我有一个庞大的数据库,里面有我要插入到一个网站上的被刮下来的论坛帖子。然而,很多人试图在他们的论坛帖子中使用HTML,并且经常出错。因为这个,总有流浪者 <strike> <b> </strike> </div> </b> 当我添加15个论坛帖子时,这些帖子中的标签最终会弄乱网页格式。

    目前,我只是将所有可能的结束标记附加到日志中,以便它可以捕获任何打开的标记……是否有更好的方法来完成这一短时间的文本分析,并尝试手动删除每个打开的标记。对于Looooong论坛的帖子来说,这对于一个网络应用程序来说是一笔昂贵的交易。

    3 回复  |  直到 14 年前
        1
  •  1
  •   irishbuzz    14 年前

    看一看 HTML Tidy

    还有一个python包装库: µTidylib

    或者有 HTML Purifier

        2
  •  0
  •   Simon Hibbs    14 年前

    Beautiful Soup 在HTML清理方面做得不错。

        3
  •  0
  •   loevborg    14 年前

    lxml 也。