我有一个庞大的数据库,里面有我要插入到一个网站上的被刮下来的论坛帖子。然而,很多人试图在他们的论坛帖子中使用HTML,并且经常出错。因为这个,总有流浪者
<strike> <b> </strike> </div> </b>
当我添加15个论坛帖子时,这些帖子中的标签最终会弄乱网页格式。
目前,我只是将所有可能的结束标记附加到日志中,以便它可以捕获任何打开的标记……是否有更好的方法来完成这一短时间的文本分析,并尝试手动删除每个打开的标记。对于Looooong论坛的帖子来说,这对于一个网络应用程序来说是一笔昂贵的交易。