|
|
1
10
试试
|
|
|
2
11
我相信,这段代码可以帮助您:
|
|
|
3
0
这使用了lxml的清理函数,但避免了结果被包装在HTML元素中。
或者作为一个单列
它的工作方式是将html手动解析为一个document对象,并将其交给cleaner类。这样clean_html也返回一个对象而不是一个字符串。然后可以使用text_content()方法在不使用包装器元素的情况下恢复文本。 |