代码之家 › 专栏 › 技术社区 › Dipesh Desai

使用REGEX[duplicate]在node js中提取HTML文档的<BODY>文本

regex node.js html javascript

Dipesh Desai · 技术社区 · 7 年前

我可以用一个简单的HTML代码来提取它的所有内容。但我只需要使用正则表达式我已经写了下面的代码,但它有一些错误,我不知道如何解决它。

function htmlToText(html) {
      return html.
        replace(/(.|\n)*<body.*>/, ''). //remove up till body
        replace(/<\/body(.|\n)*/, ''). //remove from </body
        replace(/<.+\>/, ''). //remove tags
        replace(/^\s\n*$/gm, '');  //remove empty lines
    }

这是解决问题的方法

function htmlToText(html) {
          return html.
            replace(/(.|\n)*<body.*>/, ''). //remove up till body
            replace(/<\/body(.|\n)*/g, ''). //remove from </body
            replace(/<.+\>/g, ''). //remove tags
            replace(/^\s\n*$/gm, '');  //remove empty lines
        }

1 回复 | 直到 7 年前

scniro 7 年前

不用想太多,你可以 document.body.innerText

A Sample Document
Some strong and emphasized text

JSFiddle example

推荐文章

DotFX · RegEx捕获关键字前但括号后的所有内容

10 月前

user66001 · 正则表达式用于匹配有引号和无引号的文本,并且不匹配任何部分

10 月前

perlchamp · 为什么这也匹配?

10 月前

con · Negative Lookaward在perl正则表达式中不起作用

10 月前

Andrus · 如何在sql中查找第二个匹配项

10 月前

iato · 确保正则表达式不从命名材料中的数字中提取

11 月前

vr8ce · 非成对标记中特定字符的正则表达式

11 月前

MARTIN · 交换第一个和最后一个单词,反转所有中间的字符

11 月前

Carsten · 使用最近的搜索模式更改文本块

11 月前

Eric Marceau · Grep:有没有一种特殊的方法可以将“无字符”作为“字符位置”匹配的置换?

11 月前