如何使用js正则 过滤某一个html标签下所有的标签跟样式呢?只保留出纯文本

JavaScript048

如何使用js正则 过滤某一个html标签下所有的标签跟样式呢?只保留出纯文本,第1张

js过滤HTML标签的方法。分享给大家供大家参考,具体如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"

"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">

<head>

<meta http-equiv="Content-Type" content="text/html charset=utf-8" />

<title>无标题文档</title>

<script>

window.onload=function()

{

  var oTxt1=document.getElementById('txt1')

  var oTxt2=document.getElementById('txt2')

  var oBtn=document.getElementById('btn')

  oBtn.onclick=function()

  {

    var reg=/<[^<>]+>/g

    oTxt2.value=oTxt1.value.replace(reg,'')

  }

}

</script>

</head>

<body>

<textarea id="txt1" cols="40" rows="10"></textarea><br />

<input type="button" value="过滤" id="btn" /><br />

<textarea id="txt2" cols="40" rows="10"></textarea>

</body>

</html>

1,得到网页上的链接地址:

string

matchString =

@"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>"

2,得到网页的标题:

string matchString = @"<title>(?<title>.*)</title>"

3,去掉网页中的所有的html标记:

string temp = Regex.Replace(html, "<[^>]*>", "")//html是一个要去除html标记的文档

4, string matchString = @"<title>([\S\s\t]*?)</title>"

5,js去掉所有html标记的函数:

function delHtmlTag(str)

{

return str.replace(/<[^>]+>/g,"")//去掉所有的html标记

}