<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html charset=utf-8" />
<title>无标题文档</title>
<script>
window.onload=function()
{
var oTxt1=document.getElementById('txt1')
var oTxt2=document.getElementById('txt2')
var oBtn=document.getElementById('btn')
oBtn.onclick=function()
{
var reg=/<[^<>]+>/g
oTxt2.value=oTxt1.value.replace(reg,'')
}
}
</script>
</head>
<body>
<textarea id="txt1" cols="40" rows="10"></textarea><br />
<input type="button" value="过滤" id="btn" /><br />
<textarea id="txt2" cols="40" rows="10"></textarea>
</body>
</html>
1,得到网页上的链接地址:string
matchString =
@"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>"
2,得到网页的标题:
string matchString = @"<title>(?<title>.*)</title>"
3,去掉网页中的所有的html标记:
string temp = Regex.Replace(html, "<[^>]*>", "")//html是一个要去除html标记的文档
4, string matchString = @"<title>([\S\s\t]*?)</title>"
5,js去掉所有html标记的函数:
function delHtmlTag(str)
{
return str.replace(/<[^>]+>/g,"")//去掉所有的html标记
}