怎么去除HTML代码的正则表达式

html-css032

怎么去除HTML代码的正则表达式,第1张

JavaScript方式

获取HTML字符串(包含标签),通过正则表达式替换HTML标签,输出替换后的字符串

function deleteTag()

{

  var regx = /<[^>]*>|<\/[^>]*>/gm

  var tagStr = $("#ul_li").html()

  alert("替换之前的字符串:" + tagStr)

  var result = tagStr.replace(regx,"")

  alert("替换之后的字符串:" + result)

}

用正则表达式去掉html标签,下面是它的代码,直接复制就可以用的。

代码:

public

static string StripHTML(string HTML) //google "StripHTML" 得到 {

string[] Regexs = {

@"<script[^>]*?>.*?</script>",

@"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",

@"([\r\n])[\s]+", @"&(quot|#34)",

@"&(amp|#38)", @"&(lt|#60)",

@"&(gt|#62)", @"&(nbsp|#160)",

@"&(iexcl|#161)",

@"&(cent|#162)",

@"&(pound|#163)",

@"&(copy|#169)", @"(\d+)",

@"-->", @"<!--.*\n" }string[]

Replaces = { "", "", "", "\"", "&",

"<", ">", " ", "\xa1", //chr(161),

"\xa2", //chr(162), "\xa3", //chr(163), "\xa9", //chr(169), "",

"\r\n", "" }string s = HTMLfor (int i = 0i <

Regexs.Lengthi++) { s = new Regex(Regexs[i],

RegexOptions.Multiline | RegexOptions.IgnoreCase).Replace(s,

Replaces[i])} s.Replace("<", "")

s.Replace(">", "")s.Replace("\r\n", "")return s

} }