(?<=>)[^<>]+(?=<)
假如html标签里面有一句:
String a = "<style type=\"text/css\">div \n" +
"{ margin: 0padding: 0outline: 0}</style>"
我如何把这一句取出来呢,包括标签。
用正则表达式:<style([\\s\\S]*)</style>
扩展资料:正则表达式匹配HTML标签
方法一:
var str = '<p class="odd" id="odd">123</p>'
var pattern = /<\/?[a-zA-Z]+(\s+[a-zA-Z]+=".*")*>/g
console.log(str.match(pattern))
方法二:
var str = '<p class="odd" id="odd">123</p>'
var pattern = /<[^>]+>/g
console.log(str.match(pattern))
方法三:
var str = '<input type="text" value=">" name="username" />'
var pattern = /<(?:[^"'>]|"[^"]*"|'[^']*')*>/g
console.log(str.match(pattern))
说明:()表示捕获分组,()会把每个分组里的匹配的值保存起来,使用$n(n是一个数字,表示第n个捕获组的内容)
(?:)表示非捕获分组,和捕获分组唯一的区别在于,非捕获分组匹配的值不会保存起来
没有引用的需求的话,采用非捕获性分组,更为简洁;
方法四:
var str = '<input type="text" value=">" name="username" />'
var pattern = /<(?:[^"'>]|(["'])[^"']*\1)*>/g
console.log(str.match(pattern))
</script>
Html标签是支持嵌套的,怎么能够找到指定标签相对应的闭合标签是最重要的问题。
思路:先匹配最前面的起始标签,假设是div(<div),接着一旦遇到嵌套div,就“压入堆栈”,后面如果遇到div闭合标签了,就“弹出堆栈”。如果遇到闭合标签的时候,堆栈里面已经没有东西了,那么匹配结束,此结束标签为正确的闭合标签。
1、匹配任意闭合HTML标签的正则表达式
<(?<HtmlTag>[\w]+)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>2、如果只想匹配div标签,可以使用下面的正则表达式:
<(?<HtmlTag>div)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>3、如果想同时匹配多个HTML标签,可以使用下面的正则表达式
<(?<HtmlTag>(div|span|h1))[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>4、如果想匹配包含ID的标签,可以使用下面的正则表达式:
<(?<HtmlTag>[\w]+)[^>]*\s[iI][dD]=(?<Quote>["']?)footer(?(Quote)\k<Quote>)[^>]*?(/>|>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>)假设我们要获取下面html标签中的内容:
第一段是获取 <p></p>标签内部的数据,第二个是获取 <p><span></span></p>标签中的数据,其中span标签中有style属性值。
使用过正则表达式的同学肯定知道,上面两种情况其实都是一种情况,我们要获取的是 尖括号括起来的一对标签 中间的数据,起始标签形如<x>,结束标签形如</x>,这里的x表示的html标签。
此外,我们还需要考虑起始标签中包含style的数据,另外特殊的 <br/>标签,对实际获取数据无意义,也需要过滤掉。
通过上面的分析,我们可以如下正则表达式:
在使用正则表达式处理之前,我们先对数据进行预处理,比如style和
标签:
针对多个标签嵌套的情况进行处理,比如 <p><span style="white-space: normal">王者荣耀</span></p>,在经过预处理和正则匹配的后结果是 <span>王者荣耀 ,需要手工移除掉前面的起始标签,对应的方法如下:
测试方法如下:
output: