正则表达式匹配html标签，获取标签内容

2023-03-02 17:34:02html-css031

正则表达式匹配html标签，获取标签内容,第1张

假设我们要获取下面html标签中的内容：

第一段是获取 标签内部的数据，第二个是获取 标签中的数据，其中span标签中有style属性值。

使用过正则表达式的同学肯定知道，上面两种情况其实都是一种情况，我们要获取的是尖括号括起来的一对标签中间的数据，起始标签形如<x>，结束标签形如</x>，这里的x表示的html标签。

此外，我们还需要考虑起始标签中包含style的数据，另外特殊的 标签，对实际获取数据无意义，也需要过滤掉。

通过上面的分析，我们可以如下正则表达式：

在使用正则表达式处理之前，我们先对数据进行预处理，比如style和

标签：

针对多个标签嵌套的情况进行处理，比如 王者荣耀，在经过预处理和正则匹配的后结果是 王者荣耀，需要手工移除掉前面的起始标签，对应的方法如下：

测试方法如下：

output:

Html标签是支持嵌套的，怎么能够找到指定标签相对应的闭合标签是最重要的问题。

思路：先匹配最前面的起始标签，假设是div（<div），接着一旦遇到嵌套div，就“压入堆栈”，后面如果遇到div闭合标签了，就“弹出堆栈”。如果遇到闭合标签的时候，堆栈里面已经没有东西了，那么匹配结束，此结束标签为正确的闭合标签。

1、匹配任意闭合HTML标签的正则表达式

<(?<HtmlTag>[\w]+)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>

2、如果只想匹配div标签，可以使用下面的正则表达式：

<(?<HtmlTag>div)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>

3、如果想同时匹配多个HTML标签，可以使用下面的正则表达式

<(?<HtmlTag>(div|span|h1))[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>

4、如果想匹配包含ID的标签，可以使用下面的正则表达式：

<(?<HtmlTag>[\w]+)[^>]*\s[iI][dD]=(?<Quote>["']?)footer(?(Quote)\k<Quote>)[^>]*?(/>|>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>)

这个问题类似求括号配对. 用正则方法可能不行. 可以这样:

1) 字符串分析法求解: 建立一个计数器, 同时从前向后扫描 html 内容, 从要选择的段落开头开始, 每次读到一个 <td ..> 标签, 计数器加一, 每次读到一个 </td> 标签, 计数器减一, 如果没有意外, 当计数器减为零时, 就找到了配对的 td 结束标签.

2) 用 XmlDocument 读取整段 html, 然后利用 DOM 的一系列方法选择出你要的内容.

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：如何判断电脑主机是否正常开机？

# 下一篇：如何用html css设置漂亮的页面

给您推荐相同类型的内容：

万家乐js020 参数设置
技术参数产品容量10-11升额定功率40W热水产率11升分适用水压0.02-0.8Mpa燃气种类天然气能效等级二级电源规格220V50Hz基本参数排气方式强制排放式控制方式微电脑式产品尺寸515×330×150mm产品重量9.5kg美的
如何在JS中定义CSS
var domObj = document.getElementById("tagId")使用domObj.style来设置css：domObj.style.backgroundColor="#000&qu
js如何只刷新控件不刷新页面
ame="ifrmname" id="ifrmid"&gt&ltiframe&gt方案一:用iframe的name属性定位&ltinput type="bu
html和jsp之间的转发和重定向
一个web资源收到客户端请求后，通知服务器去调用另外一个资源进行处理（服务器内调用），称之请求转发。当客户端请求提交到服务器的jsp处理的时候这个jsp可以携带请求和响应对象转移到web应用的另一处进行处理在另外一处进行处理后，产生结果页面
js防水是什么材料
防水涂料属于家装的隐蔽工程，如果材料没选好的话，日后很有可能出现漏水现象，甚至会引发邻里之间的矛盾。而市面上的防水材料种类众多，其中js防水属于新型绿色环保材料，深受广大消费者的喜爱，那么js防水是什么材料呢？有哪些优势呢？一、js防水是
怎么在电脑上玩手机游戏
可以在电脑使用模拟器来玩手机游戏，以王者荣耀为例子。步骤方法如下：工具：Magicbook。操作系统：Windows 10。软件：腾讯手游助手。1、电脑打开腾讯手游助手。2、进入界面后点击搜索王者荣耀。3、点击安装按着荣耀。4、游戏安装中
会员自动续费怎么取消
百度app也推出了会员服务，会员名字叫“du会员”，小编看了一下这个会员的权益，很一般，没有开通的必要。那么已经开通该会员的用户在哪取消自动续费呢？1、在微信“我”界面点击【支付】。2、点击右上角三个点进入支付管理界面，点击【扣费服务】。3
如何让电脑自动定时关机或重启？
一:用系统自带的命令，具体命令格式为:在开始菜单里面的运行命令行输入atxxx:shutdown-s或shutdown-s-txxxxx(前一个命令表示在所设定的时间自动关机，xxx表示你想要电脑自动关机的时间，比如说22:00就输入at:
电脑硬件损坏怎么修复?
电脑硬盘坏了可以通过以下几种工具来修复：1、TestDisk数据修复工具TestDisk能够修复启动分区，恢复一个分区或者删除数据，从无法访问的部分复制文件，还能轻松修复分区表。这款工具可用于诸如FAT、exFAT、NTFS和ext2等
电脑桌面背景是黑色怎么办
1.电脑背景桌面全都是黑色的是怎么回事电脑桌面显示底色变成黑色，这种情况可能是误删除了系统文件导致的！可以先找一下方法来解决：1、打开360安全卫士9.1版本，点击【系统修复】，选择【电脑专家】（或者直接点击电脑专家）2、选择【
电脑的防潮方法技巧
电脑尤其需要做好防潮工作，因为过分潮湿会使得电脑内部线路发生短路，从而造成机器故障。那么电脑应该如何防潮呢?下面我就为大家带来了电脑防潮的方法。电脑防潮技巧1.确保电脑有正确接地，因为没有正确接地会特别容易
我想在我的电脑前放一盆植物，什么植物最合适？
以下是电脑的植物伴侣仙人掌防止辐射是植物的本身原因决定的仙人掌生长在热带，对强光有很强的吸收作用，强光中有我们说的可见光和不可见光，而电脑和手机的电磁辐射也是不可见光。很容易被吸收。另外它的刺会发出负离子，中和正离子的有害作用。实际上放在电
为什么我的电脑不能扩展卷?
在新的预装windows7的品牌机上，工作人员一般将磁盘分为C、D两个分区。但往往造成C盘有很大一部分的空间没办法分出来，而分出来的部分空间又不能和后面的磁盘合并，甚至出现无法新建简单卷的操作，即点击格式化按钮后，弹出"磁盘上没有
Windows 8 Metro应用开发选择HTML5+CSS还是c#？
都可以C#适合高性能本地应用，但是上手难，调试什么的，开发周期会比较长html5+Css会比较好上手，开发周期会比较短，不过开发的应用以网络内容消费为主，（类似微薄客户端，Rss阅读器，还有一些简单游戏）不过总的说来学C#会好很多Metro
电脑电量百分比怎么显示出来？
工具原料：笔记本电脑。1、鼠标移动到电脑右下角的“电源图标”上面，就会显示电量多少，比如有79%的电量。2、鼠标点击“电源图标”，则会弹出一个上拉菜单，也会显示电量多少。3、鼠标右击电脑下方的任务栏，点击“属性”选项。4、在“任务栏和开
开电脑店怎么赚钱
　开电脑店怎样更赚钱一、开发联系一些小型软件编写单位或个人，帮助顾客编些实用型的小软件，主要在工业局部控制或特殊需要、不能用通用软件的办公自动化方面，那些购买电脑、耗材里面的顾客肯定有这方面需要的人，慢慢传开来，收益就高了。一个小软件的收益
怎样在CSS里面实现字体的动感模糊倒影效果和图片雾化效果
你这种情况比较复杂!都是滤镜做的字体动感模糊窗口--图层，右击字体图层，删格式化文件，滤镜--模糊--动感模糊，选择角度和距离，角度表示你动感模糊的方向，距离越大动感模糊效果越厉害图片雾化在你原有图层上新建图层保证前景色和背景色为黑白，滤镜
python - serial communication（串口通信）
由于测试工作的需要，在C端产品上经常使用串口进行通信，而测试脚本大部分时候又采用python编写，于是就不得不了解并熟悉python下的串口通信实现方法了，整理如下以备随时使用：一、说明pyserial封装了python环境
在手机淘宝买电脑与商家说的不一样怎么办?
你好：商家可以为商品设置单独在手机上显示的价格，也就是手机专享。在电脑上不会显示这个价格。只要买家登录手机淘宝才能看到。商家在卖家后台设置的。也可以购买打折软件。1、手机淘宝，使用手机能完成在电脑上的所有操作，其主要是一个用户的手机帐号，线
苹果电脑有哪些型号？
苹果电脑有以下型号：1.MacBook(MB402CHA)2.MacBook(MB403CHA)3.MacBook(MB404CHA)4.MacBook(MB062CHB)5.MacBook(MB063CHB)6.Ma
怎么样看自己电脑的显卡是多大的?
1、点击电脑左下角的搜索框，输入“dxdiag”，然后按下回车键，如下图所示。2、然后电脑会自动打开“DirectX诊断工具”，如下图所示，点击“显示”。3、然后就能看到电脑的显卡内存的显存的大小，如下图所示。问题一：电脑怎么看配置（显卡是
电脑主板如何释放静电
1、要解决静电，一定要使用带有地线的电源插线板。可将机箱接地。2、移除电脑电源线, 持续按住电脑开机键20秒左右，再放开。静电即可消失。注意：绝不可以使用燃气管道和自来水管道接地，前者会由于电火花引起管道爆炸，而后者导电性极佳，在出现短路时
电脑录音用什么麦克风好？
1、美音源电容麦克风是国产优质话筒，而且是加入了麦克保真技术。美音源是麦克风保真首创研发者。其电容麦攻克了麦克风拾音大就爆麦失真的技术难关，而且无杂音、无电流声、无闷音等传统麦克风的弊端，音质清晰、醇美、保真。还能充分保持和提高录音声音的音
CSS中如何设拉伸背景图片铺满屏幕
#bg{margin:0pxbackground: url(imagesbeijing.png) no-repeatbackground-size:100% 100%background-attachment:fixed}扩展资料：ur
电脑怎么扫描问卷星的二维码？
首先下载Anything to QRcode安装包，下载完成后双击进行安装。请点击输入图片描述选择我信任此扩展文件，仍要继续安装，点击确定安装。请点击输入图片描述安装完成后，打开二维码界面。步骤阅读请点击输入图片描述4最后右键点击An
js怎样动态添加文字样式
以改变字体颜色为例js部分页面加载完毕要执行的操作放到这个函数里window.onload=function (){ 使用js实现document.getElementById('wenzi').sty
电脑键盘怎么复制粘贴
如果您在使用计算机的过程中，需要使用常用的快捷键，请您按照以下方法进行操作：1、复制、粘贴和其他常规键盘快捷方式剪切选定项：Ctrl + X复制选定项：Ctrl + C（或 Ctrl + Insert）粘贴选定项：Ctrl + V（或 Sh
电脑每次打开软件都会提示这个，该咋弄啊？
看你图片上的软件的图标都变了，应该是软件安装出现了问题。而且不是一个软件出问题，这有可能是病毒引起的，所以，建议进入安全模式，用360之类的安全软件查杀一下，然后用360修复一下软件的快捷方式。应该就可以了。如果病毒很顽固，建议你保存好电脑
如何用html css设置漂亮的页面
CSS是由选择器加声明组成的。比如：h1{color:red}h1就是选择器，意思是只要遇到h1，就使用该CSS的规则color：red:这个事声明color:这个是属性red:这个是值2OK，我们先来分析选择器。使用border-coll
Atmos 什么意思
Dolby Atmos）是由杜比实验室研发，于2012年4月24日发布的全新影院音频平台。它突破了传统意义上5.1、7.1声道的概念，能够结合影片内容，呈现出动态的声音效果。不同于以往一路音频信号控制影院中一侧音箱发出相同的声音，它可以使一

推荐阅读

热门文章

最新发布

标签列表

正则表达式匹配html标签，获取标签内容

给您推荐相同类型的内容：