PHP html正则提取div数据

html-css018

PHP html正则提取div数据,第1张

正则提取div数据主要是使用PHP的file_get_content()函数。

具体示例:

HTML代码:

<div class="chartInfo">  

 <div class="line"></div>

 <div class="tideTable">  

     <strong>潮汐表</strong>数据仅供参考

     <table width="500" border="0" cellspacing="0" cellpadding="0"> 

       <tbody><tr>  

  <td width="100"><p><span>潮时 (Hrs)</span></p></td>  

     <td width="100"><p>00:58</p></td>

     <td width="100"><p>05:20</p></td>

     <td width="100"><p>13:28</p></td>

     <td width="100"><p>21:15</p></td>

          </tr>  

       <tr>  

  <td><p><span>潮高 (cm)</span></p></td>  

     <td width="100"><p>161</p></td>  

     <td width="100"><p>75</p></td>  

     <td width="100"><p>288</p></td>  

     <td width="100"><p>127</p></td>  

          </tr>  

     </tbody></table>  

    <h2>时区:-1000 (东10区)  潮高基准面:在平均海平面下174CM</h2>  

       </div>  

 <div class="chart">  

 </div>  

</div>

首页先用file_get_content或curl获取内容部分

PHP的正则处理程序:

<?php

$ch = curl_init()  

curl_setopt($ch, CURLOPT_URL, $url)  

curl_setopt($ch, CURLOPT_POST, 1)  

curl_setopt( $ch, CURLOPT_HEADER, 0 )  

curl_setopt( $ch, CURLOPT_RETURNTRANSFER, 1 )  

curl_setopt( $ch, CURLOPT_POSTFIELDS, $data )  

$return = curl_exec( $ch )  

curl_close( $ch )  

 

$regex4="/<div class=\"tideTable\".*?>.*?<\/div>/ism"  

if(preg_match_all($regex4, $return, $matches)){  

   print_r($matches)  

}else{  

   echo '0'  

}

?>

最近在项目中在需要输出浏览器中的源文件需要去掉html中的注释,在网上看了很多的方案,不过很多的答案都是一样的,并不能解决我的问题,于是就自己写正则表达式,也对正则有了更加深刻的理解。

首先比较基础的是:

$a

=

'<!--ceshi-->ceshi'

$a

=

preg_replace('#<!--.*-->#'

,

''

,

$a)

var_dump($a)

上面的代码会输出ceshi。

但是如果是下面的字符串的话,就不能达到我们希望的效果了

$a

=

'<!--ceshi-->ceshi<!--ceshi-->'

$a

=

preg_replace('#<!--.*-->#'

,

''

,

$a)

var_dump($a)

于是我们就把匹配规则改成如下的格式

preg_replace('#<!--.*?-->#'

,

''

,

$a)

但是在html中如果有<!--[if

lt

IE

9]>ceshi<![endif]-->这样的代码的话是不能去掉的,所以我们需要改进匹配规则,改成以下的格式

preg_replace('#<!--[^\!\[]*?-->#'

,

''

,

$a)

又接着如果html中有<script><!--ceshi//--></script>的代码,我们又需要改一下我们的匹配规则了,改成了以下格式

preg_replace('#<!--[^\!\[]*?(?<!\/\/)-->#'

,

''

,

$a)

这样的话我基本上就去掉了我需要去掉的html的注释了!

以上就是小编为大家带来的php使用正则表达式去掉html中的注释方法全部内容了,希望大家多多支持脚本之家~

<?php

$str = '<a id="btlist10" st="1" ditem="true" class="item multi-lines with-avatar" ftios="1" ck="TlRZNFlUSTRNakk9" 

ft="1" data="我想匹配的属性值" ix="10" analytical="false" s1="我想匹配的属性值2" 

jxd1="0781C99068C8FEBF" jxd2="69A2D6435ABEAF87817A812290560AB3" onclick="openmenu($(this))">'

$fun = function($str,$key){

    $str=preg_replace("/[\s\S]*\s".$key."[=\"\']+([^\"\']*)[\"\'][\s\S]*/","$1",$str)

    return $str

}

$data = $fun($str, "data")

echo $data

echo "\n"

$s1 = $fun($str, "s1")

echo $s1

echo "\n"

$other = $fun($str, "ck")

echo $other

echo "\n"

$other = $fun($str, "onclick")

echo $other

?>