<img( *\w+="[^"]+")*? src="htttttp://photo23\.hexun\.com/p/(\d+)/(\d+)/(\d+)/(.*\.jpg)
正则表达式,又称正规表示法、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。
许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。
<table><tr><td></td></tr></table>大于号小于号是成对出现的,像<table></table>就是表示一个表格,这是html语言的语言规范,
<%%>这就是asp的语言规范,你会区分就行。
HTML中<, >,&等有特殊含义,(前两个字符用于链接签,&用于转义),不能直接使用。使用这三个字符时,应使用它们的转义序列,如下所示:&或 &
&
和
<或 <
<
小于号
>或 >
>
大于号
"
"
双引号
空格
©
©
版权符
®
®
注册符
前者为字符转义序列,后者为数字转义序列。数字转为字符对应的ASCII码值。例如 &ltfont >显示为,<font>,若直接写为则被认为是一个链接签。
需要说明的是:
a. 转义序列各字符间不能有空格;
b. 转义序列必须以";"结束;
c. 单独的&不被认为是转义开始;
d.区分大小写。
另一个需要转义的字符是引号,它的转义序列为"" "或"""
HTML使用的字符集是ISO &859 Larin-1字符集,该字符集中有许多标准键盘上无法输入的字符。对这些特殊字符只能使用转义序列。
XML转义字符
不合法的XML字符必须被替换为相应的实体。
如果在XML文档中使用类似"<" 的字符, 那么解析器将会出现错误,因为解析器会认为这是一个新元素的开始。所以不应该像下面那样书写代码:
<message>if salary <1000 then</message>
为了避免出现这种情况,必须将字符"<" 转换成实体,像下面这样:
<message>if salary <1000 then</message>
下面是五个在XML文档中预定义好的实体:
<
<
小于号
>
>
大于号
&
&
和
'
'
单引号
"
"
双引号
实体必须以符号"&"开头,以符号""结尾。
注意: 只有"<" 字符和"&"字符对于XML来说是严格禁止使用的。剩下的都是合法的,为了减少出错,使用实体是一个好习惯。