如何从Html页面中提取所有汉字

html-css011

如何从Html页面中提取所有汉字,第1张

用正则表达式的方法

<SCRIPT LANGUAGE="vbScript">

dim str

str="怎样从一个Html页面中提取所有汉字呢?不能有其它Html代码。"

alert RegExpTest("[\u4e00-\u9fa5]",str)

Function RegExpTest(patrn, strng)

Dim regEx, Match, Matches ' 建立变量。

Set regEx = New RegExp ' 建立正则表达式。

regEx.Pattern = patrn ' 设置模式。

regEx.IgnoreCase = True ' 设置是否区分大小写。

regEx.Global = True ' 设置全局替换。

Set Matches = regEx.Execute(strng) ' 执行搜索。

For Each Match in Matches ' 遍历 Matches 集合。

RetStr = RetStr & Match.Value

Next

RegExpTest = RetStr

End Function

</SCRIPT>

这个需要看的很多,如果是用dw之类的软件默认创建的html文件一般都是utf-8的,但是现在网上也有很多模版用的是gbk的,也就是你说的这个gb2312的。具体的需要根据css的编码和后台调用的编码判断,只要统一了就ok了。