JS正则表达式,汉字表示!!!

JavaScript017

JS正则表达式,汉字表示!!!,第1张

中文字符匹配js正则表达式,普遍使用的正则是[\u4e00-\u9fa5],但这个范围并不完整。例如: /[\u4e00-\u9fa5]/.test( '⻏' ) // 测试部首⻏,返回false 。根据Unicode 5.0版编码,要准确的判断一个中文字符要包括: 范围含义范围 含义 2E80-2EFF CJK 部首补充2F00-2FDF 康熙字典部首 3000-303F CJK 符号和标点 31C0-31EF CJK 笔画 3200-32FF 封闭式 CJK 文字和月份 3300-33FF CJK 兼容 3400-4DBF CJK 统一表意符号扩展 A 4DC0-4DFF 易经六十四卦符号 4E00-9FBF CJK 统一表意符号 F900-FAFF CJK 兼容象形文字 FE30-FE4F CJK 兼容形式FF00-FFEF 全角ASCII、全角标点因此,正确的匹配中文字符正则表达式为: var rcjk = /[\u2E80-\u2EFF\u2F00-\u2FDF\u3000-\u303F\u31C0-\u31EF\u3200-\u32FF\u3300-\u33FF\u3400-\u4DBF\u4DC0-\u4DFF\u4E00-\u9FBF\uF900-\uFAFF\uFE30-\uFE4F\uFF00-\uFFEF]+/g

汉字的Unicode编码范围为\u4E00-\u9FA5\uF900-\uFA2D,[\u4E00-\u9AF5\uf900-\ufa2da-zA-Z]匹配一个汉字或大小写字母,{5,10}指符合前面匹配要求的5至10个,i表示不区分大小写字母,g表示全局匹配,如果没加这会匹配第一个符合条件的。所以这个正则表达式是匹配字符串中所有连续5个至10个汉字或字母。