python3正则表达式匹配中文

Python017

python3正则表达式匹配中文,第1张

python中正则表达式匹配中文,首先需要确保所有编码都为 unicode(python3已经默认都是unicode编码,所以就没有这个困扰,需要特别注意的是python2版本这部分的正则表达式)

汉字的范围为”\u4e00-\u9fa5“

# -*-coding:UTF-8-*-

__author__ = u'丽江海月客栈'

s = """{"headurl":"","nickname":"","loginstatus":"","loginstate":"","tip":"未注册服务","idUser":"","sessionId":"","upgradeUrl":"","checkCodeKey":"false"}"""

ss = s.decode('utf-8')

import re

re_words = re.compile(u"[\u4e00-\u9fa5]+")

m = re_words.search(ss, 0)

print m.group()