参考http://www.sqlite.com.cn/MySqlite/11/395.Html
例如“哈”字,假如两个有两个字符str1和str2
str1
=
'\xb9\xfe'
//
这个字节流表示哈字是使用GBK编码的字节流
str2
=
u'\u54c8
//
表示这个字符使用UNICODE-16编码
判断相等:
str1.decode('GBK')
==
str2
统一转换成UNICODE16比较,
如果str2不是UNICODE16编码,也需要做相应的转换。
都是unicode就可以直接比较。将清除前后的空格。再用type检查他们的确都是unicode。就可以直接比较了。从文件中直接读出的词语,通常是BYTE形式。是编码好了的。不是unicode。要DECODE一次(python2.x)才可以。