>>>
a='测试'
>>>
a
这样试试看,如果出来是6个字(word),说明是utf-8,如果是4个字,说明是gbk。
另外,不管是utf-8还是gbk,都不能这样遍历,因为这里它会
一个字拿出来。
虚拟机
把a当成一个
长度
为len(a)的
字符串
了。
接下来是遍历问题。
linux的shell大都默认是utf-8,所以一个
字符是
三个字
,所以要三个三个地读,你可以试下:
>>>
a[:3]
出来就是个测字
windows的command的默认是cp936,也就是gbk,一个中文字符是
两个字
,所以两个字两个字地读。
还有另一种遍历的方法,把字符串转换成unicode,这样中文
英文
都是一个字,就可以用你的for
i
in
a的方法遍历了。这个的好处是中文英文字符都是一个字,而utf-8和gbk里,
英文字母
只占一个字。
这是因为路径里面包含中文的原因:
linux的系统字符编码默认为utf-8,而要搜索的文件路径nameFile是Unicode,需要进行解码成unicode,因此作如下修改:
fout = codecs.open(nameFile.encode("utf-8") , "w" , "utf-8"当然,另外一种方法就是修改为英文的路径;
关于编码和解码的知识,请参考:http://www.cnblogs.com/qiernonstop/p/3634462.html