如何理解python3的unicode,以及全角半角转换

Python022

如何理解python3的unicode,以及全角半角转换,第1张

1. unicode是一个编码的standard,表明了字符与数字之间的映射,是可变长的。

2. 映射后的数据如何编码为字节?这个就是具体的编码规则:目前最主流的是UTF-8,同样,它也是变字长的。

python3中的str都是unicode的:“The default encoding for Python source code is UTF-8”

python3中的encode:按照encode()括号中的参数对字符串进行编码,就是生成bytes。

所以:

In:'中文'.encode('utf-8')

Out:b'\xe4\xb8\xad\xe6\x96\x87'

这里的b就是Byte,\x表示这个x是被转义的,意思就是0x。又如:

In: 'abc'.encode('utf-8')

Out: b'abc'

上面的b'a'其实表示的是数字97,b'a'的意思就是字符串'a'的binary数字:

[In]:'abc'.encode('utf-8')[0]

[Out]: 97

同时可以把b'\x'进行解码,即:

In:b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')

Out:'中文'

除了encode('utf-8')外,用ord可以获得单个utf-8字符对应的数字:

In [60]: ord('a')

Out[60]: 97

In [61]: ord('a') #这个是全角的a

Out[61]: 65345

除了decode('utf-8')外,用chr可以获得数字对应的utf-8字符:

In [62]: chr(97)

Out[62]: 'a'

除了unicode还有别的编码标准吗?有啊,比如我国的GBK,别名也叫cp936。

全角和半角之分,是指同样一个意义的字符,显示的大小不同.具体来说,全角和半角的编码是两个结果:

In [70]: "mn".encode('utf-8')

Out[70]: b'\xef\xbd\x8d\xef\xbd\x8e

[In]:"mn".encode('utf-8')

[Out]:b'mn'

它们有什么对应关系呢?(引自这里)

转换说明

全角半角转换说明

有规律(不含空格):

全角字符unicode编码从65281~65374 (十六进制 0xFF01 ~ 0xFF5E)

半角字符unicode编码从33~126 (十六进制 0x21~ 0x7E)

特例:

空格比较特殊,全角为 12288(0x3000),半角为 32(0x20)

除空格外,全角/半角按unicode编码排序在顺序上是对应的(半角 + 0x7e= 全角),所以可以直接通过用+-法来处理非空格数据,对空格单独处理。

代码在此基础上改动一下(将unichr改为chr即可,适应python3),即:

def strQ2B(ustring):

"""全角转半角"""

rstring = ""

for uchar in ustring:

inside_code=ord(uchar)

if inside_code == 12288:#全角空格直接转换

inside_code = 32

elif (inside_code >= 65281 and inside_code <= 65374): #全角字符(除空格)根据关系转化

inside_code -= 65248

rstring += chr(inside_code)

return rstring

In [69]: strQ2B('你好python')

Out[69]: '你好python'

Python:常用函数封装:

def is_chinese(uchar):

"""判断一个unicode是否是汉字"""

if uchar >= u'\u4e00' and uchar<=u'\u9fa5':

return True

else:

return False

def is_number(uchar):

"""判断一个unicode是否是数字"""

if uchar >= u'\u0030' and uchar<=u'\u0039':

return True

else:

return False

def is_alphabet(uchar):

"""判断一个unicode是否是英文字母"""

if (uchar >= u'\u0041' and uchar<=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'):

return True

else:

return False

def is_other(uchar):

"""判断是否非汉字,数字和英文字符"""

if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)):

return True

else:

return False

def B2Q(uchar):

"""半角转全角"""

inside_code=ord(uchar)

if inside_code<0x0020 or inside_code>0x7e: #不是半角字符就返回原来的字符

return uchar

if inside_code==0x0020: #除了空格其他的全角半角的公式为:半角=全角-0xfee0

inside_code=0x3000

else:

inside_code+=0xfee0

return unichr(inside_code)

def Q2B(uchar):

"""全角转半角"""

inside_code=ord(uchar)

if inside_code==0x3000:

inside_code=0x0020

else:

inside_code-=0xfee0

if inside_code<0x0020 or inside_code>0x7e: #转完之后不是半角字符返回原来的字符

return uchar

return unichr(inside_code)

def stringQ2B(ustring):

"""把字符串全角转半角"""

return "".join([Q2B(uchar) for uchar in ustring])

def uniform(ustring):

"""格式化字符串,完成全角转半角,大写转小写的工作"""

return stringQ2B(ustring).lower()

def string2List(ustring):

"""将ustring按照中文,字母,数字分开"""

retList=[]

utmp=[]

for uchar in ustring:

if is_other(uchar):

if len(utmp)==0:

continue

else:

retList.append("".join(utmp))

utmp=[]

else:

utmp.append(uchar)

if len(utmp)!=0:

retList.append("".join(utmp))

return retList

经常打字的朋友可能碰到过这样的情况,不小心将输入法中的半角符号切换到了全角符号,于是打出来的字符都是间距特别大,显得很难看,怎么办?下面给大家分享:如何将文章当中的全角字符转换成半角字符,本经验也适合在网络上下载的文字中含有全角符号的字符转换为半角字符。

一、如何打出全角或半角字符:

1、下图所示,在输入法状态下,按下Shift+空格键或直接点击如图所示的圆形或半月形,可以在全角或半角间进行切换。

2、下面是全角和半角情况下,输入法的状态及打印出来的字符状态。

二、全角转换为半角字符:

1、在文档中选中需要转换的全角字符,然后点击上方菜单“格式”。

2、然后在下拉菜单中点击“更改大小写”项。

3、在弹出的对话框中点击“半角”,然后点击下方的“确定”按钮。

4、看看更改后的变化吧。如果想要更改为半角状态,以同样的方法将其上步中选择半角即可

在word中全角数字怎么替换成半角数字?有些人分不清全角和半角,但是如果你输入数字的话,两者之间明显不同,那在word中全角数字替换为半角数字,怎么弄呢?下面就为大家详细介绍一下,来看看吧!

步骤

打开word文档,输入一段数字串,这个是全角效果。

如何改为半角效果呢?在开始菜单中找到这个符号,点击找到更改大小写。

注意前提一定要选中数字串,然后出现大小写对话框,选中半角,确定。

最后数字样式发生了变化,不是那么松散了。

word2003版是在格式中-点击更改大小写,然后在出现的对话框中选中半角,点击确定。

以上就是在word中全角数字怎么替换成半角数字方法介绍,操作并不是很难,大家学会了吗?希望这篇文章能对大家有所帮助!