linux python运行报编码错误

2023-02-14 13:07:01Python025

linux python运行报编码错误,第1张

一次重启服务器后，supervisor接管的python脚本中的函数 open() 和 print() 都会报下面的编码错误：

UnicodeEncodeError: 'ascii' codec can't encode

使用的是python3，按理说编码都会默认utf-8，而且本地运行的python脚本并没有这个问题。

经大佬指点，增加环境变量 export LC_ALL="en_US.UTF-8" 后，再重启supervisor，问题解决

下面是复制的： https://www.cnblogs.com/badboy200800/p/11215981.html

Locale是一个软件在运行时的语言环境,。是根据计算机用户所使用的语言，所在国家或者地区，以及当地的文化传统所定义的。它包括语言(Language), 地域 (Territory) 和字符集(Codeset)。

一个locale的书写格式为: 语言[ 地域[.字符集]]。完全的locale表达方式是 [语言[ 地域][.字符集] [@修正值]。例如：

zh_CN.GB2312 ＝> 中文_中华人民共和国＋国标2312字符集。

（1）locale把按照所涉及到的文化传统的各个方面分成12个大类

（2）查看标准字符集列表

常用字符集：en_US.utf8、zh_CN.gb2312、zh_CN.gbk、zh_CN.utf8等

3.Locale的设定

LC_ALL和LANG优先级的关系：LC_ALL >LC_* >LANG

（1）如果需要一个纯中文的系统的话，设定LC_ALL= zh_CN.XXXX即可。或者设定LANG=zh_CN.XXXX也可以，但是LC_ 不要有任何特殊设定才可以（因为LC_ 优先级高）。

（2）如果需要个性化的环境，例如只想要一个可以输入中文的环境，而保持菜单、标题，系统信息等等为英文界面，那么只需要设定LANG=en_US.XXXX，然后 LC_CTYPE＝zh_CN.XXXX就可以了。

（3）假如什么也不做的话，也就是LC_ALL，LANG和LC_*均不指定特定值的话，系统将采用POSIX作为lcoale，也就是C locale。

4.查看与设定字符集实践

（1）查看当前系统字符集三种方式（LC_ALL、LC_CTYPE和LANG），以查看LANG为例：

（2）更改系统字符集

备注：直接执行上述命令，可以临时修改系统字符集。如果写入环境变量可以永久改变字符集。

（3）取消当前系统字符集（设定为空）

备注：直接执行上述命令，可以临时修改系统字符集。如果写入环境变量可以永久改变字符集。

默认情况下，Python 源文件是 UTF-8 编码。在此编码下，全世界大多数语言的字符可以同时用在字符串、标识符和注释中 — 尽管 Python 标准库仅使用 ASCII 字符作为标识符，这只是任何可移植代码应该遵守的约定。如果要正确的显示所有的字符，你的编辑器必须能识别出文件是 UTF-8 编码，并且它使用的字体能支持文件中所有的字符。

你也可以为源文件制定不同的字符编码。为此，在 #! 行（首行）后插入至少一行特殊的注释行来定义源文件的编码:

# -*- coding: encoding -*-

通过此声明，源文件中所有的东西都会被当作用 encoding 指代的 UTF-8 编码对待。在 Python 库参考手册 codecs 一节中你可以找到一张可用的编码列表。

例如，如果你的编辑器不支持 UTF-8 编码的文件，但支持像 Windows-1252 的其他一些编码，你可以定义:

# -*- coding: cp-1252 -*-

这样就可以在源文件中使用 Windows-1252 字符集中的所有字符了。这个特殊的编码注释必须在文件中的第一或第二行定义。

python 中的 unicode 是让人很困惑、比较难以理解的问题. 这篇文章写的比较好， utf-8是 unicode的一种实现方式，unicode、gbk、gb2312是编码字符集.

Python 默认脚本文件都是 ANSCII 编码的，当文件中有非 ANSCII 编码范围内的字符的时候就要使用" 编码指示 "来修正一个 module 的定义中，如果.py文件中包含中文字符（严格的说是含有非anscii字符），则需要在第一行或第二行指定编码声明： # -*- coding=utf-8 -*- 或者 #coding=utf-8

其他的编码如：gbk、gb2312也可以；否则会出现:

先说一下python中的字符串类型，在python中有两种字符串类型，分别是 str 和 unicode ，他们都是basestring的派生类；

在str的文档中有这样的一句话：

也就是说在读取一个文件的内容，或者从网络上读取到内容时，保持的对象为str类型；如果想把一个str转换成特定编码类型，需要把str转为Unicode,然后从unicode转为特定的编码类型如：utf-8、gb2312等。

unicode 转为 gb2312,utf-8等,使用 encode(encoding)

utf-8,GBK转换为 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)

普通的 str 转为 unicode,

如果直接执行s.encode('gb2312')会发生什么？

这里会发生一个异常：Python 会自动的先将 s 解码为 unicode ，然后再编码成 gb2312。因为解码是python自动进行的，我们没有指明解码方式，python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是 ANSCII，如果 s 不是这个类型就会出错。

拿上面的情况来说，我的 sys.defaultencoding 是 anscii，而 s 的编码方式和文件的编码方式一致，是 utf8 的，所以出错了:

对于这种情况，我们有两种方法来改正错误：

s = '中文'

s.decode('utf-8').encode('gb2312') ```

import sys

reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法，我们需要重新载入

sys.setdefaultencoding('utf-8')

str = '中文'

str.encode('gb2312')

print open("Test.txt").read()

import codecs

print open("Test.txt").read().decode("utf-8")