python 读取带中文的文件

2023-02-26 08:41:01Python015

python 读取带中文的文件,第1张

如果碰上中文文件名，必须用cp936或gb18030去解码它。如果你写了一个中文的文件名，而python根据utf-8规则去把它翻译成字节，就会在底层的文件名上不匹配，因为该中文在cp936的规则下翻译成另外的字节。报错是找不到该文件。

我参照了很多网上内容，有以下三种解决方法，前两种类似，是用unicode：

Python re正则匹配中文，其实非常简单，把中文的unicode字符串转换成utf-8格式就可以了，然后可以在re中随意调用

unicode中中文的编码为/u4e00-/u9fa5，因此正则表达式u”[\u4e00-\u9fa5]+”可以表示一个或者多个中文字符

>>>import re

>>>s='中文：123456aa哈哈哈bbcc'.decode('utf8')

>>>s

u'\u4e2d\u6587\uff1a123456aa\u54c8\u54c8\u54c8bbcc'

>>>print s

中文：123456aa哈哈哈bbcc

>>>re.match(u"[\u4e00-\u9fa5]+",s)

<_sre.SRE_Match object at 0xb77742c0>

>>>pat='中文'.decode("utf8")

>>>re.search(pat,s)

<_sre.SRE_Match object at 0x16a16df0>

>>>newpat='这里是中文内容'.decode("utf8")

>>>news=re.sub(pat,newpat,s)

>>>print news

这里是中文内容：123456aa哈哈哈bbcc

from:http://blog.aizhet.com/web/12078.html

1、字符串line='\ufeffD0002044\x01大数据\x01数据分析\x01技术\x01工具\x01应用\n'

想提取出其中的“大数据”，“数据分析”，“技术”，“工具”，“应用”这些中文，用了正则表达式：

>>> pat2='\x01(.*?)'

>>> rs=re.compile(pat2).findall(line)

>>> print(rs)

['', '', '', '', '']

显示的结果是空，请问如何才能正确的提出中文部分。

2、原文：法规名称:'《中华人民共和国合同法》',Items:[{法条名称:'第五十二条'

匹配成：《中华人民共和国合同法》第五十二条

(?<=法规名称:\').*?（\',Items:[{法条名称:\'）.*?(?=\') 请问这样匹配哪里错了？Python报sre_constants.error: unterminated character set at position 22

3、Python re正则匹配中文，其实非常简单，把中文的unicode字符串转换成utf-8格式就可以了，然后可以在re中随意调用

unicode中中文的编码为/u4e00-/u9fa5，因此正则表达式u”[\u4e00-\u9fa5]+”可以表示一个或者多个中文字符

>>>import re

>>>s='中文：123456aa哈哈哈bbcc'.decode('utf8')

>>>s

u'\u4e2d\u6587\uff1a123456aa\u54c8\u54c8\u54c8bbcc'

>>>print s

中文：123456aa哈哈哈bbcc 。

中文字符串名称文件名数据

# 上一篇：GO语言学习系列八——GO函数(func)的声明与使用

# 下一篇：C语言-删除字符串中指定的字符

给您推荐相同类型的内容：

如何学习GO语言？
Go语言也称 Golang，兼具效率、性能、安全、健壮等特性。这套Go语言教程（Golang教程）通俗易懂，深入浅出，既适合没有基础的读者快速入门，也适合工作多年的程序员查阅知识点。Go 语言这套教程在讲解一些知识点时，将 Go 语言和其
颜色名称大全
颜色名称大全一.红色类红色 red 朱红 vermeilvermilionponceau 粉红 pinksoft redrose bloom 梅红 plumcrimsonfuchsia red 玫瑰红 rose madderr
python怎样实现监听程序的端口。如apache开着, 一旦有数据到达80的端口他就会记录下来
apache占用了80端口python的socket就不能用了啊，要不怎么知道数据发给谁呢，你可以让python使用80，apache使用别的，然后让python收到后转发给apache。下面是java的例子，但是原理一样的【起因】同事要参
在c语言中用最简单的方法把十进制转化为十六进制
代码如下：#include "stdio.h" int main() { int num=0int a[100] int i=0 int m=0int yushu char hex[16]={'0'
C语言，第25题，求详解
a=p==&ampm把p==&ampm的返回值赋给a。因为p没有指向m，所以p和&ampm不等，返回值0，所以a被赋予0b=(-*p对*p取负)(*q)+7=(-4)6+7=0+7所以b=7因为输出是printf
python怎样将一个txt以逗号为分隔符分为三个部分存入三个txt
with open('读取的文件名.txt') as f_obj:空格readthings=f_obj.read()readthings=readthings.split(',')num=0for i
python中模块导入的方法
Python中模块导入的方法有import、from…import和import as三种。import可以导入整个模块，from…import可以只导入模块的指定部分，而import as则可以将模块重命名。拓展：此外，Python还支持
python 正则表达式过滤特殊字符
&gt&gt&gtimport re &gt&gt&gtstring = "123我adfasdf?（((q,[]" &gt&gt&gtst
有谁知道喜力啤酒的广告曲歌词是“你是个大人物，从不会认输”，这首歌的歌名是什么？
Heineken喜力啤酒2013年最新广告歌曲，Love Letter由Clairy Browne &ampThe Bangin' Rackettes演唱，Clairy Browne &ampThe Bangin&
go语言语法(基础语法篇)
import "worknamepacketfolder"导入多个包方法调用包名.函数不是函数或结构体所处文件或文件夹名 packagename.Func()前面加个点表示省略调用，那么调用
小白想学习go语言，哪位有教程？
如果你想每一步走得扎实，那么我的建议如下：对一名从未接触过程序开发的小白来说，首先得足够了解计算机，至少你得知道你写的代码在计算机内部是如何运行的，你的数据是如何通过网络传输，《微机原理与接口技术》和《TCPIP详解》（三卷）是很好的学习
Python就业怎么样？好找工作吗？地点成都。
Python挺好就业的，目前Python大火，无论是使用率还是市场都在逐步增加，学完Python以后有以下几个就业方向：第一：Python web开发学完Python可以做web开发，因为现在中国学习Python的比较少，而招聘Pyth
c语言16进制转换为10进制数的函数是什么？
1、可以根据16进制转10进制的算法（即各位位码值乘以位权之和）来实现该功能。2、具体实现方法可以参考如下程序：#include &ltstdio.h&gtvoid main(){ int he i
python字典操作函数
字典是一种通过名字或者关键字引用的得数据结构，其键可以是数字、字符串、元组，这种结构类型也称之为映射。字典类型是Python中唯一内建的映射类型，基本的操作包括如下： (1)len()：返回字典中键—值对的数量； (2)d[k]:返
如何学习GO语言？
Go语言也称 Golang，兼具效率、性能、安全、健壮等特性。这套Go语言教程（Golang教程）通俗易懂，深入浅出，既适合没有基础的读者快速入门，也适合工作多年的程序员查阅知识点。Go 语言这套教程在讲解一些知识点时，将 Go 语言和其
好听的英文用户名
女生好听的英文名大全Abby: 娇小可爱的女人，文静，令人喜爱，个性甜美。 Aimee: 意为可爱的人。 Alisa: 快乐的姑娘的意思。 Angelia: 天使，传送讯息者。Angelia被描绘为美丽，娇小的女子若不是有著
go语言和java哪个更有前途
go语言和java，go语言更有前途。1.Java仍然是主流的企业级应用编程语言，看看阿里，华为等大厂的招聘岗位就知道了。2.Go语言代表了未来，很多新兴上市公司，如B站，高途课程等用Go做主编程语言。我所知道的一些创业公司，也开会尝试
python中四种配置文件
常用的配置文件后缀是.ini、.conf、.py，当然还有使用.json、.txt的，推荐使用常用的.ini、.py，配置文件的名字一般是config便于理解和使用。 ini配置文件，这类配置文件我们使用内置configparser库
怎么用python求一个数的平方？
用python求一个数的平房可以按照如下的步骤：1、利用input()函数获取一个数字aa=input("请输入数字：")2、利用运算符"**"获取变量a的二次幂运算b=a**23、将获取到
如何配置go语言开发环境
1.1 Go 安装Go的三种安装方式Go有多种安装方式，你可以选择自己喜欢的。这里我们介绍三种最常见的安装方式：Go源码安装：这是一种标准的软件安装方式。对于经常使用Unix类系统的用户，尤其对于开发者来说，从源码安装可以自己定制。Go标准
Python API快餐教程(1) - 字符串查找API
字符串是7种序列类型中的一种。除了序列的操作函数，比如len()来求字符串长度之外，Python还为字符串提供丰富到可以写个编辑器的API. 首先，下面的查找API都是为了查找位置，或者查一共有几次这样的操作。如果只是想判断
LILY CHEUNG 请大家用这个英文名帮我设计个性签名！— —！谢谢
iv‘瞌r籁溃w埽ip┠f埂nⅷhg根据星座取英文3名有过几c个e英文8名，但当你出国申请护照时最好固定下d一r个n英文5名，因为4以4后再该就很不w方2便了i。尽管起名没有一j定限制，但起英文4名时最好与m自己w的中4文5名有联系，让人f
python如何换行输入代码？
python中输入代码时进行换行输入，一共分为三步。以下是具体的操作步骤：工具／原料：小米笔记本Pro15.6、Windows11、python3.7.21、输入反斜杠＼当输入执行语句后，在尾端输入【反斜杠＼】。2、换行继续输入点击
如何用C语言编程实现 ctrl+c 的复制功能
你是想模拟替换按键吧，建议你直接发送剪贴版消息，更简便，代码如下：BOOL CCtextDlg::PreTranslateMessage(MSG* pMsg){if(pMsg-&gtmessage == WM_KEYDOWN){if
龙在江湖中的刘德华最后被谁杀的是被Ruby杀的
1、是被Ruby杀的。吉祥身负丧妻之痛，为了爱妻的遗愿，独自抚养爱子，但因与其子大洪之前接触不深故彼此摩擦不断，好在吉祥多年的红颜知己Ruby从中调解，父子关系日渐软化，RUBBY深爱韦吉祥，为了韦吉祥可以放弃很多优质男性的追求。2、三
C语言二进制数转化为十进制数
思路：十进制整数转换为二进制整数采用"除2取余，逆序排列"法。即用2整除十进制整数，可以得到一个商和余数；再用2去除商，又会得到一个商和余数，如此进行，直到商为0时为止，然后把先得到的余数作为二进制数的低位有效位，后得到
0在c语言是什么意思？
字符0’对应的ASCII码是48，48对应的十六进制数就是0x30。通常我们在编程的时候，用字符转化为数字的时候经常要用到，比如要将‘8’转换为数字8，在语句中这样写就可以了， 8+0’。这里的8就是数字。c语言是一门面向过程、抽象
We Have All The Time In The World 歌词
歌曲名:We Have All The Time In The World歌手:The Puppini Sisters专辑:The Rise And Fall Of Ruby WooWe Have All The Time In The W
《Go语言实战》epub下载在线阅读，求百度网盘云资源
《Go语言实战》（威廉·肯尼迪 (William Kennedy)）电子书网盘下载免费在线阅读链接：https:pan.baidu.coms1mNt2bRjwacBu3C5YNe-dOQ提取码：1234书名：Go语言实战作者：
请教几个有关C语言的问题： 1、为什么‘cd’不能做为C语言合法常量？而0.1e+6可以呢？
(1) 用单引号括起的是字符常量，'cd' 含2个字符，也不是转义字符，所以不是合法常量。0.1e+6 是合法的 E 格式浮点数。（2）char a='aa' 用单引号括起的是字符常量，'

推荐阅读

热门文章

最新发布

标签列表

python 读取带中文的文件

给您推荐相同类型的内容：