最新发布

# 2023-02-09
华为harmonyos 3有哪些特性?
华为harmonyos 3的特性：1、HarmonyOS 3体验更安全、更流畅HarmonyOS3系统会进一步打通各个设备之间的协同性，并且在系统性能表现和隐私安全上有所加强。HarmonyOS 3在安全性方面，新增了剪切板隐私保护、模糊
# 2023-02-09
华为平板m6能升级鸿蒙吗？
华为平板M6 10.8英寸、华为平板M6 8.4英寸、华为平板M6 高能版可以升级HarmonyOS系统。升级方式：进入设置 &gt系统和更新，点击软件更新。升级HarmonyOS 2前，您的平板需同时满足下列条件：（1）升级版本前
# 2023-02-09
荣耀桌面时间日期天气显示怎么设置
荣耀桌面时间日期天气显示设置步骤为：操作环境：荣耀手机、HarmonyOS2.0.0。1、首先在打开的荣耀手机桌面中，长按手机桌面空白处。2、然后点击页面下方的窗口小工具。3、进入窗口小工具，点击天气。4、最后点击显示时间和天气的样式，
# 2023-02-09
鸿蒙OS2.0九大新功能，详细玩机技巧
鸿蒙OS适配后，相比EMUI新增了九大功能！赶快保存或者手机搜索玩机技巧。一、HarmonyOs 桌面提供了服务卡片、大文件夹与小艺建议,让操作更便捷、桌面更美观。服务卡片:无需打开应用,可快速预览应用信息或使用常用功能。将不同
# 2023-02-09
HarmonyOS——Ability和AbilitySlice生命周期(一)
HarmonyOS 中的页面会用到Ability和AbilitySlice。Ability是提供与用户交互的能力。AbilitySlice是一个页面及其逻辑的总和。两者的关系可以是一对多。也就是一个Ability中可以包含多个不同的A
# 2023-02-09
鸿蒙系统的官网是什么?
鸿蒙系统的官网是Harmonyos.com。华为鸿蒙系统是一款全新的面向全场景的分布式操作系统，创造一个超级虚拟终端互联的世界，将人、设备、场景有机地联系在一起，将消费者在全场景生活中接触的多种智能终端实现极速发现、极速连接、硬件互助、资
# 2023-02-09
harmonyos2.0.0系统好用吗
harmonyos2.0.0系统好用。对于HarmonyOS 2.0系统，最大的感受就是流畅。此前有很多用户担心从EMUI系统过渡到鸿蒙系统会不适应，其实HarmonyOS 2.0系统真的会让用户用了以后爱不释手。不管是服务卡片还是动画过
# 2023-02-09
极客简报｜华为跌倒苹果吃饱；HarmonyOS 用户破亿
本周苹果召开新品发布会，iPhone 13 系列、iPad 9、iPad mini 6 以及 Apple Watch Series 7 正式亮相，大多数产品已于本周开卖，最快 9 月 24 日即可到手。极客之选
# 2023-02-09
4月27日华为正式推送鸿蒙系统升级。鸿蒙OS系统你真的了解吗？
4月27日晚，华为向部分机型推送了鸿蒙0S系统小规模公测升级，据可靠消息称，华为将在6月推送大规模正式公测升级。很多人收到了华为Harmony OS的推送，根据各个机型的不同，更新包大小也不相同，有的是2.87 GB，有
# 2023-02-09
华为手机开机显示Harmony OS是什么情况?
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒

python 3 文本处理例子求代码

2023-02-24 09:13:01Python015

python 3 文本处理例子求代码,第1张

#coding:utf-8

#file: FileSplit.py

import os,os.path,time

def FileSplit(sourceFile, targetFolder):

sFile = open(sourceFile, 'r')

number = 1000 #每个小文件中保存100000条数据

dataLine = sFile.readline()

tempData = [] #缓存列表

fileNum = 1

if not os.path.isdir(targetFolder): #如果目标目录不存在，则创建

os.mkdir(targetFolder)

while dataLine: #有数据

for row in range(number):

tempData.append(dataLine) #将一行数据添加到列表中

dataLine = sFile.readline()

if not dataLine :

break

tFilename = os.path.join(targetFolder,os.path.split(sourceFile)[1] + str(fileNum) + ".txt")

tFile = open(tFilename, 'a+') #创建小文件

tFile.writelines(tempData) #将列表保存到文件中

tFile.close()

tempData = [] #清空缓存列表

print(tFilename + " 创建于: " + str(time.ctime()))

fileNum += 1 #文件编号

sFile.close()

if __name__ == "__main__" :

FileSplit("access.log","access")

#coding:utf-8

#file: Map.py

import os,os.path,re

def Map(sourceFile, targetFolder):

sFile = open(sourceFile, 'r')

dataLine = sFile.readline()

tempData = {} #缓存列表

if not os.path.isdir(targetFolder): #如果目标目录不存在，则创建

os.mkdir(targetFolder)

while dataLine: #有数据

p_re = re.compile(r'(GET|POST)\s(.*?)\sHTTP/1.[01]',re.IGNORECASE) #用正则表达式解析数据

match = p_re.findall(dataLine)

if match:

visitUrl = match[0][1]

if visitUrl in tempData:

tempData[visitUrl] += 1

else:

tempData[visitUrl] = 1

dataLine = sFile.readline() #读入下一行数据

sFile.close()

tList = []

for key,value in sorted(tempData.items(),key = lambda k:k[1],reverse = True):

tList.append(key + " " + str(value) + '\n')

tFilename = os.path.join(targetFolder,os.path.split(sourceFile)[1] + "_map.txt")

tFile = open(tFilename, 'a+') #创建小文件

tFile.writelines(tList) #将列表保存到文件中

tFile.close()

if __name__ == "__main__" :

Map("access\\access.log1.txt","access")

Map("access\\access.log2.txt","access")

Map("access\\access.log3.txt","access")

#coding:utf-8

#file: Reduce.py

import os,os.path,re

def Reduce(sourceFolder, targetFile):

tempData = {} #缓存列表

p_re = re.compile(r'(.*?)(\d{1,}$)',re.IGNORECASE) #用正则表达式解析数据

for root,dirs,files in os.walk(sourceFolder):

for fil in files:

if fil.endswith('_map.txt'): #是reduce文件

sFile = open(os.path.abspath(os.path.join(root,fil)), 'r')

dataLine = sFile.readline()

while dataLine: #有数据

subdata = p_re.findall(dataLine) #用空格分割数据

#print(subdata[0][0]," ",subdata[0][1])

if subdata[0][0] in tempData:

tempData[subdata[0][0]] += int(subdata[0][1])

else:

tempData[subdata[0][0]] = int(subdata[0][1])

dataLine = sFile.readline() #读入下一行数据

sFile.close()

tList = []

for key,value in sorted(tempData.items(),key = lambda k:k[1],reverse = True):

tList.append(key + " " + str(value) + '\n')

tFilename = os.path.join(sourceFolder,targetFile + "_reduce.txt")

tFile = open(tFilename, 'a+') #创建小文件

tFile.writelines(tList) #将列表保存到文件中

tFile.close()

if __name__ == "__main__" :

Reduce("access","access")

在磁盘上读写文件之前，必须先打开这个文件。打开文件就需要提供文件的路径。

在与Python程序同一个目录下，我们有一个名为 pi.txt 的文件，它的内容如下：

现在使用Python来打开和关闭它：

执行此程序不会有任何输出，这表示着打开和关闭文件都得到了正确执行。

可以看到，使用 open() 函数打开文件，参数为文件名（或文件路径）；该函数会返回一个文件句柄，文件句柄并不会实际保存文件的内容，而是代表着一种操作，在上面的例子中，文件句柄被赋值给变量 fhand 。

打开文件后，程序具有读（默认）该文件的权限。

最后，使用文件句柄的 close() 方法关闭文件。这非常重要，因为使用完而没有关闭的文件会占用内存或造成安全问题。

如果Python找不到该文件，则会返回错误，比如下面这样：

Python提示我们没有相应的文件或者目录: 'pii.txt'。

打开文件后就可以对文件进行操作：

fhand.read() 方法将文件内容作为一个字符串返回。

文件中的每一行末尾使用换行符 \n 表示换行，例子中方法 rstrip() 去掉文本中的换行符，然后输出。

程序的运行效果如下：

如果在文件关闭之前程序发生BUG意外退出，则文件不会关闭，为了避免此类事件的发生，可以使用 with 语句：

with 语句的特点是即便在操作文件时发生错误，文件也会自动被清理。

fhand.read() 虽然可以读取文本内容，但是当我们想要逐行处理文件内容，或者文件很大而无法一次性加载进内存的时候，就不适用了。

可以使用 for 语句逐行处理文件内容：

本程序中将文件名保存在变量 filename 中。

打开文件后，使用 for 语句按行读取文件内容。例子中，每次循环依次取一行文本以字符串的格式保存在变量 line 中，每次循环中变量 count 自增1。

这个程序的作用是，打开程序所在目录的 when_old.txt 文件，然后统计行数，并输出结果。

when_old.txt 文件的内容是：

可以使用其他方法操作字符串 line ：

程序将以 'And' 开头的行打印出来。

打开文件后，默认的权限是读（r），如果要写文件，则需要使用写（w）或者追加（a）权限。

w权限，打开一个文件用于写入。如果该文件存在，则覆盖该文件；如果该文件不存在，则创建该文件。

a权限，打开一个文件用于追加。如果该文件存在，在文件末尾追加；如果该文件不存在，则创建该文件。

下面是一个使用w权限打开文件的例子：

例子中使用w权限打开该文件，并写入两行。（如果该文件存在，则内容会被覆盖）

fhand.write() 不会自动添加换行符，所以如果需要换行，需在末尾添加 \n 。

下面我们写一个统计文件中词频的程序。

它会统计文件中各个词的出现的次数，然后由高到低显示出前5个词。

首先我们完成打开和关闭文件的程序内容：

在例子中，由用户输入文件名，并且使用异常捕获以处理文件打开时的错误。

下面对内容进行统计：

这个程序：

如此，我们就在字典中存放了单词:次数的键值对。

由于字典不能保存顺序，所以不能对其进行排序。为此，将每个键值对都添加到一个列表中：

在列表 word_list 中，每一项都是一个元组，每个元组第一个值是单词出现的次数，第二个值是单词内容。

对其进行逆向（由大到小）排序：

打印最终结果：

整个程序如下：

下面是程序运行结果的示例：

在 pandas 中，存储文本主要有两种方式

但一般建议使用 StringDtype 类型存储文本数据。都是由于各种原因，现在字符串数据的默认存储类型还是 object 。

要存储为 string 类型，需要显式的设置 dtype 参数

或者在创建 Series 或 DataFrame 之后，使用 astype 转换类型

也可以使用 StringDtype/"string" 转换其他非字符串类型的数据

转换现有数据的类型

StringDtype 类型对象与 object 类型之间存在一些差异

两个结果的输出都是 Int64 类型。将其与 object 类型比较

当存在 NA 值时，输出为 float64 。类似地，对于返回布尔值的方法

Series 和 Index 有一套字符串处理方法，可以方便地对数组的每个元素进行操作，最重要的是，这些方法会自动忽略缺失值。

这些方法可以通过 str 属性访问，通常具有与内置字符串方法相匹配的名称

Index 上的字符串方法对于清理或转换 DataFrame 的列特别有用。

例如，您可能有带有前导或后置空格的列

因为 df.columns 是一个 Index 对象，所以我们可以使用 .str 访问器

我们可以根据需要对列名进行处理，然后重新设置列名。

例如，我们删除列名的前后空格，并将其改为小写字母，同时用 _ 替换剩余的空格

split 方法会返回一个值为 list 的 Series

可以使用 get 或 [] 访问拆分后的列表中的元素

更简单的方法是设置 expand 参数，返回一个 DataFrame

当原来的 Series 包含 StringDtype 类型的数据时，输出列也将全部为 StringDtype

当然，也可以设置切割次数

它还有个对应的 rsplit 方法，从右边起始对字符串进行拆分

replace 参数支持使用正则表达式，前两个参数是 pat (匹配模式) 和 repl (替换字符串)

如果只是想要替换字符串字面值，可以将 regex 参数设置为 False ，而不需要对每个特殊字符进行转义。此时 pat 和 repl 参数必须是字符串

此外， replace 方法还接受一个可调用的替换函数，会使用 re.sub() 方法在每个匹配的模式上调用该函数

该函数需要传入一个正则对象作为位置参数，并返回一个字符串。例如

replace 方法的 pat 参数还接受 re.compile() 编译的正则表达式对象。所有的 flags 需要在编译正则对象时设置

如果在 replace 中设置 flags 参数，则会抛出异常

有几种方法可以将一个 Series 或 Index 与自己或其他的 Series 或 Index 相连接，所有这些方法都是基于 cat() 方法

可以连接一个 Series 或 Index 的内容

如果未指定 sep 参数，则默认为空字符串

默认会跳过缺失值，也可以使用 na_rep 指定缺失值的表示方式

cat() 的第一个参数 others 可以是类似列表的对象，但是其长度需要和调用对象一致

只要两个对象中存在缺失值，对应的结果中也是缺失值，除非指定了 na_rep

others 参数也可以是二维的，但是得保证其行数必须与调用的对象一致

对于 Series 或 DataFrame 的连接，可以通过设置 join 参数指定对齐方式

通常 join 可选范围为： 'left' , 'outer' , 'inner' , 'right' 。此时，不再要求两个对象长度一致

当 others 参数是 DataFrame 时，也可以使用

可以将一些类似数组的对象（如 Series ， Index 等）放在一个类似列表的容器中，然后传递给 cat

对于没有索引的对象，其长度必须与调用 cat 的对象相同。但是 Series 和 Index 可以是任意的，除非设置了 json=None 。

如果在 others 参数上包含不同索引的对象，且设置了 join='right' ，则最后的结果将会是这些索引的并集

文件字符串参数方法如果

# 上一篇：自学C语言行吗?

# 下一篇：电脑怎么下载Java版我的世界？