pandas库可以有效的处理excel、csv和txt文件,并能多格式将数据重新保存为excel、csv和txt文件。
1
1
一、导入数据
利用pandas库中的read函数可以将excel文件读入,转化为 DataFrame格式
import pandas as pd
path = "D:\text.xlsx" ##文件路径
data = pd.read_excel(path,sheet_name = 0) ##若包含多个子表,可以用sheet_name参参数进行选择
若excel表中不包含列名信息可以在读入时,利用names参数进行指定
data = pd.read_excel(path,names=["id","name","date"])
对于csv文件可以使用pd.read_csv函数进行数据导入
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
二、空表创建
当输出表格和输入表格的格式不一致时,我们可以通过创建空表来解决问题,新的DataFrame表格的数据可以为空,但是必须设置列名,也就是表头
##利用list创建表头
header = ["name","date","a","b"]
##创建空表
outData = pd.DataFrame(columns=header)
1
2
3
4
5
6
7
1
2
3
4
5
6
7
三、数据增删查改
1.数据查改
利用loc和iloc函数可以对DataFrame 数据表中的数据进行查改,loc使用行名和列名进行调用,iloc使用行列索引进行调用
propoLoc = data.loc["index", "proportion"]
propoIloc = data.loc[0, 0]
data.iloc[:, 5:] = data.iloc[:, 5:].astype(int) ##利用索引可以对数据进行批量处理,此句指令用于将表格第五列至最后一列的格式转化为整型int
2.数据增删
利用drop函数可以删除指定行列,利用loc或insert函数可以增加列,loc用来增加行
data.drop(index=[0], inplace=True) ##删除行名为0的行
data.drop(columns=[0], inplace=True,axis=1) ##删除列名为0的列
data.loc[str(csvName)] = rowData ##增加行名为csvName的行,注意rowData要保证和data的列数一致
data.loc[:,str(csvName)] = 0 ##增加列名为csvName的列,用0填充该列
data.insert(data.shape[1], 'd', 0) ##在data.shape[1]处增加列,并用0填充
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
四、批量处理
首先利用os库对文件夹进行遍历,获得所有的excel文件
import os
excelNames = os.listdir(rootPath) ##获得所有的文件名
for excelName in excelNames:
##对每个文件进行处理
1
2
3
4
5
6
7
1
2
3
4
5
6
7
五、常用的数据处理方法
1.字符串分割 str.split(",") 用逗号进行分割,并创建一个list进行存储
2.str.endswith("hello") 判断字符串的后缀
1
2
1
2
六、表格存储
1.单表存储:将一个sheet放入到一个excel中
saveFile = rootPath+"test.xlsx" ##指定保存文件,注意反复保存时,excel不要打开,否则无法写入
rootData.to_excel(saveFile,index=False) ##保存指定,并不保存行名
2.多表存储:将多个sheet放入到一个excel中
with pd.ExcelWriter('./dataOut.xlsx') as writer:
DFa.to_excel(writer, sheet_name="表1")
DFb.to_excel(writer, sheet_name="表2")
DFc.to_excel(writer, sheet_name="表3")
writer.save()
writer.close()
批量表格处理完整代码:将多张表的信息进行汇总
import os
import pandas as pd
rootPath = "C:\test\"
def createOutCsv(path):
data = pd.read_excel(path, names=["column1", "column2", "column3"])
data.drop(index=[0], inplace=True)
header = ["name"] ###创建表头
for index in data.index: ##利用data中的所有column1创建表头
column = data.loc[index,"name"].split(".")[-1]
header.append(column
pycharm常用的快捷键合集!搜索
Ctrl+Shift+F7:用法高亮显示
Ctrl+Alt+F7:显示用法
编辑
Ctrl+Shift+V:从最近的缓冲区粘贴
Ctrl+D:复制选定的区域或行到后面或下一行
Ctrl+Y:删除当前行
Ctrl+Shift+J:添加智能线
Ctrl+Enter:智能线切割
Shift+Enter:下一行另起一行
Ctrl+O:重新方法
Ctrl+Alt+T:选中
Ctrl+Numpad+/-:展开折叠代码块
Ctrl+Numpad+:全部展开
Ctrl+Numpad-:全部折叠
Ctrl+F4:关闭运行的选项卡
Ctrl+Space:基本的代码完成
Ctrl+Alt+Space:快速导入任意类
Ctrl+Shift+Enter:语句完成
Ctrl+P:参数信息
Ctrl+Q:快速查看文档
Ctrl+/:行注释
Ctrl+Shift+/:块注释
Ctrl+W:选中增加的代码块
Tab/Shift+Tab:缩进、不缩进当前行
Ctrl+X/Shift+Delete:剪切当前行或选定的代码块到剪贴板
Ctrl+C/Ctrl+Insert:复制当前行或选定的代码块到剪贴板
Ctrl+V/Shift+Insert:从剪贴板粘贴
Ctrl+Alt+I:自动缩进
Ctrl+Shift+U:在选定的区域或代码块间切换
Ctrl+Delete:删除到字符结束
Ctrl+Backspace:删除到字符开始
Shift+F1:外部文档
Ctrl+鼠标:简介
Ctrl+Shift+W:回到之前状态
Ctrl+Shift+]/[:选定代码块结束、开始
Alt+Enter:快速修正
Ctrl+Alt+L:代码格式化
Ctrl+Alt+O:自动导入
Ctrl+F1:显示错误描述或警告信息
Alt+Insert:自动生成代码
运行调试
Alt+Shift+F10:运行模式配置
Shift+F10:运行
Shift+F9:调试
Alt+Shift+F9:调试模式配置
Ctrl+Shift+F10:运行编辑器配置
Ctrl+Alt+R:运行manage.py任务