python数据分析的基本步骤

Python017

python数据分析的基本步骤,第1张

一、环境搭建

数据分析最常见的环境是Anaconda+Jupyter notebook

二、导入包

2.1数据处理包导入

2.2画图包导入

2.3日期处理包导入

2.4jupyter notebook绘图设置

三、读取数据

四、数据预览

1.数据集大小

2.查看随便几行或前几行或后几行

3.查看数据类型

4.查看数据的数量、无重复值、平均值、最小值、最大值等

5.查看字段名、类型、空值数为多少

五、数据处理

把需要的字段挑选出来。

数据类型转换

日期段数据处理。

用Python做数据分析,大致流程如下:

1、数据获取

可以通过SQL查询语句来获取数据库中想要数据。Python已经具有连接sql server、mysql、orcale等主流数据库的接口包,比如pymssql、pymysql、cx_Oracle等。

2、数据存储

企业当中的数据存储,通过通过数据库如Mysql来存储与管理,对于非结构化数据的存储可以使用MongoDB等。对于使用Python进行网络抓取的数据,我们也可以使用pymysql包快速地将其存储到Mysql中去。

3、数据预处理/数据清洗

大多数情况下,原始数据是存在格式不一致,存在异常值、缺失值等问题的,而不同项目数据预处理步骤的方法也不一样。Python做数据清洗,可以使用Numpy和Pandas这两个工具库。

4、数据建模与分析

常见的数据挖掘模型有:分类、聚类、回归等,这些常见的算法模型,Python也有Scikit-learn和Tensorflow工具库来支持。

5、数据可视化分析

在数据可视化方面,Python有Matplotlib、Seaborn、Pyecharts等工具库可用。

pandas专门为处理表格和混杂数据设计

import pandas as pd

from pandas import Series,DataFrame

Series 类似于一维数组+索引

data = pd.Series([1,2,3,4,5]) 生成Series数据

data.values data.index

pd.Series([1,2],index = ['a','b']) 设置索引

data['a'] 通过索引选取Series中单个或一组值

data[data%2==0] 进行类似numpy数组的运算index仍会保留

'a' in data

pd.Series(python字典) 可以通过python字典创建Series

可以通过设置index改变Series元素顺序

缺失值用NaN表示

pd.isnull(data) 检测缺失数据

pd.notnull

data1 + data2 可以根据索引自动对齐数据进行运算,类似join操作

data.name data.index.name 可赋值

index可以通过赋值方式修改

pd.DataFrame(XXX)传入元素为等长列表或np数组组成的字典可以生成DataFrame数据,字典key值为列名

frame.head() 前五行

pd.DataFrame(XXX, columns = [xxx], index = [xxxxx]) 可能产生NaN

frame['a'] 取列名为a的一列数据 等价于 frame.a(此时a需要是合理的变量名) 可以以列表形式取多列数据 返回的Series序列索引与原DataFrame相同

frame.loc[0] 行选取

可以用一个Series/值对某列赋值,需要长度相等

对不存在的列赋值可创建新列

del frame[列名] 删除列

通过索引方式返回数据视图,修改此返回数据也会影响源数据,Series.copy()可以创建副本

嵌套字典传给DataFrame,外层字典的键作为列名,内层键作为行索引

frame.T 转置

frame.reindex(新索引列表) 根据新索引重排,若索引值当前不存在则NaN

列可以用columns关键字重新索引

obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])

obj3.reindex(range(6), method='ffill') ffill实现前向值填充

reindex可以修改(行)索引和列。只传递一个序列时,会重新索引结果的行,列可以用columns关键字重新索引

Series索引

series(索引列表/数值范围切片) 选取对应元素