Python数据分析师主要做什么?Python基础

2023-02-26 07:49:02Python019

Python数据分析师主要做什么?Python基础,第1张

伴随着大数据时代的到来，Python的热度居高不下，已成为职场人士必备的技能，它不仅可以从事网络爬虫、人工智能、Web开发、游戏开发等工作，还是数据分析的首选语言。那么问题来了，利用Python数据分析可以做什么呢?简单来讲，可以做的事情有很多，具体如下。

第一、检查数据表

Python中使用shape函数来查看数据表的维度，也就是行数和列数。你可以使用info函数查看数据表的整体信息，使用dtypes函数来返回数据格式。Lsnull是Python中检查空置的函数，你可以对整个数据进行检查，也可以单独对某一列进行空置检查，返回的结果是逻辑值，包括空置返回True，不包含则返回False。使用unique函数查看唯一值，使用Values函数用来查看数据表中的数值。

第二，数据表清洗

Python中处理空值的方法比较灵活，可以使用Dropna函数用来删除数据表中包括空值的数据，也可以使用fillna函数对空值进行填充。Python中dtype是查看数据格式的函数，与之对应的是asstype函数，用来更改数据格式，Rename是更改名称的函数，drop_duplicate函数函数重复值，replace函数实现数据转换。

第三，数据预处理

数据预处理是对清洗完的数据进行整理以便后期统计和分析工作，主要包括数据表的合并、排序、数值分列、数据分组以及标记等工作。在Python中可以使用merge函数对两个数据表进行合并，合并的方式为inner，此外还有left、right和outer方式。使用ort_values函数和sort_index函数完成排序，使用where函数完成数据分组，使用split函数实现分列。

第四，数据提取

主要是使用三个函数：loc、iloc和ix，其中loc函数按标准值进行提取，iloc按位置进行提取，ix可以同时按标签和位置进行提取。除了按标签和位置提取数据意外，还可以按照具体的条件进行提取。

第五，数据筛选汇总

Python中使用loc函数配合筛选条件来完成筛选功能，配合sum和count函数还能实现Excel中sumif和countif函数的功能。Python中使用的主要函数是groupby和pivot_table。

1.python自带数据结构：序列（如list）、映射（如字典）、集合（set）。

以下只介绍序列中的list：

创建list：

list1 = []

list1 = [1,2,3,4,5,6,7,8,9]#逗号隔开

list2 = [[1,2],[3,4],[5,6],[7,8]] #list2长度(len(list2))为2,list2[0] = [1,2]

liststring = list(“thisisalist”) #只用于创建字符串列表

索引list：

e = list1[0]#下标从零开始，用中括号

分片list：

es = list1[0:3]

es = list1[0:9:2] #步长在第二个冒号后

list拼接（list1.append(obj)、加运算及乘运算）：

list长度：

list每个元素乘一个数值：

list2 = numpy.dot(list2,2)

list类似矩阵相乘（每个元素对应相乘取和）：

list3 = numpy.dot(list1,list1)

#要求相乘的两个list长度相同

list3 = numpy.dot(list2,list22)

#要求numpy.shape(list2)和numpy.shape(list22)满足“左行等于右列”的矩阵相乘条件，相乘结果numpy.shape(list3)满足“左列右行”

2.numpy数据结构：

Array：

产生array：

data=np.array([[1, 9, 6], [2, 8, 5], [3, 7, 4]])

data=np.array(list1)

data1 = np.zeros(5) #data1.shape = (5,),5列

data1 = np.eye(5)

索引array:

datacut = data[0,2] #取第零行第二列，此处是6

切片array：

datacut = data[0:2,2] # array([6, 5])

array长度：

data.shape

data.size

np.shape(data)

np.size(data)

len(data)

array拼接：

#括号内也有一个括号（中括号或者小括号）！

d = np.concatenate((data,data))

d = np.concatenate((data,data),axis = 1) #对应行拼接

array加法：逐个相加

array乘法：

d = data data #逐个相乘

d = np.dot(data,data) #矩阵相乘

d = data 3 #每个元素乘3

d = np.dot(data,3) #每个元素乘3

array矩阵运算：

取逆 : np.linalg.inv(data)

转置：data.T

所有元素求和 : np.sum(data)

生成随机数：np.random.normal(loc=0, scale=10, size=None)

生成标准正态分布随机数组：np.random.normal(size=(4,4))

生成二维随机数组：

np.random.multivariate_normal([0,0],np.eye(2))

生成范围在0到1之间的随机矩阵(M,N)：

np.random.randint(0,2,(M,N))

Matrix:

创建matrix：

mat1 = np.mat([[1, 2, 3], [4, 5, 6]])

mat1 = np.mat(list)

mat1 = np.mat(data)

matrix是二维的，所有+，-，*都是矩阵操作。

matrix索引和分列：

mat1[0:2，1]

matrix转置：

np.transpose(mat1)

mat1.transpose()

matrix拼接：

np.concatenate([mat1,mat1])

np.concatenate([mat1,mat1],axis = 1)

numpy数据结构总结：对于numpy中的数据结构的操作方法基本相同：

创建：np.mat(list),np.array(list)

矩阵乘：np.dot(x,y)

转置：x.T or np.transpose(x)

拼接：np.concatenate([x,y],axis = 1)

索引：mat[0:1,4],ary[0:1,4]

3.pandas数据结构:

Series:

创建series：

s = pd.Series([[1,2,3],[4,5,6]],index = [‘a’,‘b’])

索引series：

s1 = s[‘b’]

拼接series：

pd.concat([s1,s1],axis = 1) #也可使用s.append(s)

DataFrame:

创建DaraFrame:

df = pd.DataFrame([[1,2,3],[1,2,3]],index = ['a','b'],columns = ['x','y','z'])

df取某一列：

dfc1 =df.x

dfc1 = df[‘x’]

dfc2 = df.iloc[:,0] #用.iloc方括号里是数字而不是column名！

dfc2 = df.iloc[:,0:3]

df取某一行：

dfr1 = df.iloc[0]

df1 = df.iloc[0:2]

df1 = df[0:2] #这种方法只能用于取一个区间

df取某个值：

dfc2 = df.iloc[0,0]

dfc2 = df.iloc[0:2,0:3]

如果你只要提取其中如date这列的数据可以直接e['date'],如果哪一天的数据e['2018-12-10']

如果是提取其中的一个数据可以e.iloc[]或e.loc[]

函数数据矩阵数据表数据结构

# 上一篇：focallure菲鹿儿眼影怎么画？菲鹿儿眼影画法教程

# 下一篇：Golang实验性功能SetMaxHeap 固定值GC

推荐阅读

热门文章

最新发布

标签列表

Python数据分析师主要做什么?Python基础

给您推荐相同类型的内容：