python自带及pandas、numpy数据结构(一)

Python013

python自带及pandas、numpy数据结构(一),第1张

1.python自带数据结构:序列(如list)、映射(如字典)、集合(set)。

以下只介绍序列中的list:

创建list:

list1 = []

list1 = [1,2,3,4,5,6,7,8,9]#逗号隔开

list2 = [[1,2],[3,4],[5,6],[7,8]] #list2长度(len(list2))为2,list2[0] = [1,2]

liststring = list(“thisisalist”) #只用于创建字符串列表

索引list:

e = list1[0]#下标从零开始,用中括号

分片list:

es = list1[0:3]

es = list1[0:9:2] #步长在第二个冒号后

list拼接(list1.append(obj)、加运算及乘运算):

list长度:

list每个元素乘一个数值:

list2 = numpy.dot(list2,2)

list类似矩阵相乘(每个元素对应相乘取和):

list3 = numpy.dot(list1,list1)

#要求相乘的两个list长度相同

list3 = numpy.dot(list2,list22)

#要求numpy.shape(list2)和numpy.shape(list22)满足“左行等于右列”的矩阵相乘条件,相乘结果numpy.shape(list3)满足“左列右行”

2.numpy数据结构:

Array:

产生array:

data=np.array([[1, 9, 6], [2, 8, 5], [3, 7, 4]])

data=np.array(list1)

data1 = np.zeros(5) #data1.shape = (5,),5列

data1 = np.eye(5)

索引array:

datacut = data[0,2] #取第零行第二列,此处是6

切片array:

datacut = data[0:2,2] # array([6, 5])

array长度:

data.shape

data.size

np.shape(data)

np.size(data)

len(data)

array拼接:

#括号内也有一个括号(中括号或者小括号)!

d = np.concatenate((data,data))

d = np.concatenate((data,data),axis = 1) #对应行拼接

array加法:逐个相加

array乘法:

d = data data #逐个相乘

d = np.dot(data,data) #矩阵相乘

d = data 3 #每个元素乘3

d = np.dot(data,3) #每个元素乘3

array矩阵运算:

取逆 : np.linalg.inv(data)

转置:data.T

所有元素求和 : np.sum(data)

生成随机数:np.random.normal(loc=0, scale=10, size=None)

生成标准正态分布随机数组:np.random.normal(size=(4,4))

生成二维随机数组:

np.random.multivariate_normal([0,0],np.eye(2))

生成范围在0到1之间的随机矩阵(M,N):

np.random.randint(0,2,(M,N))

Matrix:

创建matrix:

mat1 = np.mat([[1, 2, 3], [4, 5, 6]])

mat1 = np.mat(list)

mat1 = np.mat(data)

matrix是二维的,所有+,-,*都是矩阵操作。

matrix索引和分列:

mat1[0:2,1]

matrix转置:

np.transpose(mat1)

mat1.transpose()

matrix拼接:

np.concatenate([mat1,mat1])

np.concatenate([mat1,mat1],axis = 1)

numpy数据结构总结:对于numpy中的数据结构的操作方法基本相同:

创建:np.mat(list),np.array(list)

矩阵乘:np.dot(x,y)

转置:x.T or np.transpose(x)

拼接:np.concatenate([x,y],axis = 1)

索引:mat[0:1,4],ary[0:1,4]

3.pandas数据结构:

Series:

创建series:

s = pd.Series([[1,2,3],[4,5,6]],index = [‘a’,‘b’])

索引series:

s1 = s[‘b’]

拼接series:

pd.concat([s1,s1],axis = 1) #也可使用s.append(s)

DataFrame:

创建DaraFrame:

df = pd.DataFrame([[1,2,3],[1,2,3]],index = ['a','b'],columns = ['x','y','z'])

df取某一列:

dfc1 =df.x

dfc1 = df[‘x’]

dfc2 = df.iloc[:,0] #用.iloc方括号里是数字而不是column名!

dfc2 = df.iloc[:,0:3]

df取某一行:

dfr1 = df.iloc[0]

df1 = df.iloc[0:2]

df1 = df[0:2] #这种方法只能用于取一个区间

df取某个值:

dfc2 = df.iloc[0,0]

dfc2 = df.iloc[0:2,0:3]

当你听到数据结构时,你会想到什么?

数据结构是根据类型组织和分组数据的容器。它们基于可变性和顺序而不同。可变性是指创建后改变对象的能力。我们有两种类型的数据结构,内置数据结构和用户定义的数据结构。

什么是数据算法-是由计算机执行的一系列步骤,接受输入并将其转换为目标输出。

列表是用方括号定义的,包含用逗号分隔的数据。该列表是可变的和有序的。它可以包含不同数据类型的混合。

months=['january','february','march','april','may','june','july','august','september','october','november','december']

print(months[0])#print the element with index 0

print(months[0:7])#all the elements from index 0 to 6

months[0]='birthday #exchange the value in index 0 with the word birthday

print(months)

元组是另一种容器。它是不可变有序元素序列的数据类型。不可变的,因为你不能从元组中添加和删除元素,或者就地排序。

length, width, height =9,3,1 #We can assign multiple variables in one shot

print("The dimensions are {} * {} * {}".format(length, width, height))

一组

集合是唯一元素的可变且无序的集合。它可以让我们快速地从列表中删除重复项。

numbers=[1,2,3,4,6,3,3]

unique_nums = set(numbers)

print(unique_nums)

models ={'declan','gift','jabali','viola','kinya','nick',betty'}

print('davis' in models)#check if there is turner in the set models

models.add('davis')

print(model.pop())remove the last item#

字典

字典是可变和无序的数据结构。它允许存储一对项目(即键和值)

下面的例子显示了将容器包含到其他容器中来创建复合数据结构的可能性。

* 用户定义的数据结构*

使用数组的堆栈堆栈是一种线性数据结构,其中元素按顺序排列。它遵循L.I.F.O的机制,意思是后进先出。因此,最后插入的元素将作为第一个元素被删除。这些操作是:

溢出情况——当我们试图在一个已经有最大元素的堆栈中再放一个元素时,就会出现这种情况。

下溢情况——当我们试图从一个空堆栈中删除一个元素时,就会出现这种情况。

队列是一种线性数据结构,其中的元素按顺序排列。它遵循先进先出的F.I.F.O机制。

描述队列特征的方面

两端:

前端-指向起始元素。

指向最后一个元素。

有两种操作:

树用于定义层次结构。它从根节点开始,再往下,最后的节点称为子节点。

链表

它是具有一系列连接节点的线性数据。每个节点存储数据并显示到下一个节点的路由。它们用来实现撤销功能和动态内存分配。

图表

这是一种数据结构,它收集了具有连接到其他节点的数据的节点。

它包括:

算法

在算法方面,我不会讲得太深,只是陈述方法和类型:

原文:https://www.tuicool.com/articles/hit/VRRvYr3