python中稀疏矩阵的怎么用numpy处理

Python018

python中稀疏矩阵的怎么用numpy处理,第1张

NumPy是一个关于矩阵运算的库,熟悉Matlab的都应该清楚,这个库就是让python能够进行矩阵话的操作,而不用去写循环操作。

下面对numpy中的操作进行总结。

numpy包含两种基本的数据类型:数组和矩阵。

数组(Arrays)

>>>from numpy import *>>>a1=array([1,1,1])#定义一个数组>>>a2=array([2,2,2])>>>a1+a2#对于元素相加array([3, 3, 3])>>>a1*2 #乘一个数array([2, 2, 2])##>>>a1=array([1,2,3])>>>a1

array([1, 2, 3])>>>a1**3 #表示对数组中的每个数做平方array([ 1, 8, 27])##取值,注意的是它是以0为开始坐标,不matlab不同>>>a1[1]2##定义多维数组>>>a3=array([[1,2,3],[4,5,6]])>>>a3

array([[1, 2, 3],

[4, 5, 6]])>>>a3[0] #取出第一行的数据array([1, 2, 3])>>>a3[0,0] #第一行第一个数据1>>>a3[0][0] #也可用这种方式1##数组点乘,相当于matlab点乘操作>>>a1=array([1,2,3])>>>a2=array([4,5,6])>>>a1*a2

array([ 4, 10, 18])12345678910111213141516171819202122232425262728293031323334

Numpy有许多的创建数组的函数:

import numpy as np

a = np.zeros((2,2)) # Create an array of all zerosprint a # Prints "[[ 0. 0.]

# [ 0. 0.]]"b = np.ones((1,2)) # Create an array of all onesprint b # Prints "[[ 1. 1.]]"c = np.full((2,2), 7) # Create a constant arrayprint c # Prints "[[ 7. 7.]

# [ 7. 7.]]"d = np.eye(2)# Create a 2x2 identity matrixprint d # Prints "[[ 1. 0.]

# [ 0. 1.]]"e = np.random.random((2,2)) # Create an array filled with random valuesprint e # Might print "[[ 0.91940167 0.08143941]

# [ 0.68744134 0.87236687]]"1234567891011121314151617181920

数组索引(Array indexing)

矩阵

矩阵的操作与Matlab语言有很多的相关性。

#创建矩阵

>>>m=mat([1,2,3])

>>>m

matrix([[1, 2, 3]])

#取值

>>>m[0]#取一行

matrix([[1, 2, 3]])

>>>m[0,1] #第一行,第2个数据2>>>m[0][1] #注意不能像数组那样取值了

Traceback (most recent call last):

File "<stdin>", line 1, in <module>

File "/usr/lib64/python2.7/site-packages/numpy/matrixlib/defmatrix.py", line 305, in __getitem__

out = N.ndarray.__getitem__(self, index)

IndexError: index 1 is out of bounds for axis 0 with size 1#将Python的列表转换成NumPy的矩阵

>>>list=[1,2,3]

>>>mat(list)

matrix([[1, 2, 3]])

#矩阵相乘

>>>m1=mat([1,2,3]) #1行3列

>>>m2=mat([4,5,6])

>>>m1*m2.T #注意左列与右行相等 m2.T为转置操作

matrix([[32]])

>>>multiply(m1,m2) #执行点乘操作,要使用函数,特别注意

matrix([[ 4, 10, 18]])

#排序

>>>m=mat([[2,5,1],[4,6,2]])#创建2行3列矩阵

>>>m

matrix([[2, 5, 1],

[4, 6, 2]])

>>>m.sort()#对每一行进行排序

>>>m

matrix([[1, 2, 5],

[2, 4, 6]])

>>>m.shape #获得矩阵的行列数

(2, 3)

>>>m.shape[0] #获得矩阵的行数2>>>m.shape[1] #获得矩阵的列数3#索引取值

>>>m[1,:] #取得第一行的所有元素

matrix([[2, 4, 6]])

>>>m[1,0:1]#第一行第0个元素,注意左闭右开

matrix([[2]])

>>>m[1,0:3]

matrix([[2, 4, 6]])

>>>m[1,0:2]

matrix([[2, 4]])1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556

扩展矩阵函数tile()

例如,要计算[0,0,0]到一个多维矩阵中每个点的距离,则要将[0,0,0]进行扩展。

tile(inX, (i,j)) i是扩展个数,j是扩展长度

实例如下:

>>>x=mat([0,0,0])

>>>x

matrix([[0, 0, 0]])

>>>tile(x,(3,1)) #即将x扩展3个,j=1,表示其列数不变

matrix([[0, 0, 0],

[0, 0, 0],

[0, 0, 0]])

>>>tile(x,(2,2)) #x扩展2次,j=2,横向扩展

matrix([[0, 0, 0, 0, 0, 0],

[0, 0, 0, 0, 0, 0]])1234567891011121314

需求:

你需要转置一个二维数组,将行列互换.

讨论:

你需要确保该数组的行列数都是相同的.比如:

arr = [[1, 2, 3], [4, 5, 6], [7,8, 9], [10, 11, 12]]

列表递推式提供了一个简便的矩阵转置的方法:

print [[r[col] for r in arr] for col in range(len(arr[0]))]

[[1, 4, 7, 10], [2, 5, 8, 11],[3, 6, 9, 12]]

另一个更快和高级一些的方法,可以使用zip函数:

print map(list,

zip(*arr))

本节提供了关于矩阵转置的两个方法,一个比较清晰简单,另一个比较快速但有些隐晦.

有时候,数据到来的时候使用错误的方式,比如,你使用微软的ADO接口访问数据库,由于Python和MS在语言实现上的差别.

Getrows方法在Python中可能返回的是列值,和方法的名称不同.本节给的出的方法就是这个问题常见的解决方案,一个更清晰,一个更快速.

在列表递推式版本中,内层递推式表示选则什么(行),外层递推式表示选择者(列).这个过程完成后就实现了转置.

在zip版本中,我们使用*arr语法将一维数组传递给zip做为参数,接着,zip返回一个元组做为结果.然后我们对每一个元组使用list方法,产生了列表的列表(即矩阵).因为我们没有直接将zip的结果表示为list,

所以我们可以我们可以使用itertools.izip来稍微的提高效率(因为izip并没有将数据在内存中组织为列表).

import itertools

print map(list,

itertools.izip(*arr))

但是,在特定的情况下,上面的方法对效率的微弱提升不能弥补对复杂度的增加.

关于*args和**kwds语法:

*args(实际上,*号后面跟着变量名)语法在Python中表示传递任意的位置变量,当你使用这个语法的时候(比如,你在定义函数时使用),Python将这个变量和一个元组绑定,并保留所有的位置信息,

而不是具体的变量.当你使用这个方法传递参数时,变量可以是任意的可迭代对象(其实可以是任何表达式,只要返回值是迭代器).

**kwds语法在Python中用于接收命名参数.当你用这个方式传递参数时,Python将变量和一个dict绑定,保留所有命名参数,而不是具体的变量值.当你传递参数时,变量必须是dict类型(或者是返回值为dict类型的表达式).

如果你要转置很大的数组,使用Numeric Python或其它第三方包,它们定义了很多方法,足够让你头晕的.

相关说明:

zip(...)

zip(seq1 [,

seq2 [...]]) ->[(seq1[0], seq2[0] ...),

(...)]

Return a

list of tuples, where each tuple contains the i-th element

from each of

the argument sequences. The returned list is truncated

in length to

the length of the shortest argument sequence.

如果解决了您的问题请采纳!

如果未解决请继续追问

在使用pandas进行数据统计分析时,大家可能不知道如何保存groupby函数的分组结果,我的解决方案如下:

通过reset_index()函数可以将groupby()的分组结果转换成DataFrame对象,这样就可保存了!!

代码举例:

out_xlsx=in_f_name+'-group.xlsx'

df_group=df.groupby(['推广计划','推广组']).describe().reset_index()

df_group.to_excel(out_xlsx, sheet_name='Sheet1',index=False)