下面对numpy中的操作进行总结。
numpy包含两种基本的数据类型:数组和矩阵。
数组(Arrays)
>>>from numpy import *>>>a1=array([1,1,1])#定义一个数组>>>a2=array([2,2,2])>>>a1+a2#对于元素相加array([3, 3, 3])>>>a1*2 #乘一个数array([2, 2, 2])##>>>a1=array([1,2,3])>>>a1
array([1, 2, 3])>>>a1**3 #表示对数组中的每个数做平方array([ 1, 8, 27])##取值,注意的是它是以0为开始坐标,不matlab不同>>>a1[1]2##定义多维数组>>>a3=array([[1,2,3],[4,5,6]])>>>a3
array([[1, 2, 3],
[4, 5, 6]])>>>a3[0] #取出第一行的数据array([1, 2, 3])>>>a3[0,0] #第一行第一个数据1>>>a3[0][0] #也可用这种方式1##数组点乘,相当于matlab点乘操作>>>a1=array([1,2,3])>>>a2=array([4,5,6])>>>a1*a2
array([ 4, 10, 18])12345678910111213141516171819202122232425262728293031323334
Numpy有许多的创建数组的函数:
import numpy as np
a = np.zeros((2,2)) # Create an array of all zerosprint a # Prints "[[ 0. 0.]
# [ 0. 0.]]"b = np.ones((1,2)) # Create an array of all onesprint b # Prints "[[ 1. 1.]]"c = np.full((2,2), 7) # Create a constant arrayprint c # Prints "[[ 7. 7.]
# [ 7. 7.]]"d = np.eye(2)# Create a 2x2 identity matrixprint d # Prints "[[ 1. 0.]
# [ 0. 1.]]"e = np.random.random((2,2)) # Create an array filled with random valuesprint e # Might print "[[ 0.91940167 0.08143941]
# [ 0.68744134 0.87236687]]"1234567891011121314151617181920
数组索引(Array indexing)
矩阵
矩阵的操作与Matlab语言有很多的相关性。
#创建矩阵
>>>m=mat([1,2,3])
>>>m
matrix([[1, 2, 3]])
#取值
>>>m[0]#取一行
matrix([[1, 2, 3]])
>>>m[0,1] #第一行,第2个数据2>>>m[0][1] #注意不能像数组那样取值了
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib64/python2.7/site-packages/numpy/matrixlib/defmatrix.py", line 305, in __getitem__
out = N.ndarray.__getitem__(self, index)
IndexError: index 1 is out of bounds for axis 0 with size 1#将Python的列表转换成NumPy的矩阵
>>>list=[1,2,3]
>>>mat(list)
matrix([[1, 2, 3]])
#矩阵相乘
>>>m1=mat([1,2,3]) #1行3列
>>>m2=mat([4,5,6])
>>>m1*m2.T #注意左列与右行相等 m2.T为转置操作
matrix([[32]])
>>>multiply(m1,m2) #执行点乘操作,要使用函数,特别注意
matrix([[ 4, 10, 18]])
#排序
>>>m=mat([[2,5,1],[4,6,2]])#创建2行3列矩阵
>>>m
matrix([[2, 5, 1],
[4, 6, 2]])
>>>m.sort()#对每一行进行排序
>>>m
matrix([[1, 2, 5],
[2, 4, 6]])
>>>m.shape #获得矩阵的行列数
(2, 3)
>>>m.shape[0] #获得矩阵的行数2>>>m.shape[1] #获得矩阵的列数3#索引取值
>>>m[1,:] #取得第一行的所有元素
matrix([[2, 4, 6]])
>>>m[1,0:1]#第一行第0个元素,注意左闭右开
matrix([[2]])
>>>m[1,0:3]
matrix([[2, 4, 6]])
>>>m[1,0:2]
matrix([[2, 4]])1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556
扩展矩阵函数tile()
例如,要计算[0,0,0]到一个多维矩阵中每个点的距离,则要将[0,0,0]进行扩展。
tile(inX, (i,j)) i是扩展个数,j是扩展长度
实例如下:
>>>x=mat([0,0,0])
>>>x
matrix([[0, 0, 0]])
>>>tile(x,(3,1)) #即将x扩展3个,j=1,表示其列数不变
matrix([[0, 0, 0],
[0, 0, 0],
[0, 0, 0]])
>>>tile(x,(2,2)) #x扩展2次,j=2,横向扩展
matrix([[0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0]])1234567891011121314
需求:你需要转置一个二维数组,将行列互换.
讨论:
你需要确保该数组的行列数都是相同的.比如:
arr = [[1, 2, 3], [4, 5, 6], [7,8, 9], [10, 11, 12]]
列表递推式提供了一个简便的矩阵转置的方法:
print [[r[col] for r in arr] for col in range(len(arr[0]))]
[[1, 4, 7, 10], [2, 5, 8, 11],[3, 6, 9, 12]]
另一个更快和高级一些的方法,可以使用zip函数:
print map(list,
zip(*arr))
本节提供了关于矩阵转置的两个方法,一个比较清晰简单,另一个比较快速但有些隐晦.
有时候,数据到来的时候使用错误的方式,比如,你使用微软的ADO接口访问数据库,由于Python和MS在语言实现上的差别.
Getrows方法在Python中可能返回的是列值,和方法的名称不同.本节给的出的方法就是这个问题常见的解决方案,一个更清晰,一个更快速.
在列表递推式版本中,内层递推式表示选则什么(行),外层递推式表示选择者(列).这个过程完成后就实现了转置.
在zip版本中,我们使用*arr语法将一维数组传递给zip做为参数,接着,zip返回一个元组做为结果.然后我们对每一个元组使用list方法,产生了列表的列表(即矩阵).因为我们没有直接将zip的结果表示为list,
所以我们可以我们可以使用itertools.izip来稍微的提高效率(因为izip并没有将数据在内存中组织为列表).
import itertools
print map(list,
itertools.izip(*arr))
但是,在特定的情况下,上面的方法对效率的微弱提升不能弥补对复杂度的增加.
关于*args和**kwds语法:
*args(实际上,*号后面跟着变量名)语法在Python中表示传递任意的位置变量,当你使用这个语法的时候(比如,你在定义函数时使用),Python将这个变量和一个元组绑定,并保留所有的位置信息,
而不是具体的变量.当你使用这个方法传递参数时,变量可以是任意的可迭代对象(其实可以是任何表达式,只要返回值是迭代器).
**kwds语法在Python中用于接收命名参数.当你用这个方式传递参数时,Python将变量和一个dict绑定,保留所有命名参数,而不是具体的变量值.当你传递参数时,变量必须是dict类型(或者是返回值为dict类型的表达式).
如果你要转置很大的数组,使用Numeric Python或其它第三方包,它们定义了很多方法,足够让你头晕的.
相关说明:
zip(...)
zip(seq1 [,
seq2 [...]]) ->[(seq1[0], seq2[0] ...),
(...)]
Return a
list of tuples, where each tuple contains the i-th element
from each of
the argument sequences. The returned list is truncated
in length to
the length of the shortest argument sequence.
如果解决了您的问题请采纳!
如果未解决请继续追问
在使用pandas进行数据统计分析时,大家可能不知道如何保存groupby函数的分组结果,我的解决方案如下:通过reset_index()函数可以将groupby()的分组结果转换成DataFrame对象,这样就可保存了!!
代码举例:
out_xlsx=in_f_name+'-group.xlsx'
df_group=df.groupby(['推广计划','推广组']).describe().reset_index()
df_group.to_excel(out_xlsx, sheet_name='Sheet1',index=False)