R语言定义多维数组

Python010

R语言定义多维数组,第1张

R语言定义多维数组

数组有一个特征属性叫做维数向量(dim属性),维数向量是一个元素取正整数值的向量 ,其长度是数组的维数,比如维数向量有两个元素时数组为二维数组(矩阵)。维数向量的 每一个元素指定了该下标的上界,下标的下界总为1。

一组值只有定义了维数向量(dim属性)后才能被看作是数组。比如:

z <- 1:1500

dim(z) <- c(3, 5, 100)

这时z已经成为了一个维数向量为c(3,5,100)的三维数组。也可以把向量定义为一维数组 ,例如:

dim(z) <- 1500

数组元素的排列次序缺省情况下是采用FORTRAN的数组元素次序(按列次序),即第一下 标变化最快,最后下标变化最慢,对于矩阵(二维数组)则是按列存放。例如,假设数组a的 元素为1:24,维数向量为c(2,3,4),则各元素次序为a[1,1,1], a[2,1,1], a[1,2,1], a[2,2,1], a[1,3,1], …, a[2,3,4]。

用函数array()或matrix()可以更直观地定义数组。array()函数的完全使用为array(x, dim=length(x), dimnames=NULL),其中x是第一自变量,应该是一个向量,表示数组的元素 值组成的向量。dim参数可省,省略时作为一维数组(但不同于向量)。dimnames属性可以省 略,不省略时是一个长度与维数相同的列表(list,见后面),列表的每个成员为一维的名 字。例如上面的z可以这样定义:

z <- array(1:1500, dim=c(3,5,100))

函数matrix()用来定义最常用的一种数组:二维数组,即矩阵。其完全格式为 matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE, dimnames = NULL)

矩阵运算

矩阵是二维数组,但因为其应用广泛所以对它定义了一些特殊的运算和操作。

函数t(A)返回矩阵A的转置。nrow(A)为矩阵A的行数,ncol(A)为矩阵A的列数。

矩阵之间进行普通的加减乘除四则运算仍遵从一般的数组四则运算规则,即数组的对应元 素之间进行运算,所以注意A*B不是矩阵乘法而是矩阵对应元素相乘。

要进行矩阵乘法,使用运算符%%,A%%B表示矩阵A乘以矩阵B(当然要求A的列数等于B的 行数)。例如:

A <- matrix(1:12, nrow=4, ncol=3, byrow=T)

B <- matrix(c(1,0), nrow=3, ncol=2, byrow=T)

A

[,1] [,2] [,3] [1,] 1 2 3 [2,] 4 5 6 [3,] 7 8 9 [4,] 10 11 12

B [,1] [,2] [1,] 1 0 [2,] 1 0 [3,] 1 0

A %*% B

[,1] [,2] [1,] 6 0 [2,] 15 0 [3,] 24 0 [4,] 33 0

另外,向量用在矩阵乘法中可以作为行向量看待也可以作为列向量看待,这要看哪一种观 点能够进行矩阵乘法运算。例如,设x是一个长度为n的向量,A是一个 R语言定义多维数组和数组的运算矩阵,则“x %% A %% x”表示二次型 R语言定义多维数组和数组的运算。但是,有时向量在矩阵乘法中的地位并不 清楚,比如“x %% x”就既可能表示内积 R语言定义多维数组和数组的运算也可能表示 R语言定义多维数组和数组的运算阵 R语言定义多维数组和数组的运算。因为前者较常用,所以S选择表示前者, 但内积最好还是用crossprod(x)来计算。要表示 R语言定义多维数组和数组的运算,可以用“cbind(x) %% x”或“x %*% rbind(x) ”。

函数crossprod(X, Y)表示一般的交叉乘积(内积) R语言定义多维数组和数组的运算,即X的每一列与Y的每一列的内积组成的矩 阵。如果X和Y都是向量则是一般的内积。只写一个参数X的crossprod(X)计算X自身的内积 R语言定义多维数组和数组的运算。

其它矩阵运算还有solve(A,b)解线性方程组 R语言定义多维数组和数组的运算,solve(A)求方阵A的逆矩阵,svd()计算奇 异值分解,qr()计算QR分解,eigen()计算特征向量和特征值

ox 和 Muller 在 1958 年给出了由均匀分布的随机变量生成正态分布的随机变量的算法。设 U1, U2 是区间 (0, 1) 上均匀分布的随机变量,且相互独立。令X1 = sqrt(-2*log(U1))...

非度量多维尺度分析(NMDS 分析)是一种将多维空间的研究对象(样本或变量)简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法,能够反映对象间的顺序关系。与PCoA类似,NMDS可以基于任何类型距离矩阵对对象(样方)进行排序;但也有不同之处,NMDS不在基于距离矩阵数值,而是根据排位顺序进行计算。对于存在距离缺失的数据而言有优势,只要想办法确定对象间的位置关系,即可进行NMDS分析。由于NMDS不是特征根排序技术,也不再让排序轴载更多的变差目的;因此NMDS排序图可以任意旋转、中心化和倒置(赖江山, 数量生态学)。 预先设定排序轴的数量m; 在m维空间内构建对象的初始结构,初始结构是调整对象之间位置关系的起点; 在m维空间内,用一个迭代程序不断调整对象位置,目标是不断最小化应力函数(Stress function,其值被转化为0~1间的数值,可以检验 NMDS 分析结果的优劣。通常认为 stress<0.2 时可用 NMDS 的二维点图表示,其图形有一定的解释意义;当 stress<0.1 时,可认为是一个好的排序;当 stress<0.05 时,则具有很好的代表性)不断调整对象位置,直至应力函数值不再减少,或已达到预定的值; 大部分NMDS会根据PCA结果旋转最终的排序图,使结果更容易解读。 Shepard 图:能够比较NMDS中对象间距离与原始距离测度矩阵中的值或者通过二者间进行线性(Linear fit)或非线性(Non-metric fit)拟合的R^2 评估,拟合R^2 越大越好/两个R^2 值越一致越好。 1、Shepard图的R^2 :拟合R^2 越大越好/两个R^2 值越一致越好; 2、Stress值:Stress<0.2(有一定可靠性);Stress<0.05(结果较好);Stress<0.02(结果很好);Stress<0.01(结果极好)。 注:stress=0.12,说明结果不好,但有一定的可靠性。 图形中的点代表样本,不同颜色/形状代表样本所属的分组信息。同组样本点距离远近说明了样本的重复性强弱,不同组样本的远近则反应了组间样本距离在秩次(数据排名)上的差异。样本相似性距离计算方式对结果有影响,选择输入不同相似性距离值的矩阵,得到的结果存在着不同程度差异。 横纵坐标轴含义:NMDS是距离值的秩次(数据排名)信息的评估,图上样本信息仅反映样本间数据秩次信息的远近,而不反映真实的数值差异,横纵坐标轴并无权重意义,横轴不一定比纵轴更加重要。 NMDS是非参数的方法,不应该有解释量,不知道他们这些NMDS的解释率是怎么算出来的?我估计是用主坐标分析(PCoA)的解释量来作为NMDS的解释量,但这种张冠李戴的做法可能是不合适的(引自赖江山老师: http://blog.sciencenet.cn/blog-267448-1146112.html )。