R语言的两种主成分分析的结果不一样？

2023-03-01 21:37:02Python011

R语言的两种主成分分析的结果不一样？,第1张

是不一样啊，主成分分析主要运算是求矩阵的特征值和特征向量。

cor=T时，输入矩阵为相关系数矩阵，每个元素是0<=x<=1的，对角线为1；

cor=F时，输入矩阵为协方差矩阵，对角线为每个变量的方差；

默认是cor=F的，

而相关系数矩阵就相当于先将数据标准化，然后再求协方差矩阵。

即：先将数据标准化，两种方式才是相同的。否则，cor=T比cor=F相当于多一个标准化过程。

写在最前面：

首先需要说一下，本文的bootstrap和jackknife都算是蒙特卡罗方法(Monte Carlo method)的一种。应用广泛的的MCMC链(马尔可夫链蒙特卡洛方法Markov chain Monte Carlo)也是蒙特卡罗与马尔可夫链的结合。简单来说，蒙特卡罗方法就是从已知样本的分布中随机抽取新的样本集进行评估，然后放回，再次抽取的方法。根据具体方法的不同，抽取样本集的手段也不同。

bootstrap抽样方法将观测到的样本视为一个有限的总体，是唯一的信息来源，从中有放回的随机抽样来评估总体特征，以及对抽样总体进行推断统计。bootstrap 也分参数bootstrap和非参数bootstrap，前者的分布已完全知道。但在生信领域一般没有这种情况。所以下面讨论的是非参数bootstrap。

直接上例子：

假设现在有bootstrap包中的law数据集如下，

现在我们要计算LSAT成绩（美国法学入学考试）和GPA之间的相关系数。但因为样本量太少了，所以我们使用bootstrap重复抽样评估其标准误。

200次循环抽样后，计算得se.R标准误为0.1474629

得到如下的图：

1e6次循环抽样后，计算得se.R标准误为0.1333802

得到如下的图：

如果用bootstrap包的bootstrap函数会快一些：

bootstrap函数的用法： bootstrap(抽取样本范围,重复次数,进行bootstrap的函数,bootstrap的数据集)

偏差定义为bootstrap结果（多个数值）与原数据统计结果（单个数值）的均值：

得到bias大约为0.001817608，比较小

换一个包，boot包

这里用了三种方法计算置信区间：basic、正态和百分数。样本相关系数分布接近正态，则正态置信区间接近百分数区间。此外还有“Better Bootstrap Confivendence Interval” 更好的bootstrap置信区间，称为BCa区间，使用偏差和偏度对百分数置信区间进行矫正。设置type="bca"即可。

简单的说，bootstrap是从原有真实样本中有放回地抽取n个。jacknife就是每次都抽取n-1个样本，也就是每次只剔除一个原样本。

同样地，如果以bootstrap包中的law数据进行演示：

Jackknife计算的bias为-0.006473623。 这里jackknife的偏差公式相比于bootstrap有一个(n-1)系数，推导就不写了。

标准误se为0.1425186，与bootstrap得出的比较接近。

当统计量不太平滑的时候，Jacknife有很大误差。比如说对中位数进行统计，其变化很大。在进行Jacknife之后最好再跑一次bootstrap，看看是否相差很大。

居然还能这么嵌套着玩，针对每次bootstrap形成的数列向量计算jackknife的标准差，这样可以看出bootstrap若干次取样之间的差异。

算出来分别为0.1344824和0.08545141。后者较小，表面bootstrap取样之间的variance较小。

简单来说就是一种数据分割检验的方法，将数据分割为K份，称为"K-fold"交叉检验，每次第i个子集作为测试集来评估模型，其余的用来构建模型。Admixture使用的就是这个原理。Jackknife也属于Cross Validation的应用之一。

现在我创建一个这样的alignment：

这棵树长这样，符合遗传距离：

进行bootstrap：

phylogeny的bootstrap是对每一个节点都进行bootstrap取样并建树，比如说在9号节点，查看其bootstrap子集建的树符合系统发育关系((human2,human4,human3)(human8,human1,human6,human7,human5))的百分比（不管内部怎么样，先看这个节点）。发现Node1支持率是100（1000次都符合）。而后移到下一个节点，并且只看节点内部的分支支持率是多少。

其实原理都比较简单，计算bootstrap也会有专门的软件。

参考资料：

1）中科大张伟平教授课件

2） https://ecomorph.wordpress.com/2014/10/09/phylogenetic-trees-in-r-4/

MLP这个其实还是很好懂的，你不仅要将RSNNS包对应的pdf文档仔细阅读，更需要的是进入SNNS的网站查看文档。

Stuttgart Neural Network Simulator（SNNS）是德国斯图加特大学开发的优秀神经网络仿真软件，为国外的神经网络研究者所广泛采用。其手册内容极为丰富，同时支持友好的 Linux 平台。而RSNNS则是连接R和SNNS的工具，在R中即可直接调用SNNS的函数命令。

再看你的例子，三层神经网络，输入层5个节点，对应5个特征；中间层（隐层）3个节点；输出层一个节点，给出预测结果。

你的第一部分是指设置的激活函数，包括隐层的激活函数和输出层的。

第二部分是每个节点的信息，bias是偏置，position不用理，是那个仿真软件的。

第三部分是中间连接线的各个权重。

希望对你有帮助。

样本节点矩阵区间方法