Hmisc 包中的 describe()函数 ______包的_______函数可返回变量和观测的数量、info 值、缺失值和唯一值的数目、平均值、分位数,以及五个最大的值和五个最小的值
reshape 包/reshape2 包 ________包是一套重构和整合数据集的万能工具
vcd 包 Arthritis 数据集;
sm 包 sm.density.compare(x, factor) _______包中的_______函数可向图形叠加两组或更多的核密度图
pastecs 包中有一个名为 stat.desc()的函数
Hmisc 包中的 describe()函数 ______包的_______函数可返回变量和观测的数量、info 值、缺失值和唯一值的数目、平均值、分位数,以及五个最大的值和五个最小的值
psych 包的 describe()的函数 ______包的_______函数可以计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误。
doBy 包 的summaryBy doBy 包中的_______函数可以分组计算概述统计量
psych 包 describe.by
vcd 包的 assocstats()函数 _______包中的_______函数可以用来计算二维列联表的 phi 系数、列联系数和 Cramer’s V 系数
ggm 包的 pcor()函数 _______包的________函数可以计算偏相关系数
psych 包的 corr.test() _______包的________函数可以为 Pearson、Spearman 或 Kendall 相关计算相关矩阵,同时报告显著性水平
读《Discovering Statistics Using R》第六章 Correlation中的6.6节做的笔记。
有个心理学家对考试焦虑对考试成绩的影响比较感兴趣。她设计了一个量表评估考试焦虑程度。考试前用量表测量学生的焦虑程度(变量Anxiety),用成绩百分位数反映考试表现(变量Exam)。数据在这里: Exam Anxiety
Revise变量表示修改所花的小时数。我们主要想考察焦虑程度和考试成绩之间的关系。
先考察一下Exam Axiety Revise三个变量之间的关系:
由以上分析结果可以看出:考试成绩和焦虑程度负相关、考试成绩又和修改时间正相关;修改时间和焦虑程度负相关。仅三个变量间的互相之间的相关关系就已经比较复杂了。
从决定系数来看:考试焦虑可以“解释”考试成绩变异的19.4%,修改时间可以“解释”考试成绩变异的15.7%,修改时间可以“解释”考试焦虑变异的50.3%。
我们主要想考察焦虑程度和考试成绩之间的相关性。既然有大概一半(50.3%)焦虑程度的变异性可以由修改时间来“解释”,那么焦虑程度“解释”考试成绩变异性的那19.4%部分中应该也有一部分是由修改时间贡献的。
控制一个或多个其他定量变量的影响下,两个定量变量间的相关关系即为偏相关(partial correlation)。
书中图6.8图示说明了偏向关的原理。图6.8的图3中白蓝点的区域即为排除修改时间影响下,单独由焦虑程度可以"解释"考试成绩变异性的部分。书中并没有介绍偏相关系数的具体计算方法。
在R中,可以用 ggm 包的 pcor() 函数计算偏相关系数。
pcor() 的一般用法:
pcor(c("var1", "var2", "control1", "control2" ...), var(dataframe))
在控制修改时间影响后,考试焦虑和考试成绩之间的偏相关系数为-0.247,对应的决定系数 为0.06.
可以用 ggm 包的 pcor.test() 对 pcor() 生成的偏相关系数进行假设检验。其一般用法为:
pcor.test(pcor object, 控制的变量数,样本量)
结果中的 tval 即为t检验统计量, df 为t检验的自由度, pvalue 即为双侧检验下的P值。
可以看到焦虑程度和考试成绩之间扣除修改时间影响后的偏相关系数绝对值比未扣除修改时间影响时的相关系数绝对值要小不少,但依然有统计学意义。通过偏相关分析,我们得到了焦虑程度和考试成绩之间相对真实(因为只考虑、测量、控制了一个混杂变量)的相关系数。通过偏相关分析,虽然仍不能对因果关系下确切的结论,但至少一定程度上解决了混杂的问题。
另外,偏相关也适用于有二分类变量的情况(无论是要分析的变量还是需要控制效应的变量)。
在之后的章节中还会遇到另一种相关分析:半偏相关(semi-partial correlations,也称part correlation)。
在偏相关分析中,我们控制指定的1个或多个混杂变量的影响,更具体地说,1个或多个混杂变量对 待分析的两个变量的影响均被控制。
在半偏相关分析中,我们只控制混杂变量对分析的两个变量中其中一个变量的影响。
偏相关分析考察其他考虑到的混杂变量影响被排除后,单单两个定量变量间的相关关系。半偏向关分析考察一系列自变量对因变量变异的解释程度。半偏相关的相关概念会在第七章再见。