r语言可不可以对自定义方程检验

Python010

r语言可不可以对自定义方程检验,第1张

R的功能很强大,各种包很多。但就是因为包太多,造成了很大的麻烦。不可避免的,可以做结构方程模型的包也不少,例如:sem、psych、OpenMx,lavaan等。我选择了lavaan包。原因:语法简介易懂,上手快,支持非正态、连续数据,可以处理缺失值。

lavaan包是由比利时根特大学的Yves Rosseel开发的。lavaan的命名来自于 latent variable analysis,由每个单词的前两个字母组成,la-va-an——lavaan。

为什么说它简单呢? 主要是因为它的lavaan model syntax,如果你会R的回归分析,那它对你来说再简单不过了。

一、语法简介

语法一:f3~f1+f2(路径模型)

结构方程模型的路径部分可以看作是一个回归方程。而在R中,回归方程可以表示为y~ax1+bx2+c,“~”的左边的因变量,右边是自变量,“+”把多个自变量组合在一起。那么把y看作是内生潜变量,把x看作是外生潜变量,略去截距,就构成了lavaan model syntax的语法一。

语法二:f1 =~ item1 + item2 + item3(测量模型)

"=~"的左边是潜变量,右边是观测变量,整句理解为潜变量f1由观测变量item1、item2和item3表现。

语法三:item1 ~~ item1 , item1 ~~ item2

"~~"的两边相同,表示该变量的方差,不同的话表示两者的协方差

语法四:f1 ~ 1

表示截距

此外还有其它高阶的语法,详见lavaan的help文档,一般的结构方程建模分析用不到,就不再列出。

二、模型的三种表示方法

以验证性因子分析举例说明,对于如下图所示的模型:

方法一:最简化描述

只需指定最基本的要素即可,其他的由函数自动实现,对模型的控制力度最弱。只使用于函数cfa()和sem()

model<-'visual=~x1+x2+x3 textual=~x4+x5+x6 speed=~x7+x8+x9' fit <- cfa(model, data = HolzingerSwineford1939)

需要注意的是,这种指定模型的方式在进行拟合时,会默认指定潜变量的第一个测量变量的因子载荷为1,如果要指定潜变量的方差为1,可以:

model.bis <- 'visual =~ NA*x1 + x2 + x3 textual =~ NA*x4 + x5 + x6 speed =~ NA*x7 + x8 + x9 visual ~~ 1*visual textual ~~ 1*textual speed ~~ 1*speed'

方法二:完全描述

需要指定所有的要素,对模型控制力最强,适用于lavaan()函数,适合高阶使用者

model.full<- ' visual =~ 1*x1 + x2 +x3 textual =~ 1*x4 + x5 + x6 speed =~ 1*x7 + x8 +x9 x1 ~~ x1 x2 ~~ x2 x3 ~~ x3 x4 ~~ x4 x5 ~~ x5 x6 ~~ x6 x7 ~~ x7 x8 ~~ x8 x9 ~~ x9 visual ~~ visual textual ~~ textual speed ~~ speed visual ~~ textual +speed textual ~~ speed' fit <- lavaan(model.full, data = HolzingerSwineford1939)

方法三:不完全描述

最简化和完全描述的混合版,在拟合时增加 auto.* 参数,适用于lavaan()函数

model.mixed<- '# latent variables visual =~ 1*x1 + x2 +x3 textual =~ 1*x4 + x5 + x6 speed =~ 1*x7 + x8 +x9 # factor covariances visual ~~ textual + speed textual ~~ speed' fit <- lavaan(model.mixed, data = HolzingerSwineford1939, auto.var = TRUE)

可以设定的参数详见help帮助文档

PS:可以在lavaan()函数里设置参数mimic="Mplus"获得与Mplus在数值和外观上相似的结果,设置mimic="EQS",输出与EQS在数值上相似的结果

三、拟合结果的查看

查看拟合结果的最简单方法是用summary()函数,例如

summary(fit, fit.measures=TRUE)

但summary()只适合展示结果,parameterEstimates()会返回一个数据框,方便进一步的处理

parameterEstimates(fit,ci=FALSE,standardized = TRUE)

获得大于10的修正指数

MI<- modificationindices(fit) subset(MI,mi>10)

此外,还有其他的展示拟合结果的函数,功能还是蛮强大的

四、结构方程模型

(1)设定模型

model<- ' # measurement model ind60 =~ x1 + x2 +x3 dem60 =~ y1 + y2 + y3 + y4 dem65 =~ y5 + y6 + y7 + y8 # regressions dem60 ~ ind60 dem65 ~ ind60 + dem60 # redisual covariances y1 ~~ y5 y2 ~~ y4 +y6 y3 ~~ y7 y4 ~~ y8 y6 ~~ y8'

(2)模型拟合

fit <- sem(model, data = PoliticalDemocracy) summary(fit, standardized = TRUE)

(3)给回归系数设置标签

给回归系数设定标签在做有约束条件的结构方程模型时会很有用。当两个参数具有相同的标签时,会被视为同一个,只计算一次。

model.equal <- '# measurement model ind60 =~ x1 + x2 + x3 + dem60 =~ y1 + d1*y2 + d2*y3 + d3*y4 dem65 =~ y5 + d1*y6 + d2*y7 + d3*y8 # regressions dem60 ~ ind60 dem65 ~ ind60 + dem60 # residual covariances y1 ~~ y5 y2 ~~ y4 + y6 y3 ~~ y7 y4 ~~ y8 y6 ~~ y8'

(4)多组比较

anova(fit, fit.equal)

anova()会计算出卡方差异检验

(5)拟合系数

lavaan包可以高度定制化的计算出你想要的拟合指标值,例如,我想计算出卡方、自由度、p值、CFI、NFI、IFI、RMSEA、EVCI的值

fitMeasures(fit,c("chisq","df","pvalue","cfi","nfi","ifi","rmsea","EVCI"))

(6)多组结构方程

在拟合函数里面设置 group参数即可实现,同样的可以设置group.equal参数引入等式限制

五、作图

Amos以作图化操作见长,目前版本的Mplus也可以实现作图,那R语言呢,自然也是可以的,只不过是另一个包——semPlot,其中的semPaths()函数。

简单介绍一下semPaths()中的主要函数

semPaths(object, what = "paths", whatLabels, layout = "tree", ……)

(1)object:是拟合的对象,就是上文中的“fit”

(2)what:设定图中线的属性, 默认为paths,图中所有的线都为灰色,不显示参数估计值;

semPaths(fit)

若what设定为est、par,则展示估计值,并将线的颜色、粗细、透明度根据参数估计值的大小和显著性做出改变

semPaths(fit,what = "est")

若设置为stand、std,则展示标准参数估计

semPaths(fit,what = "stand")

若设置为eq、cons,则与默认path相同,如果有限制等式,被限制的相同参数会打上相同的颜色;

(3)whatLabels:设定图中线的标签

name、label、path、diagram:将边名作为展示的标签

est、par:参数估计值作为边的标签

stand、std:标准参数估计值作为边的标签

eq、cons:参数号作为标签,0表示固定参数,被限制相同的参数编号相同

no、omit、hide、invisible:隐藏标签

(4)layout:布局

主要有树状和环状两种布局,每种布局又分别有两种风格。

默认为“tree”,树状的第二种风格如下图,比第一种看起来舒服都了

semPaths(fit,layout = "tree2")

第一种环状

semPaths(fit,layout = "circle")

额,都揉成一团了!

试试第二种风格

semPaths(fit,layout = "circle2")

还好一点。如果把Rstudio默认的图片尺寸设计好,作图效果会更棒。

还有一种叫spring的布局,春OR泉?

semPaths(fit,layout = "spring")

看起来跟环状的很像。

详细内容可以阅读以下文献,以及相应的help文档:

[1]Rosseel Y. lavaan: An R package for structural equation modeling[J]. Journal of Statistical Software, 2012, 48(2): 1-36.

使用SPSS 22.0统计分析软件和MPLUS 7.0软件包对问卷条目进行项目鉴别度分析和探索性因素分析,对问卷结构进行验证性因素分析。

4.3.1     初测结果与分析

4.3.1.1     项目鉴别度分析

项目鉴别度分析是指依据测试结果对组成问卷的各个项目(条目)进行分析,检验问卷条目构成的合理程度和可靠程度,对问卷条目进行筛选。包括项目分析、题总相关和同质性检验。

(1)项目分析

项目分析用来检测项目(条目)是否具有区分性,能区分高分者和低分者。将问卷总分由低至高排序,以27.0%为标准,划分出低分组和高分组。对低分组和高分组进行15万方数据独立样本丁检验,考虑删除差异不显著的条目。

(2)题总相关

题总相关,指各个条目与问卷总分之间的相关。一般采用0.400(中高程度的相关)作为两者相关的数据指标,若小于0.400说明条目与问卷总分之间相关程度低,表示该条目与整体问卷同质性不高,应考虑删除。

(3)同质性检验

同质性检验即指Cronbach's a系数,检验删除条目后,问卷整体信度系数的变化情况,如果条目删除后,问卷的信度系数比原来高出许多,则说明此条目与其它条目的同质性不高,应考虑删除。

4.3.1.2    探索性因素分析(EFA)

对经过项目鉴别度分析的39个条目进行探索性因素分析,考察问卷结构。对分析结果的检验主要包括KMO值,Bartlett球体检验及项目公因子累积方差贡献率。

用KMO值和Bartlett球体检验来检验问卷是否适合进行探索性因素分析。

因素提取方法采用主成分分析法,旋转方法采用斜交旋转,按照以下原则筛选问卷条目,进行因素探索:

第一,提取因子的标准为特征值大于1;

第二,每个项目的载荷数大于0.400且只存在于一个因子中;

第三,每个因子至少包含3个项目,若不足3个,则应考虑删除;

第四,提取的量表项目公因子累积贡献率应达到50.000%以上;

第五,选取的因子个数满足对问卷结构的解释;

第六,因子命名应以其所含负荷值大的项目的意义为标准。

根据问卷条目的具体内容,对各个因子进行命名。

4.3.2    再测结果与分析

4.3.2.1    项目鉴别度分析

依次进行项目分析、题总相关和同质性检验,筛选问卷条目。

(1)项目分析

将问卷总分由低至高排序,以27.0%为界限标准划分出低分组和高分组,进行独立样本r检验。

(2)题总相关

检验各个条目与问卷总分之间的相关,以0.400作为题总相关的数据指标,

(3)同质性检验

条目删除前,问卷的信度系数为0.902。

综上所述,项目鉴别度分析结果显示,删除条目5,共删除1个条目。

4.3.2.2       探索性因素分析

对经过项目鉴别度分析的27个条目进行探索性因素分析,考察问卷结构。

因素分析时,采用主成分分析法提取因素,进行斜交旋转,提取因子的特征值大于1,删除因素载荷数小于0.400和因素载荷数虽大于0.400却存在于两个或两个以上因子中的项目。

根据问卷条目的具体内容,对各个因子进行命名。

4.3.3验证性因素分析(CFA)

验证性因素分析(CFA)是用来验证量表因子与其包含项目是否符合理论模型,考察其拟合程度,反应因子问路径的统计分析方法。检验指标包括z2/df,TLI、CFI、RMSEA和SRMR。由于x2/df受样本容量影响很大,所以在样本容量比较大的情况下,Z/df仅作参考之用。TLI、CFI指标的取值范围0.000-1.000,越接近1.000,表示拟合度越好。RMSEA值不易受样本容量大小影响,因此受到重视。RMSEA值小于0.050,表示模型拟合非常好,RMSEA值介于0.050和0.080之间,拟合良好,RMSEA值介于0.080和0.100之间,尚可接受,RMSEA值高于0.100则表示模型欠佳。SRMR值取值范围在0.000-1.000之间,越小越好。通常认为Z2/df<6.000、CFI、TLI>0.900、RMSEA<0.080、SRMR<0.050,表示数据模型拟合度良好,具体应综合多项指标来考量。采用MPLUS 7.0软件包对调查数据进行验证性因素分析,得到问卷结构模型拟合指数详见表11。

4.3.4        问卷信效度分析

4.3.4.1       问卷信度检验

信度指测验结果的一致性、稳定性及可靠性,测验的信度越高,表明该测验的结果越一致、稳定与可靠。本研究采用内部一致性信度(Cronbach台a系数)、分半信度(Guttman Split-Half系数)和重测信度来考察问卷总分和各维度的信度。

4.3.4.2问卷效度检验

效度即有效性,指测验能准确测出所需测量事物的程度。本研究考察问卷的内容效

度和结构效度。

(1)内容效度

内容效度,指测验能准确测出研究所要测量内容的程度,也称逻辑效度。研究在以往相关研究的基础上提出假设,采用访谈和开放性问卷的方式构建恋爱能力的理论维度,以此为依据编制问卷条目。

请有关专家评定问卷条目,验证了问卷条目是否能体现研究所要测量的内容,每个维度相对应的题目比例是否合适;

另请心理学专业的研究生查阅条目语句是否通顺、通俗、可理解,得到初始问卷。

接着,通过前后两次施测,结合数据分析结果,对问卷条目进行反复的讨论与修改,使维度划分尽可能准确,并调整问卷条目顺序,最终确立正式问卷。问卷的编制过程符合心理测量学的要求,问卷的内容效度较好。

(2)结构效度

结构效度,指实际的测评结果与所建立的理论构想之间的一致程度,也称构念效度或构想效度。本研究采用因素分析和相关分析的方法来检验问卷的结构效度。

探索性因素分析

验证性因素分析结果也表明问卷维度划分合理。说明问卷的结构效度较好。

而相关分析,即检验问卷各个维度之间的相关以及各个维度与问卷总分间的相关。一般来说,如果问卷各个维度之间的相关系数(应具有中等程度相关,相关系数最好在0.100--0.600之间)小于问卷各个维度与问卷总分间的相关系数(应具有高相关,相关系数最好在0.300--0.800之间),则说明该问卷的结构效度较好(表13)。

由表13可以看出,问卷的各个维度之间的相关达到中等程度(相关系数在0.224--0.515之间),各个维度与问卷总分间的相关较高(相关系数在0.641-0.832之间),且问卷各个维度之间以及各个维度与问卷总分间的相关系数均达到显著水平p<o.010)。说明问卷的各个维度与问卷整体所测内容保持一致且各个维度之间又有较好的区分,结构效度较好。