R语言实现线性拟合

2023-02-19 23:09:02Python017

R语言实现线性拟合,第1张

formula代表拟合的公式，如Y~X，则对因变量Y和自变量X作线性拟合拟合模型为 y=a+bx ，如Y 0+X或Y X+0则除对因变量Y和自变量X作线性拟合外，还规定改直线必过原点及拟合模型为 y=x 。

lm对象即lm函数返回的值，其属性包括

常用的有 coefficients ， residuals 和 fitted.values ，分别表示拟合的得到的各系数的值、残差和预测值。

可以看出该拟合曲线为y=0.52805925 -0.02797779x

其他值的调用，包括p值，给定x预测的y值，拟合系数R方等需要通过summary函数调用

也可以直接通过 summary(line.model) 打印出大部分与回归直线相关的一些结果

虽然ANOVA和回归方法都是独立发展而来，但是从函数形式上看，它们都是广义线性模型

的特例。

aov(formula, data = dataframe)

表中y是因变量，字母A、B、C代表因子。

表中小写字母表示定量变量，大写字母表示组别因子，Subject是对被试者独有的标识变量。

表达式中效应的顺序在两种情况下会造成影响：

(a)因子不止一个，并且是非平衡设计；

(b)存在协变量。出现任意一种情况时，等式右边的变量都与其他每个变量相关。此时，我们无法清晰地划分它们对因变量的影响。

R默认类型I（序贯型）方法计算ANOVA效应（参考补充内容“顺序很重要！”）。可以这样写：y ~ A + B + A:B。

R中的ANOVA表的结果将评价：

 A对y的影响；

控制A时，B对y的影响；

控制A和B的主效应时，A与B的交互效应。

样本大小越不平衡，效应项的顺序对结果的影响越大。一般来说，越基础性的效应越需要放在表达式前面。具体来讲，首先是协变量，然后是主效应，接着是双因素的交互项，再接着是三因素的交互项，以此类推。对于主效应，越基础性的变量越应放在表达式前面，因此性别要放在处理方式之前。有一个基本的准则：若研究设计不是正交的（也就是说，因子和/或协变量相关），一定要谨慎设置效应的顺序。

参考资料：

曲线拟合：（线性回归方法：lm）1、x排序2、求线性回归方程并赋予一个新变量z=lm(y~x+I(x^2)+...)3、plot(x,y)#做y对x的散点图4、lines(x,fitted(z))#添加拟合值对x的散点图并连线曲线拟合：（nls）lm是将曲线直线化再做回归，nls是直接拟合曲线。需要三个条件：曲线方程、数据位置、系数的估计值。如果曲线方程比较复杂，可以先命名一个自定义函数。例：f=function(x1, x2, a, b) {a+x1+x2^b} result=nls(x$y~f(x$x1, x$x2, a, b), data=x, start=list(a=1, b=2)) #x可以是数据框或列表，但不能是矩阵#对系数的估计要尽量接近真实值，如果相差太远会报错：“奇异梯度”summary(result) #结果包含对系数的估计和p值根据估计的系数直接在散点图上使用lines加曲线即可。曲线拟合：（局部回归）lowess(x, y=NULL, f = 2/3, iter = 3)#可以只包含x，也可使用x、y两个变量#f为窗宽参数，越大越平滑#iter为迭代次数，越大计算越慢loess(y~x, data, span=0.75, degree=2)#data为包含x、y的数据集；span为窗宽参数#degree默认为二次回归#该方法计算1000个数据点约占10M内存举例：x=seq(0, 10, 0.1)y=sin(x)+rnorm(101)#x的值必须排序plot(x,y) #做散点图lines(lowess(x,y)) #利用lowess做回归曲线lines(x,predict(loess(y~x))) #利用loess做回归曲线，predict是取回归预测值z=loess(y~x)lines(x, z$fit) #利用loess做回归曲线的另一种做法

曲线变量效应因变量线性

# 上一篇：python从列表中删除元素

# 下一篇：js参数是一个函数怎么做？