局部多项式的span怎么确定

Python013

局部多项式的span怎么确定,第1张

局部多项式回归拟合是对两维散点图进行平滑的常用方法,它结合了传统线性回归的简洁性和非线性回归的灵活性。当要估计某个响应变量值时,先从其预测变量附近取一个数据子集,然后对该子集进行线性回归或二次回归,回归时采用加权最小二乘法,即越靠近估计点的值其权重越大,最后利用得到的局部回归模型来估计响应变量的值。用这种方法进行逐点运算得到整条拟合曲线。 

在R语言中进行局部多项式回归拟合是利用loess函数,我们以cars数据集做为例子来看下使用方法。该数据中speed表示行驶速度,dist表示刹车距离。用loess来建立模型时重要的两个参数是span和degree,span表示数据子集的获取范围,取值越大则数据子集越多,曲线越为平滑。degree表示局部回归中的阶数,1表示线性回归,2表示二次回归,也可以取0,此时曲线退化为简单移动平均线。这里我们设span取0.4和0.8,从下图可见取值0.8的蓝色线条较为平滑。 

------------------------

plot(cars,pch=19)

model1=loess(dist~speed,data=cars,span=0.4)

lines(cars$speed,model1$fit,col='red',lty=2,lwd=2)

model2=loess(dist~speed,data=cars,span=0.8)

lines(cars$speed,model2$fit,col='blue',lty=2,lwd=2)

------------------------

当模型建立后,也可以类似线性回归那样进行预测和残差分析 

------------------------

x=5:25

predict(model2,data.frame(speed=x))

plot(model2$resid~model2$fit)

------------------------

R语言中另一个类似的函数是lowess,它在绘图上比较方便,但在功能上不如loess强大和灵活。 

------------------------ 

plot(cars,pch=19) 

lines(lowess(cars),lty=2,lwd=2) 

------------------------ 

LOESS的优势是并不需要确定具体的函数形式,而是让数据自己来说话,其缺点在于需要大量的数据和运算能力。LOESS作为一种平滑技术,其目的是为了探寻响应变量和预测变量之间的关系,所以LOESS更被看作一种数据探索方法,而不是作为最终的结论。

曲线拟合:(线性回归方法:lm)1、x排序2、求线性回归方程并赋予一个新变量z=lm(y~x+I(x^2)+...)3、plot(x,y)#做y对x的散点图4、lines(x,fitted(z))#添加拟合值对x的散点图并连线曲线拟合:(nls)lm是将曲线直线化再做回归,nls是直接拟合曲线。需要三个条件:曲线方程、数据位置、系数的估计值。如果曲线方程比较复杂,可以先命名一个自定义函数。例:f=function(x1, x2, a, b) {a+x1+x2^b} result=nls(x$y~f(x$x1, x$x2, a, b), data=x, start=list(a=1, b=2)) #x可以是数据框或列表,但不能是矩阵#对系数的估计要尽量接近真实值,如果相差太远会报错:“奇异梯度”summary(result) #结果包含对系数的估计和p值根据估计的系数直接在散点图上使用lines加曲线即可。曲线拟合:(局部回归)lowess(x, y=NULL, f = 2/3, iter = 3)#可以只包含x,也可使用x、y两个变量#f为窗宽参数,越大越平滑#iter为迭代次数,越大计算越慢loess(y~x, data, span=0.75, degree=2)#data为包含x、y的数据集;span为窗宽参数#degree默认为二次回归#该方法计算1000个数据点约占10M内存举例:x=seq(0, 10, 0.1)y=sin(x)+rnorm(101)#x的值必须排序plot(x,y) #做散点图lines(lowess(x,y)) #利用lowess做回归曲线lines(x,predict(loess(y~x))) #利用loess做回归曲线,predict是取回归预测值z=loess(y~x)lines(x, z$fit) #利用loess做回归曲线的另一种做法

目录

3. 散点图

3.1 绘制基本散点图

3.2 使用点形和颜色属性进行分组

3.3 使用不同于默认设置的点形

3.4 将连续型变量映射到点的颜色或大小属性上

3.5 处理图形重叠

3.6 添加回归模型拟合线

3.7 根据已有模型向散点图添加拟合线

3.8 添加来自多个模型的拟合线

3.9 向散点图添加模型系数

3.10 向散点图添加边际地毯

3.11 向散点图添加标签

3.12 绘制气泡图

3.13 绘制散点图矩阵往期文章参考书籍

散点图通常用于刻画两个连续型变量之间的关系。绘制散点图时,数据集中的每一个观测值都由每个点表示。

方法:

值得注意的是: loess() 函数只能根据数据对应的x轴的范围进行预测。如果想基于数据集对拟合线进行 外推 ,必须使用支持外推的函数,比如 lm() ,并将 fullrange=TRUE 参数传递给 stat_smooth() 函数。

使用 lm() 函数建立一个以 ageYear 为预测变量对 heightIn 进行预测的模型。然后,调用 predict() 函数对 heightIn 进行预测。

根据变量 sex 的水平对 heightweight 数据集进行分组,调用 lm() 函数对每组数据分别建立线性模型,并将模型结果放在一个列表内。随后,通过下面定义的 make_model() 函数建立模型。

调用 annotate() 函数在图形中添加文本。

调整标签位置,大家自行尝试。

如何只对自己想要的数据点添加标签。

调用 geom_point() 和 scale_size_area() 函数即可绘制气泡图。

如果x轴,y轴皆是分类变量,气泡图可以用来表示网格上的变量值。

散点图矩阵是一种对多个变量两两之间关系进行可视化的有效方法。pairs()函数可以绘制散点图矩阵。