基于R语言的分类、聚类研究

Python014

基于R语言的分类、聚类研究,第1张

1.所有在对iris数据集分(聚)类研究中,setosa均可以完全正确分(聚)类,而另外两类则会出现不同程度的误差,这也是导致整个研究模型出现误差的原因;

2.在使用的三种分类研究方法中,决策树模型的效果最优,因此可以使用该方法进行鸢尾花数据集的分类预测研究。

1.在对鸢尾花数据集进行聚类时,K-means、K-medoids两种聚类方法的正确率相同,可见在数据集离群点和噪音不大的情况下,二者聚类效果基本相同,但当出现离群点和噪音时,应该考虑K-medoids聚类方法;

2.鸢尾花数据集进行聚类分析时,划分聚类效果优于层次聚类;

3.对于量纲不一致的数据,应进行标准化,但对于量纲一致的数据,标准化之后结果并不一定优于未标准化的数据得到的结果。

基于R语言实现Lasso回归分析

主要步骤:

将数据存成csv格式,逗号分隔

在R中,读取数据,然后将数据转成矩阵形式

加载lars包,先安装

调用lars函数

确定Cp值最小的步数

确定筛选出的变量,并计算回归系数

具体代码如下:

需要注意的地方:

1、数据读取的方法,这里用的file.choose( ),这样做的好处是,会弹出窗口让你选择你要加载进来的文件,免去了输入路径的苦恼。

2、数据要转为矩阵形式

3、(la) 可以看到R方,这里为0.66,略低

4、图如何看? summary的结果里,第1步是Cp最小的,在图里,看到第1步与横轴0.0的交界处,只有变量1是非0的。所以筛选出的是nongyangungun

Ps: R语言只学习了数据输入,及一些简单的处理,图形可视化部分尚未学习,等论文写完了,再把这部分认真学习一下~~在这里立个flag

r语言是当今统计编程中最受欢迎的脚本语言之一。 自2010年初代以来,R程序员的需求一直在不断增长,并且R仍然在数据科学家中享有作为编程语言的地位