如何用r语言进行数据分类

Python031

如何用r语言进行数据分类,第1张

首先,原始数据是由name(名字),class(班级),course(课程)和score(分数)组成的,将其导入R语言并存储在Mydata对象里接下来,我们利用sqldf包来处理分组汇总的问题。由于sqldf包不是R语言自带的,所以先用以下代码安装sqldf包:install.packages("sqldf")然后选择“China(Beijing)”镜像站点进行安装,R语言会同时自动安装“sqldf”包的依赖包。安装好sqldf包及其依赖包后,输入以下代码加载sqldf包:library(sqldf)一切准备就绪,接下来用sqldf统计每个同学的总成绩和平均分:sqldf("select name,sum(score) as score_sum,avg(score) as score_avg from Mydata group by name")统计每个班级的总成绩:sqldf("select class,sum(score) as score_sum from Mydata group by class")统计每个班级的每门课程的总成绩和平均分:sqldf("select class,course,sum(score) as score_sum,avg(score) as score_avg from Mydata group by class,course")

1.所有在对iris数据集分(聚)类研究中,setosa均可以完全正确分(聚)类,而另外两类则会出现不同程度的误差,这也是导致整个研究模型出现误差的原因;

2.在使用的三种分类研究方法中,决策树模型的效果最优,因此可以使用该方法进行鸢尾花数据集的分类预测研究。

1.在对鸢尾花数据集进行聚类时,K-means、K-medoids两种聚类方法的正确率相同,可见在数据集离群点和噪音不大的情况下,二者聚类效果基本相同,但当出现离群点和噪音时,应该考虑K-medoids聚类方法;

2.鸢尾花数据集进行聚类分析时,划分聚类效果优于层次聚类;

3.对于量纲不一致的数据,应进行标准化,但对于量纲一致的数据,标准化之后结果并不一定优于未标准化的数据得到的结果。