如何用r语言进行数据分类

Python014

如何用r语言进行数据分类,第1张

首先,原始数据是由name(名字),class(班级),course(课程)和score(分数)组成的,将其导入R语言并存储在Mydata对象里接下来,我们利用sqldf包来处理分组汇总的问题。由于sqldf包不是R语言自带的,所以先用以下代码安装sqldf包:install.packages("sqldf")然后选择“China(Beijing)”镜像站点进行安装,R语言会同时自动安装“sqldf”包的依赖包。安装好sqldf包及其依赖包后,输入以下代码加载sqldf包:library(sqldf)一切准备就绪,接下来用sqldf统计每个同学的总成绩和平均分:sqldf("select name,sum(score) as score_sum,avg(score) as score_avg from Mydata group by name")统计每个班级的总成绩:sqldf("select class,sum(score) as score_sum from Mydata group by class")统计每个班级的每门课程的总成绩和平均分:sqldf("select class,course,sum(score) as score_sum,avg(score) as score_avg from Mydata group by class,course")

用结巴包做分词,Github的地址:https://github.com/qinwf/jieba

用freq()就可以统计出词频了,不过是结果是没有排序的。

原文链接R语言可以读取很多文件,其中以txt文本文件最为灵活,为什么呢,txt文件可以以任意符号作为分隔符,比如“,”,“\t”,空格,甚至`“……&¥¥%¥”`等任意自定义的分隔符号。 这里先把工作空间切换到D盘下面,默认的一般是C盘的文档,我们要有分层管理文件的概念,否则我们还是一个合格的程序员吗? >setwd('D:\\') 读取文本文件主要用read.table(filePath,header = ,sep=) filePath就是文件路径,header表示文件是否有头部,我这个文件没有头部,值就为false,sep表示文件是以什么符号作为分隔符号。 头部是什么意思呢? 现在这里有4个文件,分别以空格,逗号,制表符,“/”作为分隔符,下面分别将其读取: >dat <- read.table('1.txt',header = FALSE,sep = ' ') >dat2 <- read.table('2.txt',header = FALSE,sep = ',') >dat3 <- read.table('3.txt',header = FALSE,sep = '\t') >dat4 <- read.table('4.txt',header = FALSE,sep = '/') 读取出来的数据都是一样的: 因为第二个文件是以逗号作为分隔符,所以也是可以用read.csv()读取的,read.csv()也是一个读取文件函数,后面会讲到。 把刚才读取的数据写入到一个新的文本文件里面,可以用write.table(),形式为: write.table(dat,file = ,sep = ,row.names,col.names) 分别表示, dat:被写的数据, file:文件名(包含路径), sep:分隔符, row.names:是否有行名(比如第一行,第二行。。)就是行名, col.names:是否有列名,同上, 当然了,一般行名与列名需要取有实际意义的名字,比如列名可以取(年龄、性别、成绩,这种表格相信大家应该都见过吧!)。 这里分别用" ","aaa","\t"作为分隔符,生成了3个文件。 >write.table(dat,file = '5.txt',sep = ' ') >write.table(dat,file = '6.txt',sep = 'aaa') >write.table(dat,file = '7.txt',sep = '\t') 这样就保存了三个文件。当然了,你可以保存成任意你喜欢、需要的分隔符号。 原文链接: 原文链接