求大神解释下这几句R语言代码

Python013

求大神解释下这几句R语言代码,第1张

#头两行是读取csv文件,逗号分隔值 comma seperated value,是一种简化的excel文件

OrgData=read.csv("DownlinkPower_train.csv",header=T)

TestData=read.csv("DownlinkPower_test.csv",header=T)

#第四第五行是选取子集subset(),从 OrgData里选出 OrgData[,1] >0 第一列为正的那些行。

OrgData = subset(OrgData, OrgData[,1] >0)

TestData = subset(TestData, TestData[,1] >0)

#第六行是把data的列名字赋给OrgData_colname

OrgData_colname = colnames(OrgData)

OrgData = cbind(OrgData,1) //cbind 是合并矩阵? cbind是column bind就是横着粘在一起

竖着粘在一起是rbind,此处cbind(OrgData,1)就是在OrgData的最后加一列全是1

#重新给列命名,c()是字符串的向量,相当于给最后一列命名"intercepts"

colnames(OrgData) = c(OrgData_colname, "intercepts")

#as.matrix相当于c++的cast 强行转换格式,此处强行转换成矩阵格式

#dim(OrgData)是输出OrgData的行数和列数,[2]引用的是列,2:列数就是取OrgData中2到最后一列,其实此处可以用ncol(OrgData)来找列数

x1 = as.matrix(OrgData[,2:dim(OrgData)[2]])

#把OrgData的第一列给y1

y1 = OrgData[,1]

可以抄

自己不会写R函数如何去“抄”高手写好的函数,我们直接“拿来”用就可以了。有读者反映为什么不直接用gdcVolcanoPlot这个函数,既然人家都已经写好了。这是一个很好的问题,这里我解答一下。原因有两个:

要想直接用gdcVolcanoPlot这个函数,首先你必须在你的R环境里安装GDCRNATools这个包,因为这个函数是这个包里面的。而GDCRNATools这个包有很多依赖的其他的包,安装起来比较费时费力,安装大概需要十到二十分钟,并且网速要好,装好大概有1G左右。如果你只想画一个火山图,实际上没有必要把这个R包全部安装了。有点高射炮打蚊子的感觉。

gdcVolcanoPlot这个函数,原作者在写的时候考虑的不是很周全,有些参数设置的不是很灵活。小编在使用的时候,发现了一些小问题。今天小编就会给大家展示一下,如何站在巨人的肩膀上看的更远。即使是“抄”也要“抄”出水平来。

#使用并列箱线图进行跨组比较,如图6-12#公式y~A*B则将为类别型变量A和B所有水平的两两组合生成数值型变量y的箱线图, 例子的mpg~cyl表示为四缸、六缸、八缸发动机对每加仑汽油行驶的英里数的影响。boxplot(mpg~cyl,data=mtcars,main="Car Mileage Data",xlab="Number of Cylinders",ylab="Miles Per Gallon")

#添加notch=TRUE,可以得到含凹槽的箱线图, 若两个箱的凹槽互不重叠, 则表明它们的中位数有显著差异; 而

varwidth=TRUE则使箱线图的宽度与它们各自的样本大小成正比。>boxplot(mpg~cyl,data=mtcars,notch=TRUE,varwidth=TRUE,col="red",main="Car Mileage Data",xlab="Number of Cylinders",ylab="Miles Per Gallon")

输出结果如下