R语言是用于统计分析、绘图的语言和操作环境。R语言是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。
R语言按照以下几点进行数据分类
通过选择菜单
程序包->安装程序包->在弹出的对话框中,选择你要安装的包,然后确定。
使用命令
install.packages("package_name","dir")package_name:是指定要安装的包名,请注意大小写。dir:包安装的路径。默认情况下是安装在..\library 文件夹中的。可以通过本参数来进行修改,来选择安装的文件夹。
本地来安装
如果你已经下载的相应的包的压缩文件,则可以在本地来进行安装。请注意在windows、unix、macOS操作系统下安装文件的后缀名是不一样的:
1)linux环境编译运行:tar.gz文件
2)windows 环境编译运行 :.zip文件
3)MacOSg环境编译运行:.tgz文件
加载包
包安装后,如果要使用包的功能。必须先把包加载到内存中(默认情况下,R启动后默认加载基本包),加载包命令:
Library(“包名”)
使用data.frame函数就可以初始化一个Data Frame。比如我们要初始化一个student的Data Frame其中包含ID和Name还有Gender以及Birthdate,那么代码为:student<-data.frame(ID=c(11,12,13),Name=c("Devin","Edward","Wenli"),Gender=c("M","M","F"),Birthdate=c("1984-12-29","1983-5-6","1986-8-8”))
另外也可以使用read.table() read.csv()读取一个文本文件,返回的也是一个Data Frame对象。读取数据库也是返回Data Frame对象。
#头两行是读取csv文件,逗号分隔值 comma seperated value,是一种简化的excel文件OrgData=read.csv("DownlinkPower_train.csv",header=T)
TestData=read.csv("DownlinkPower_test.csv",header=T)
#第四第五行是选取子集subset(),从 OrgData里选出 OrgData[,1] >0 第一列为正的那些行。
OrgData = subset(OrgData, OrgData[,1] >0)
TestData = subset(TestData, TestData[,1] >0)
#第六行是把data的列名字赋给OrgData_colname
OrgData_colname = colnames(OrgData)
OrgData = cbind(OrgData,1) //cbind 是合并矩阵? cbind是column bind就是横着粘在一起
竖着粘在一起是rbind,此处cbind(OrgData,1)就是在OrgData的最后加一列全是1
#重新给列命名,c()是字符串的向量,相当于给最后一列命名"intercepts"
colnames(OrgData) = c(OrgData_colname, "intercepts")
#as.matrix相当于c++的cast 强行转换格式,此处强行转换成矩阵格式
#dim(OrgData)是输出OrgData的行数和列数,[2]引用的是列,2:列数就是取OrgData中2到最后一列,其实此处可以用ncol(OrgData)来找列数
x1 = as.matrix(OrgData[,2:dim(OrgData)[2]])
#把OrgData的第一列给y1
y1 = OrgData[,1]