R语言自学笔记-2内置数据集

Python012

R语言自学笔记-2内置数据集,第1张

#b站视频——R语言入门与数据分析

#内置数据集

#固定格式的数据(矩阵、数据框或一个时间序列等)

#统计建模、回归分析等试验需要找合适的数据集

#R内置数据集,存储在,通过

help(package="datasets")

#通过data函数访问这些数据集

data()

#得到新窗口  前面:数据集名字  后面:内容

#包含R所有用到的数据类型,包括:向量、矩阵、列表、因子、数据框以及时间序列等

#直接输入数据集的名字就可以直接使用这些数据集

#输出一个向量

rivers

#是北美141条河流长度

#这些数据集的名字都是内置的,一般我们在给变量命名时最好不要重复

#否则数据集在当前对话中会被置换掉

#例如

rivers<-c(1,2,3)

rivers

#不过影响不大

#再使用data函数重新加载这个数据集就可以了

data("rivers")

rivers

#一些常用内置数据集

#默认介绍页面只有名字和介绍,并没有给出数据分类

#哪些是向量、矩阵、数据框等?

#查看数据集除了直接敲数据集名字显示数据之外

#还可以使用help函数查看每个数据集具体的内容

help("mtcars")

euro

#欧元汇率,长度为11,每个元素都有命名

#输出向量的属性信息

names(euro)

#将5个数据构成一个数据框

向量

state.abb #美国50个州的双字母缩写

state.area #美国50个州的面积

state.name #美国50个州的全称

因子

state.division #美国50个州的分类,9个类别

state.region #美国50个州的地理分类

#

state<-data.frame(state.name,state.abb,state.area,state.division,state.region)

state

state.x77 #美国50个州的八个指标

state.x77

VADeaths #1940年弗吉尼亚州死亡率(每千人)

volcano #某火山区的地理信息(10米×10米的网格)

WorldPhones #8个区域在7个年份的电话总数

iris3 #3种鸢尾花形态数据

#以上矩阵→适合画热图

heatmap(volcano)

#这里只是作为一个演示,还需要对这个图进行一些调整

#更复杂的数据结构

Titanic #泰坦尼克乘员统计,是一个数组

UCBAdmissions #伯克利分校1973年院系、录取和性别的频数

crimtab #3000个男性罪犯左手中指长度和身高关系

HairEyeColor #592人头发颜色、眼睛颜色和性别的频数

occupationalStatus #英国男性父子职业联系

#类矩阵

eurodist #欧洲12个城市的距离矩阵,只有下三角部分

Harman23.cor #305个女孩八个形态指标的相关系数矩阵

Harman74.cor #145个儿童24个心理指标的相关系数矩阵

#R中内置最多的数据集——数据框

cars #1920年代汽车速度对刹车距离的影响

iris #3种鸢尾花形态数据

mtcars #32辆汽车在11个指标上的数据

rock #48块石头的形态数据

sleep #两药物的催眠效果

swiss #瑞士生育率和社会经济指标

trees #树木形态指标

USArrests #美国50个州的四个犯罪率指标

women #15名女性的身高和体重

#列表

state.center #美国50个州中心的经度和纬度

#类数据框

Orange #桔子树生长数据

#时间序列数据,和数据框类似,不同的是具有时间序列的顺序,是数据分析中非常常见的格式

#能反映出变化情况以及变化的趋势等

#因此有很多专门的方法用于时间序列的数据分析

co2 #1959-1997年每月大气co2浓度(ppm)

presidents #1945-1974年每季度美国总统支持率

uspop #1790–1970美国每十年一次的人口总数(百万为单位)

#除了内置数据集之外,许多R扩展包中也内置了很多数据集

#这些数据集作为扩展包的函数使用的案例

#加载R包之后这些数据集也同样被加载进来

#例如MASS包中的Cars93数据

#包含了27个变量,是1993年93辆汽车的型号指标

install.packages("MASS")

library("MASS")

help("Cars93")

#使用data函数在参数package中等于对应R包的名字,即可列出每个R包中包含的数据集

#ex

data(package="MASS")

#显示R中所有可用的数据集

data(package=.packages(all.available = TRUE))

#不加载R包使用其中的数据集

data(Chile,package="car")

Chile

#>data(Chile,package="car")

#Warning message:

#  In data(Chile, package = "car") : data set ‘Chile’ not found

#>Chile

#Error: object 'Chile' not found

install.packages("car")

library("car")

help("Chile")

head(data,20)

str(data)

print(data)

colnames(data)

rownames(data)

dim(data)

#设置默认路径

#显示当前工作目录(软件默认使用工作目录)

getwd()

#修改默认工作目录

setwd(dir = "e:/Rwork/")

#提示工作目录

getwd()

#查看目录下包含的文件

list.files()

#或者

dir()

#R包安装

install.packages("vcd")

#显示库所在的位置

.libPaths()

#显示库里有哪些安装包

library()

#载入包

library(vcd)

#or

require(vcd)

#直接输入函数看某些函数来自于R的哪个包

#如何使用R包

help(package="vcd")

help(package="ggplot2")

#查看包的信息,列出R包的基础内容,显示内置的数据集的内容,给包中的函数作为案例来使用

library(help="vcd")

#还有一些包中的函数,是包的核心内容,扩展了R的功能

Arthritis

#列出包中所有包含的函数

ls("package:vcd")

#每个函数如何使用查看对应帮助文档

#列出R包中包含的所有数据集

data(package="vcd")

#使用完一个包之后,将包从内存中移除

detach("package:vcd")

#再使用

Arthritis

#会出现报错:需要重新再加载

#删除已安装的包

remove.packages("vcd")

#会将R包从硬盘上彻底删除,无法继续使用了,用得不多

#R包的批量移植(更换新设备)

#列出当前环境中已安装的R包

installed.packages()

#取第一列,,,使用下标来访问数据框的第一列

installed.packages()[,1]

#将所以R包名字保存到一个文件中

Rpack<- installed.packages()[,1]

save(Rpack,file = "Rpack.Rwork")

#将这个文件移到另一个设备上

#在另一个设备上使用load函数打开这个文件

#存到另外一个变量Rpack中

#看到这些R包

#Rpack

#批量安装这些R包

#使用一个for循环

for(i in Rpack)install.packages(i)

#如何获取R的帮助信息

help.start()

#查看某个函数的功能

help(sum)

#or

?plot

?sum

#快速了解函数参数而不想查阅详细文档

args(plot)

#查看函数使用案例

example(mean)

example("hist")

#列出R的一些案例图

demo(graphics)

#查看R安装的某个包的帮助文档

help(package=ggplot2)

#有些R包包含vignette文档,这中文档包含更多内容,也更加规范,里面有简介、教程、开发文档等

vignette()

#不是每个包都包含这种格式的文档

vignette("xts")

#有时安装了某包但使用help命令搜索不到相关函数,是因为没有载入这个包

#需用使用library函数载入这个包

#载入之后才能使用help函数找到相关文档

#或者直接在help命令中加上package选项  等于  要搜索R包的名字,这种方法比较麻烦

#??接要搜索函数名字,这种情况下不加载包也可以

#有些情况下,不知道具体的函数名,只能模糊搜索

#查找与绘制热图相关的帮助信息(使用这条命令进行本地搜索)

help.search(heatmap)

#提示搜索不到

#因为需要加上引号

help.search("heatmap")

#搜到stats包中的heatmap函数,可以用来绘制热图

#help.search("heatmap")也可以简写成下面一条命令

??heatmap#不需要加引号

#列出所有包含关键字的内容

apropos("sum")

#可以通过mod参数调整查询的内容

apropos("sum",mod="function")#只列出函数

#help.search或??都是进行本地的文档搜索

#有时搜索不到或者文档太老了可以使用RSiteSearch()函数进行网络搜索

RSiteSearch(matlab)

#运行函数会使用默认浏览器来访问R官网,在官网中进行搜索,列出更多的结果

#可以利用搜索引擎进行问题搜索