R语言自学笔记-2内置数据集

2023-02-24 23:05:01Python035

R语言自学笔记-2内置数据集,第1张

#b站视频——R语言入门与数据分析

#内置数据集

#固定格式的数据（矩阵、数据框或一个时间序列等）

#统计建模、回归分析等试验需要找合适的数据集

#R内置数据集，存储在，通过

help(package="datasets")

#通过data函数访问这些数据集

data()

#得到新窗口前面：数据集名字后面：内容

#包含R所有用到的数据类型，包括：向量、矩阵、列表、因子、数据框以及时间序列等

#直接输入数据集的名字就可以直接使用这些数据集

#输出一个向量

rivers

#是北美141条河流长度

#这些数据集的名字都是内置的，一般我们在给变量命名时最好不要重复

#否则数据集在当前对话中会被置换掉

#例如

rivers<-c(1,2,3)

rivers

#不过影响不大

#再使用data函数重新加载这个数据集就可以了

data("rivers")

rivers

#一些常用内置数据集

#默认介绍页面只有名字和介绍，并没有给出数据分类

#哪些是向量、矩阵、数据框等？

#查看数据集除了直接敲数据集名字显示数据之外

#还可以使用help函数查看每个数据集具体的内容

help("mtcars")

euro

#欧元汇率，长度为11，每个元素都有命名

#输出向量的属性信息

names(euro)

#将5个数据构成一个数据框

向量

state.abb #美国50个州的双字母缩写

state.area #美国50个州的面积

state.name #美国50个州的全称

因子

state.division #美国50个州的分类，9个类别

state.region #美国50个州的地理分类

state<-data.frame(state.name,state.abb,state.area,state.division,state.region)

state

state.x77 #美国50个州的八个指标

state.x77

VADeaths #1940年弗吉尼亚州死亡率（每千人）

volcano #某火山区的地理信息（10米×10米的网格）

WorldPhones #8个区域在7个年份的电话总数

iris3 #3种鸢尾花形态数据

#以上矩阵→适合画热图

heatmap(volcano)

#这里只是作为一个演示，还需要对这个图进行一些调整

#更复杂的数据结构

Titanic #泰坦尼克乘员统计，是一个数组

UCBAdmissions #伯克利分校1973年院系、录取和性别的频数

crimtab #3000个男性罪犯左手中指长度和身高关系

HairEyeColor #592人头发颜色、眼睛颜色和性别的频数

occupationalStatus #英国男性父子职业联系

#类矩阵

eurodist #欧洲12个城市的距离矩阵，只有下三角部分

Harman23.cor #305个女孩八个形态指标的相关系数矩阵

Harman74.cor #145个儿童24个心理指标的相关系数矩阵

#R中内置最多的数据集——数据框

cars #1920年代汽车速度对刹车距离的影响

iris #3种鸢尾花形态数据

mtcars #32辆汽车在11个指标上的数据

rock #48块石头的形态数据

sleep #两药物的催眠效果

swiss #瑞士生育率和社会经济指标

trees #树木形态指标

USArrests #美国50个州的四个犯罪率指标

women #15名女性的身高和体重

#列表

state.center #美国50个州中心的经度和纬度

#类数据框

Orange #桔子树生长数据

#时间序列数据，和数据框类似，不同的是具有时间序列的顺序，是数据分析中非常常见的格式

#能反映出变化情况以及变化的趋势等

#因此有很多专门的方法用于时间序列的数据分析

co2 #1959-1997年每月大气co2浓度（ppm）

presidents #1945-1974年每季度美国总统支持率

uspop #1790–1970美国每十年一次的人口总数（百万为单位）

#除了内置数据集之外，许多R扩展包中也内置了很多数据集

#这些数据集作为扩展包的函数使用的案例

#加载R包之后这些数据集也同样被加载进来

#例如MASS包中的Cars93数据

#包含了27个变量，是1993年93辆汽车的型号指标

install.packages("MASS")

library("MASS")

help("Cars93")

#使用data函数在参数package中等于对应R包的名字，即可列出每个R包中包含的数据集

#ex

data(package="MASS")

#显示R中所有可用的数据集

data(package=.packages(all.available = TRUE))

#不加载R包使用其中的数据集

data(Chile,package="car")

Chile

#>data(Chile,package="car")

#Warning message:

# In data(Chile, package = "car") : data set ‘Chile’ not found

#>Chile

#Error: object 'Chile' not found

install.packages("car")

library("car")

help("Chile")

数据准备

1 图内标注

函数text()用于绘图区域内部添加文本。

函数：text(x, y = NULL, labels = seq_along(x$x), adj = NULL, pos = NULL, offset = 0.5, vfont = NULL, cex = 1, col = NULL, font = NULL, ...)

x和y：用于指定添加文本的位置坐标，为数值型向量。如果，x和y向量的长度不同，则短的将会被循环使用。

labels：指定添加文本的内容，为字符串向量。

adj：调整文字的位置。其值位于[0,1]之间。当adj为1个值时，是调整labels的x轴的位置，当是2个值时，第1个调整的是x轴的位置，第2个调整的是y轴的位置。

pos：调整文字的方向位置，如果给定了此值，将覆盖adj给定的值。1,2,3和4分别对应坐标的下，左，上和右。

offset：此参数需要与pos结合使用。当指定pos时，给出字符偏移量。

vfont：NULL值为默认使用当前字体族。或者是一个长度为2的矢量字体字符向量。向量的第一个元素用于指定一种字体，第二个元素用于指定一种样式。如文本标签用表达式给出，则该项设置将被忽略。

cex：设置字体大小，如果为NA或NULL，则设置为1。

col：设置文本的颜色。

font：设置文本字体，1是默认值，普通文字，2代表加粗，3代表斜体， 4代表加粗+斜体，5只有用来ADOBE的设备上时，才有用。

srt：文本倾斜的角度。

1.1 指定坐标添加文本

1.2 指定坐标添加多个文本

1.3 对图形元素添加文本标注

1.4 特殊符号

有时候需要在图上标注诸如求和、积分、上下标等数学符号，还有一些公式等。这里需要用到函数expression(...)，...是要输入的表达式。可以通过help(plotmath)以获得更多表达式的细节和示例。

2 图外标注

函数mtext()用于在图形四个边界之一添加文本。

mtext(text, side = 3, line = 0, outer = FALSE, at = NA, adj = NA, padj = NA, cex = NA, col = NA, font = NA, ...)

text：指定文本内容。

side：指定是哪个页边空白(1=下面，2=左边，3=上边，4=右边）。

line：指定文字出现的位置，文字和对应坐标轴平行。从坐标轴开始向外从0开始计数。

at：以用户坐标指定字符串位置。

adj：调整阅读方向。为使字符串平行坐标轴，adj=0，意味着左对齐或下对齐，而adj=1表示右对齐或上对齐。

padj：调整每个字符串垂直阅读的方向（它通过adj控制）。对于平行轴的字符串，padj=0表示右或上对齐，padj=1表示左或下对齐。

cex：调整字体大小，默认为1。

font：调整文字字体。

col：调整文字颜色。

参考资料：

《R语言实战》（中文版），人民邮电出版社，2013.

R语言中使用text()函数给绘图添加文字， https://www.biye5u.com/article/r/2018/6381.html

投必得R语言教程，第二讲 R作图-基础-图形参数设置：标题、图例、文字， https://mp.weixin.qq.com/s?__biz=MzU1Mzc3OTIwNg==&mid=2247495531&idx=1&sn=cdd80d4e950ae2b344cf188c68922fa8&chksm=fbef0602cc988f14e93b71bc6fcc2fda782d3ae9a3a67601a6c87756f4ae85bcc5d9c56d9b51&scene=21#wechat_redirect

零基础想要学习大数据，讲真，真的还是一件困难的事，不过人生就是这样，只有你越过更大的困难，才知道自己会有更大的收获。就像现在的大数据行业，人人都说大数据行业好，薪资高，但是你看到过每一个学习大数据的学生为此付出的惨痛经历吗？你看到过大数据工程师曾经日夜苦读、钻研书籍和教程吗？付出不一定有回报，但不付出一定不会有回报，想要更大的收获，先来收下这波大数据书籍和视频教程吧！

一、大数据书籍推荐：

1、《为数据而生》

书中分别阐述在大数据1.0、大数据2.0和大数据3.0时代下，相对应的数据分析需要做到分析、外化、集成。

2、《智能时代》

这本书作者分七章从不同角度对大数据进行介绍，分别以技术和思维方式的改变为主线，从工业革命这个角度嵌入，顺理成章的延伸出大数据与智能化，但是没有将过多笔墨放在技术的深究上，而是选择从应用层面体现大数据的理念。大数据应用则会渗透到各行各业，这正是作者的用心之处。

3、《R语言预测实战》

R语言横跨了金融、生物、医学、互联网等多个领域，主要用于统计、建模及可视化。由于上手快、效率高，备受技术人员青睐。预测是大数据挖掘的主要作用之一,借助R语言来做大数据预测，可以兼具效率与价值于一身。

3、《数据之巅》

这本书中，从小数据时代到大数据的崛起，作者以宏大的历史观、文化观、大数据观，给我们描绘了一幅数据科学、智慧文化的全景图。

4、《Hadoop权威指南》

《Hadoop权威指南(中文版)》从Hadoop的缘起开始，由浅入深，结合理论和实践，全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。

5、《Hive编程指南》

《Hive编程指南》是一本Apache Hive的编程指南，旨在介绍如何使用Hive的SQL方法HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。

大数据视频教程

对于零基础想学大数据的同学，小编不建议你一上来就接触大数据，你和大数据的近距离接触还有一个门槛，那就是编程语言的学习，学习大数据的首要纲领，就是熟练掌握一门编程语言。小编咨询了千锋大数据讲师，当前大数据所运用的编程语言基本都是java，也会涉及到Python、Scala编程语言，所以先从掌握一门编程语言学起吧！

java全套视频教程总目录

python最新基础视频教程

进行完大数据编程语言的学习，这时候你就可以真正的接触大数据技术知识了，我们知道大数据以Hadoop、spark、storm等核心技术组成，自然也会以此为重点突破。

大数据教程：Spark基础及源码分析

大数据课程：hadoop生态圈视频

数据向量美国文本矩阵

# 上一篇：Python基本编码格式

# 下一篇：c语言怎么控制输出字符的颜色！？