R语言数据对象类型

Python012

R语言数据对象类型,第1张

在R中尽量使用 <- 进行赋值, <- 更标准。在R中使用 = 进行赋值可能会出现错误(有些函数会将其解释为判断)——因为R起源于S语言,S语言的定义如此。

模式-使用mode()可以查看对象的数据类型

长度-使用length()可以查看对象的长度

标量可以是数字、字符、逻辑值等。

结果

向量可以由单个或多个值组成,多值的向量只能由相同类型的值组成,有一维和多维向量。

向量用于存储数值型、字符型、逻辑型数据

is.na()判断是否为缺失值,返回一个逻辑性向量

将自变量连接成一个字符串。

一般的使用形式是paste (..., sep = " ", collapse = NULL), ... 表示想要连接的不同自变量,sep表示不同自变量之间添加的符号,collapse打开之后表示将整个自变量变成一个单一的变量

对对象进行重复

在统计学中,按照变量值是否连续把变量分为连续变量与离散变量两种。分类变量是说明事物类别的一个名称,其取值是分类数据。变量值是定性的,表现为互不相容的类别或属性。因子就是一类分类离散变量。

因子是带有水平(level)的向量。

factor()函数一般形式为:

可以用来筛选因子的level

Table()函数对应的就是统计学中的列联表,是一种记录频数的方法。对于因子向量,可用函数table()来统计各类数据的频率。Table()的结果是一个带元素名的向量,元素名为因子水平,元素值为该水平的出现频率。

tapply()是对向量中的数据进行分组处理,而非对整体数据进行处理。函数一般形式为:

gl()函数可以方便地产生因子,函数一般形式为:

矩阵是一个二维数组,只是每个元素都拥有相同的数据类型(数值型、字符型或逻辑型)。注意与数据框的差别,数据框不同列的数据类型可以不同。

函数matrix ()是构造矩阵(二维数组)的函数,其构造形式为:

数组与矩阵类似,但是维度可以大于2。数组有一个特征属性叫做维数向量(dim属性),维数向量是一个元素取正整数值的向量,其长度是数组的维数,比如维数向量有两个元素时数组为二维数组(矩阵)。维数向量的每一个元素指定了该下标的上界,下标的下界总为1。

R软件可以用array()函数直接构造数组,其构造形式为:

数据框与矩阵类似,为二维,其数据框中各列的数据类型可以不同,但是长度必须一样。数据框在生物数据中用得比较多,是非常重要的一类数据类型。

数据框与矩阵不同的是数据框不同的列可以是不同的数据类型,并且数据框假定每列是一个变量,每行是一个观测值。

作为数据框变量的向量、因子或矩阵必须具有相同的长度(行数)。数据框可以用data.frame()函数生成,其用法与list()函数相同。

data.frame(col1,col2,col3.....)其中列向量col1,col2等可以是任何类型的向量

列表可以储存不同类型的数据,是一些对象的有序集合。它的元素也由序号(下标)区分,但是各元素的类型可以是任意对象,不同元素不必是同一类型。元素本身允许是其他复杂数据类型。比如一个列表的元素也允许是一个列表。

R软件中利用函数list()构造列表,一般语法为:

Lst<-list(name_1=object_1,…, name_1=object_m)

其中name是列表元素的名称;object_i(i=1,…,m)是列表元素的对象。

unlist()函数:将list函数拉直成一个向量

第一步:获取要绘图的整洁数据(涉及到数据整洁和操作的知识)

第二步:整洁数据做映射操作,确定x,y,color,size,shape,alpha等

第三步:选择合适的几何对象(根据画图的目的、变量的类型和个数)

第四步:坐标系和刻度配置

第五步:标签信息和图例信息

第六步:选择合适的主题

ggplot2的语法包括10个部件。

数据(data)

映射(mapping)

几何对象(geom)

标度(scale)

统计变换(stats)

坐标系(coord)

位置调整(Position adjustments)

分面(facet)

主题(theme)

输出(output)

前3个是必须的,其它部件ggplot2会自动配置,也可以手动配置

ggplot2基本绘图模板:

注意:

1)添加图层的加号(+)只能放在行末尾

2)红色方框里面mapping是全局域,绿色方框里面mapping是局部域,执行先后顺序,先局部域,后全局域

ggplot2画图必要部件-数据,映射和几何对象

2.1 数据

数据(Data)用于画图的整洁数据

library(tidyverse

ggplot()先只提供数据,创建一个空图形。

# ggplot()先提供整洁数据,生成一个空图形

2映射

映射,把数据变量集与图形属性库建立关联。

最常用的映射有:

x:x轴

y:y轴

color:颜色

size:大小

shape:形状

fill:填充

alpha:透明度

以mpg数据集为例,把变量displ和hwy分别映射到x和y,变量drv映射到color,此时图形就有了坐标轴和网格线,color需要在有了几何对象后才能体现出来。

# 映射操作

ggplot(data = mpg, mapping = aes(x = displ,

y = hwy, color = drv))

2.3 几何对象

几何对象是表达数据的视觉对象

不同类型的几何对象是从不同的角度表达数据。

pgglot2提供了50多种“几何对象”,均以geom_xxxx()的方式命名,常用的有:

几何对象很简单,只需要添加图层即可。

例如,以mpg数据集为例,画散点图。

ggplot(data = mpg, mapping = aes(x = displ,

y = hwy,

color = drv)) +

geom_point()层依次叠加,在上图的基础上,再添加一个几何对象:光滑曲线。

#继续增加一个几何对象:光滑曲线

# 写法1

ggplot(data = mpg, mapping = aes(x = displ,

y = hwy,

color = drv)) +

geom_point() +

geom_smooth(se=FALSE)

# 写法2

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +

geom_point(aes(color = drv)) +

geom_smooth(se=FALSE)

思考题:

1)写法1和写法2的差异?(全局域和局部域的使用差异)

2)写法2若是要实现写法1的功能,怎么编写代码?

03

标度

ggplot2会自动根据输入变量选择最优的坐标刻度方法,若要手动设置或调整,就需要使用标度函数。

标度函数用来控制几何对象中的标度映射(x轴,y轴或者由color,fill,shape,size产生的图例)。

ggplot2提供丰富的标度函数,常用的有:

拓展功能:scales包提供很多设置刻度标签风格的函数,比如百分数、科学计数法法、美元格式等。

3.1 修改坐标轴刻度及标签

连续变量使用scale_*_continuous()函数,参数breaks设置各个刻度的位置,参数labels设置各个刻度对应的标签。

离散变量使用scale_*_discrete()函数,修改离散变量坐标轴的标签。

时间变量使用scale_x_date()函数设置日期刻度,参数date_breaks设置刻度间隔,date_labels设置标签的日期格式

以mpg数据集为例,修改连续变量坐标轴刻度及标签。

# scale_y_continuous函数

# 对比分析和观察

# 图1

ggplot(mpg, aes(displ, hwy)) +

geom_point()

# 图2

ggplot(mpg, aes(displ, hwy)) +

geom_point() +

scale_y_continuous(breaks = seq(15, 40, by = 10))

# 图3

ggplot(mpg, aes(displ, hwy)) +

geom_point() +

scale_y_continuous(breaks = seq(15, 40, by = 10),

labels = c(" 一五 "," 二五 "," 三五 "))

以mpg数据集为例,修改离散变量的标签

# scale_x_discrete函数

# 对比分析和观察

# 图1

ggplot(mpg, aes(x = drv)) +

geom_bar()

# 图2

ggplot(mpg, aes(x = drv)) +

geom_bar() +

scale_x_discrete(labels = c("4" = " 四驱 ", "f" = " 前驱 ",

"r" = " 后驱 "))

以ggplot2自带的economics数据集为例,修改日期变量。

# scale_x_date函数

# 以ggplot2自带的economics为例

economics %>% glimpse()

# 图1

ggplot(tail(economics, 45), aes(date, uempmed / 100)) +

geom_line()

# 图2

ggplot(tail(economics, 45), aes(date, uempmed / 100)) +

geom_line() +

scale_x_date(date_breaks = "6 months", date_labels = "%Y-%b") +

scale_y_continuous(labels = scales::percent)

3.2 修改坐标轴标签、图例名及图例位置

用labs()函数参数x,y或者xlab(),ylab(),设置x轴,y轴标签。

若用参数color生成了图例,可以在labs()函数用参数color修改图例名。

用theme图层的参数legend.position设置图例的位置。

以mpg数据为例。

# 修改坐标轴标签,图例名和图例位置

mpg

# 图1

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

labs(x = " 引擎大小 (L)", y = " 高速燃油率 (mpg)",

color = " 驱动类型 ") +

theme(legend.position = "top")

# 图2

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

xlab(" 引擎大小 (L)") +

ylab(" 高速燃油率 (mpg)") +

labs(color = " 驱动类型 ") +

theme(legend.position = "top")

# 图3 不需要图例

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

xlab(" 引擎大小 (L)") +

ylab(" 高速燃油率 (mpg)") +

theme(legend.position = "none")

3.3 设置坐标轴的范围

用coord_cartesian()函数参数xlim和ylim,或者用xlim(),ylim()设置x轴和y轴的范围。

以mpg数据集为例。

# 修改坐标轴的范围

# 图1 coord_cartesian()的参数xlim和ylim

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

coord_cartesian(xlim = c(5, 7), ylim = c(10, 30))

# 图2 xlim()和ylim()函数

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

xlim(5, 7) +

ylim(10, 30)

3.4 变换坐标轴

用scale_x_log10()函数变换坐标系,可以保持原始数据的坐标刻度。

# 修改坐标轴的范围

# 图1 coord_cartesian()的参数xlim和ylim

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

coord_cartesian(xlim = c(5, 7), ylim = c(10, 30))

# 图2 xlim()和ylim()函数

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

xlim(5, 7) +

ylim(10, 30)

3.5 设置图形标题

用labs()函数设置图形标题。

参数title 设置正标题

参数subtitle 设置副标题

参数caption 设置脚注标题(默认右下角)

# 设置标题

# mpg数据集为例

p <- ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

geom_smooth(se = FALSE) +

labs(title = " 燃油效率与引擎大小的关系图 ",

subtitle = " 两座车 ( 跑车 ) 因重量小而符合预期 ",

caption = " 数据来自 fueleconomy.gov")

p

标题若要居中,采用theme图层设置。

p + theme(plot.title = element_text(hjust = 0.5),

plot.subtitle = element_text(hjust = 0.5))

3.6 设置color、fill颜色

数据的某个维度信息可以通过颜色来表示。

可以直接使用颜色值,建议使用RColorBrewer(调色板)或者colorspace包。

1)连续变量

- 用scale_color_gradient()设置二色渐变色。

# 连续变量

# 图1 scale_color_gradient()函数

ggplot(mpg, aes(displ, hwy, color = hwy)) +

geom_point() +

scale_color_gradient(low = "green", high = "red")

- 用scale_color_distiller()设置调色板中的颜色

# 图2 scale_color_distiller()函数

ggplot(mpg, aes(displ, hwy, color = hwy)) +

geom_point() +

scale_color_distiller(palette = "Set1")

2)离散变量

- 用scale_color_manual()手动设置颜色,还可以修改图例及其标签信息

# 离散变量

# 图1 scale_color_manual()函数

ggplot(mpg, aes(displ, hwy, color = drv)) +

geom_point() +

scale_color_manual(" 驱动方式 ",

values = c("red", "blue", "green"),

breaks = c("4", "f", "r"))

ggplot(mpg, aes(displ, hwy, color = drv)) +

geom_point() +

scale_color_manual(" 驱动方式 ",

values = c("red", "blue", "green"),

labels = c(" 四驱 ", " 前驱 ", " 后驱 "))

-用scale_fill_brewer()调用调色板中的颜色

# 图2 scale_fill_brewer()函数

ggplot(mpg, aes(x = class, fill = class)) +

geom_bar() +

scale_fill_brewer(palette = "Dark2")

.7 添加文字标注

ggrepel包提供了geom_label_repel()函数或者geom_text_repel()函数,为图形添加文字标注。

操作步骤:

第一步:先准备好标记点的数据

第二步:增加文字标注图层,包括标记点的数据和标注的文字给label参数

# 设置文字标注信息

library(ggrepel)

# 选取每种车型 hwy 值最大的样本

best_in_class <- mpg %>%

group_by(class) %>%

slice_max(hwy, n = 1)

best_in_class %>% select(class, model, hwy)

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = class)) +

geom_label_repel(data = best_in_class,

aes(label = model))

04

计变换、坐标系和位置调整

.1 统计变换

统计变换是构建新的统计量而画图。

例如,条形图或直方图,是对数据分组的频数做画图;平滑曲线是对数据拟合模型的预测值画图。

gplot2可以把统计变换直接融入画图中,不必先在对数据做统计变换后再画图。

gplot2提供30多种统计,均以stats_xxx()的方式命名。

1)可在几何对象中直接使用的统计变换,直接使用几何对象就可以了。

能在几何对象创建的,而需要单独使用。

mpg数据集为例。

stat_summary()做统计绘图并汇总。

# 图1 stat_summary()做统计绘图并汇总

p <- ggplot(mpg, aes(x = class, y = hwy)) +

geom_violin(trim = FALSE, alpha = 0.5, color = "green")

p

p + stat_summary(fun = mean,

fun.min = function (x) {mean(x) - sd(x)},

fun.max = function (x) {mean(x) + sd(x)},

geom = "pointrange",

color = "red")

tat_smooth()添加光滑曲线,与geom_smooth()相同。

参数method设置平滑曲线的拟合方法,如lm线性回归、glm广义线性回归、loess多项式回归、gam广义加法模型(mgcv包)、rlm稳健回归(MASS包)等。

参数formula指定平滑曲线方程,如y ~ x, y ~ poly(x, 2), y ~ log(x)等。

参数se设置是否绘制置信区间。

# 图2 stat_smooth()添加平滑曲线

ggplot(mpg, aes(displ, hwy)) +

geom_point() +

stat_smooth(method = "lm",

formula = y ~ splines::bs(x, 3),

se = FALSE)

ggplot(mpg, aes(displ, hwy)) +

geom_point() +

geom_smooth(method = "lm",

formula = y ~ splines::bs(x, 3),

se = FALSE)

4.2 坐标系

ggplot2默认是直角坐标系。

- coord_cartesian()

常用的其它坐标系:

以mpg数据集为例,坐标轴翻转。

# 图1 坐标轴翻转coord_flip()

p <- ggplot(mpg, aes(class, hwy)) +

geom_boxplot()

p

p + coord_flip()

直角坐标下条形图转换为极坐标下玫瑰图。

# 图2 直角坐标条形图-->极坐标玫瑰图

p <- ggplot(mpg, aes(class, fill = drv)) +

geom_bar()

p

p + coord_polar()

4.3 位置调整

条形图的位置调整

# 图1:条形图条形位置调整

ggplot(mpg, aes(class, fill = drv)) +

geom_bar()

ggplot(mpg, aes(class, fill = drv)) +

geom_bar(position = "dodge")

ggplot(mpg, aes(class, fill = drv)) +

geom_bar(position = position_dodge(preserve = "single"))

散点图的散点位置调整

# 图1:散点图的散点位置调整

ggplot(mpg, aes(displ, hwy)) +

geom_point()

ggplot(mpg, aes(displ, hwy)) +

geom_point(position = "jitter")

用patchwork包排布多个图形

library(patchwork)

p1 <- ggplot(mpg, aes(displ, hwy)) +

geom_point()

p2 <- ggplot(mpg, aes(drv, displ)) +

geom_boxplot()

p3 <- ggplot(mpg, aes(drv)) +

geom_bar()

p1 | (p2 / p3)

p1 | p2 | p3

p1 / p2 / p3

p1 / (p2 | p3)

05

分面

利用分类变量把图形分成若干“子图”(面),实际上就是对数据分组后再画图,属于数据分析里面细分和下钻的思想。

5.1 用facet_wrap()函数

封装分面,先生成一维的面板系列,再封装到二维中。

语法形式:~ 分类变量 或者 ~ 分类变量1 + 分类变量2

参数scales设置是否共用坐标刻度,fixed 默认 共用, free 不共用,还可以额通过free_x,free_y单独设置。

在我们实际建模拟合时,若数据中某个变量过度离散,则需要做转化,常见的有做log和根号两种方式。 install.packages('gridExtra')  library(gridExtra)  #先画一个柱状图,观察friend_count这个变量的整体趋势,发现过度离散 p1<-ggplot(aes(x=friend_count),data=pf)+geom_histogram() #log转化 p2<-p1+scale_x_log10() #根号转化 p3<-p1+scale_x_sqrt() #将三张图放在一个面板里 grid.arrange(p1,p2,p3,ncol=1)最后我们发现,做了log转化的数据更接近正态分布。