R语言绘图——数据可视化ggplot2 介绍和主要的参数

2023-02-28 03:19:02Python012

R语言绘图——数据可视化ggplot2 介绍和主要的参数,第1张

R 有几种用于制作图形的系统，但 ggplot2 是最优雅和最通用的系统之一。与大多数其他图形包不同，ggplot2 具有基于图形语法的底层语法，它允许您通过组合独立组件来组合图形。如果想要更加了解ggplot2，请阅读 ggplot2: Elegant Graphics for Data Analysis ，可以从 https://ggplot2-book.org/getting-started.html 学习本书

所有的图都由数据data，想要可视化的信息，映射mapping（即数据变量如何映射到美学属性的描述）组成

1. 图层（layers）是几何元素和统计变换的集合。几何对象，简称 geoms ，代表你在图中实际看到的东西：点、线、多边形等等。统计转换，简称 stats ，总结数据:例如，装箱和计数观察，以创建一个直方图，或拟合一个线性模型。

2. Scales 将数据空间中的值映射到美学空间中的值。这包括颜色、形状和大小的使用。Scale还绘制图例和轴，这使得从图中读取原始数据值成为可能(反向映射)。

3. 坐标（coords）或坐标系统描述如何将数据坐标映射到图形的平面。它还提供了轴和网格线来帮助读取图形。我们通常使用笛卡尔坐标系，但也可以使用其他一些坐标系，包括极坐标和地图投影。

4. 刻面（facet）指定如何拆分数据子集并将其显示为小倍数。这也被称为条件反射或网格/格子。

5. theme 控制更精细的显示点，如字体大小和背景颜色。

ggplot2有许多参数，可根据需求自行选取，具体参数详情可见 https://ggplot2.tidyverse.org/reference/index.html

基础绘图：由 ggplot(data,aes(x,y))+geom_ 开始,至少包含这三个组件，可以通过"+"不断的添加layers, scales, coords和facets。

Geoms ：几何对象，通常，您将使用geom_函数创建层，以下为常用的图形：

geom_bar() ：直方图，条形图

geom_boxplot() ：box图

geom_density() ：平滑密度估计曲线

geom_dotplot() ：点图

geom_point() :点图

geom_violin() ：小提琴图

aes()，颜色、大小、形状和其他审美属性

要向绘图添加其他变量，我们可以使用其他美学，如颜色、形状和大小。

按照属性定义

它们的工作方式与 x 和 y 相同，aes()：

aes(displ, hwy, colour = class) #按照某个属性着色

aes(displ, hwy, shape = drv) #按照某个属性定义

aes(displ, hwy, size = cyl) #按照某个属性定义

整体自定义

geom_xxx(colour =自定义颜色)

geom_xxx(shape=形状编号)

geom_xxx(size =编号大小定义 0-10)

注意根据需求按照aes()还是geom进行添加属性

以下为R语言中各shape形状编号

scale控制如何将数据值转换为视觉属性的细节。

labs()和lims() 是对标签和限制进行最常见调整。

labs() ，主要对图形进行调整，注释等

labs()括号内参数：title主标题，subtitle副标题，caption右下角描述，tag左上角

xlab() ，x轴命名

ylab() ，y轴命名

ggtitle() ，标题

lims()

xlim() , xlim(a,b) 限制坐标(a，b)

ylim() ， ylim(a,b) 限制坐标(a，b)

scale_alpha() 透明度尺度

scale_shape() ，搭配aes(shape=某个属性)使用

参数：name ，solid =T/F是否填充

scale_size()搭配aes(size=某个属性)使用

参数：name，range =c(0, 10)

1.适用于发散和定性的数据

a. scale_colour_brewer() ，scale_colour_brewer(palette =" ")，scale_colour_brewer(palette ="Green ")

palette来自RcolorBrewer包，所有面板：

b. scale_colour_manual()

scale_colour_manual(values=c( )) 可以 自定义颜色 ，常用的参数

values可直接定义颜色，但是建议使用命名向量，例如

values=c("8" = "red", "4" = "blue", "6" = "darkgreen", "10" = "orange")

PS：注意在aes(colour=factor()),一定要把因素转换为factor型，否则无效

2.适用于连续的值，渐变颜色

a. scale_colour_gradient()

scale_colour_gradient (low =" ",high=" ")，根据值大小定义颜色,创建两个颜色梯度(低-高)，

b. scale_colour_gradient2()

scale_colour_gradient2(low = " ",mid = " ",high = " ")创建一个发散的颜色梯度(低-中-高)

c. scale_colour_gradientn()

创建一个n色渐变，scale_colour_gradientn(colours =许多R语言中的颜色面板)，

默认坐标系是笛卡尔 coord_cartesian()

一般不会修改

facet_grid() ，在网格中布置面板

facet_grid(rows = vars() ) cols或rows = vars(因素)，图形按列或行分割

facet_wrap()

facet_wrap(vars( ), ncol =n) , ncol或者nrow,分为多少行多少列

theme_bw() ，可以覆盖所有主题，背景变为白色,我们在文章中所用的图片大都需要该背景。

或者用 theme_classic() ，同时去除了网格线

theme() ，修改主题的组件，里面涉及多个参数，根据需求调整

常见参数：

legend.position，图例的位置,包括 "left" 左, "right" 右, "bottom" 下, "top" 上和"none",不显示

第一步：获取要绘图的整洁数据（涉及到数据整洁和操作的知识）

第二步：整洁数据做映射操作，确定x,y,color,size,shape,alpha等

第三步：选择合适的几何对象（根据画图的目的、变量的类型和个数）

第四步：坐标系和刻度配置

第五步：标签信息和图例信息

第六步：选择合适的主题

ggplot2的语法包括10个部件。

数据（data）

映射（mapping）

几何对象（geom）

标度（scale）

统计变换（stats）

坐标系（coord）

位置调整（Position adjustments）

分面（facet）

主题（theme）

输出（output）

前3个是必须的，其它部件ggplot2会自动配置，也可以手动配置

ggplot2基本绘图模板：

注意：

1）添加图层的加号（+）只能放在行末尾

2）红色方框里面mapping是全局域，绿色方框里面mapping是局部域，执行先后顺序，先局部域，后全局域

ggplot2画图必要部件-数据，映射和几何对象

2.1 数据

数据（Data）用于画图的整洁数据

library(tidyverse

ggplot()先只提供数据，创建一个空图形。

# ggplot()先提供整洁数据，生成一个空图形

2映射

映射，把数据变量集与图形属性库建立关联。

最常用的映射有：

x：x轴

y：y轴

color：颜色

size：大小

shape：形状

fill：填充

alpha：透明度

以mpg数据集为例，把变量displ和hwy分别映射到x和y，变量drv映射到color，此时图形就有了坐标轴和网格线，color需要在有了几何对象后才能体现出来。

# 映射操作

ggplot(data = mpg, mapping = aes(x = displ,

y = hwy, color = drv))

2.3 几何对象

几何对象是表达数据的视觉对象

不同类型的几何对象是从不同的角度表达数据。

pgglot2提供了50多种“几何对象”，均以geom_xxxx()的方式命名，常用的有：

几何对象很简单，只需要添加图层即可。

例如，以mpg数据集为例，画散点图。

ggplot(data = mpg, mapping = aes(x = displ,

y = hwy,

color = drv)) +

geom_point()层依次叠加，在上图的基础上，再添加一个几何对象：光滑曲线。

#继续增加一个几何对象：光滑曲线

# 写法1

ggplot(data = mpg, mapping = aes(x = displ,

y = hwy,

color = drv)) +

geom_point() +

geom_smooth(se=FALSE)

# 写法2

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +

geom_point(aes(color = drv)) +

geom_smooth(se=FALSE)

思考题：

1）写法1和写法2的差异？（全局域和局部域的使用差异）

2）写法2若是要实现写法1的功能，怎么编写代码？

标度

ggplot2会自动根据输入变量选择最优的坐标刻度方法，若要手动设置或调整，就需要使用标度函数。

标度函数用来控制几何对象中的标度映射（x轴，y轴或者由color，fill，shape，size产生的图例）。

ggplot2提供丰富的标度函数，常用的有：

拓展功能：scales包提供很多设置刻度标签风格的函数，比如百分数、科学计数法法、美元格式等。

3.1 修改坐标轴刻度及标签

连续变量使用scale_*_continuous()函数，参数breaks设置各个刻度的位置，参数labels设置各个刻度对应的标签。

离散变量使用scale_*_discrete()函数，修改离散变量坐标轴的标签。

时间变量使用scale_x_date()函数设置日期刻度，参数date_breaks设置刻度间隔，date_labels设置标签的日期格式

以mpg数据集为例，修改连续变量坐标轴刻度及标签。

# scale_y_continuous函数

# 对比分析和观察

# 图1

ggplot(mpg, aes(displ, hwy)) +

geom_point()

# 图2

ggplot(mpg, aes(displ, hwy)) +

geom_point() +

scale_y_continuous(breaks = seq(15, 40, by = 10))

# 图3

ggplot(mpg, aes(displ, hwy)) +

geom_point() +

scale_y_continuous(breaks = seq(15, 40, by = 10),

labels = c(" 一五 "," 二五 "," 三五 "))

以mpg数据集为例，修改离散变量的标签

# scale_x_discrete函数

# 对比分析和观察

# 图1

ggplot(mpg, aes(x = drv)) +

geom_bar()

# 图2

ggplot(mpg, aes(x = drv)) +

geom_bar() +

scale_x_discrete(labels = c("4" = " 四驱 ", "f" = " 前驱 ",

"r" = " 后驱 "))

以ggplot2自带的economics数据集为例，修改日期变量。

# scale_x_date函数

# 以ggplot2自带的economics为例

economics %>% glimpse()

# 图1

ggplot(tail(economics, 45), aes(date, uempmed / 100)) +

geom_line()

# 图2

ggplot(tail(economics, 45), aes(date, uempmed / 100)) +

geom_line() +

scale_x_date(date_breaks = "6 months", date_labels = "%Y-%b") +

scale_y_continuous(labels = scales::percent)

3.2 修改坐标轴标签、图例名及图例位置

用labs()函数参数x，y或者xlab()，ylab()，设置x轴，y轴标签。

若用参数color生成了图例，可以在labs()函数用参数color修改图例名。

用theme图层的参数legend.position设置图例的位置。

以mpg数据为例。

# 修改坐标轴标签，图例名和图例位置

mpg

# 图1

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

labs(x = " 引擎大小 (L)", y = " 高速燃油率 (mpg)",

color = " 驱动类型 ") +

theme(legend.position = "top")

# 图2

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

xlab(" 引擎大小 (L)") +

ylab(" 高速燃油率 (mpg)") +

labs(color = " 驱动类型 ") +

theme(legend.position = "top")

# 图3 不需要图例

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

xlab(" 引擎大小 (L)") +

ylab(" 高速燃油率 (mpg)") +

theme(legend.position = "none")

3.3 设置坐标轴的范围

用coord_cartesian()函数参数xlim和ylim，或者用xlim()，ylim()设置x轴和y轴的范围。

以mpg数据集为例。

# 修改坐标轴的范围

# 图1 coord_cartesian()的参数xlim和ylim

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

coord_cartesian(xlim = c(5, 7), ylim = c(10, 30))

# 图2 xlim()和ylim()函数

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

xlim(5, 7) +

ylim(10, 30)

3.4 变换坐标轴

用scale_x_log10()函数变换坐标系，可以保持原始数据的坐标刻度。

# 修改坐标轴的范围

# 图1 coord_cartesian()的参数xlim和ylim

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

coord_cartesian(xlim = c(5, 7), ylim = c(10, 30))

# 图2 xlim()和ylim()函数

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

xlim(5, 7) +

ylim(10, 30)

3.5 设置图形标题

用labs()函数设置图形标题。

参数title 设置正标题

参数subtitle 设置副标题

参数caption 设置脚注标题（默认右下角）

# 设置标题

# mpg数据集为例

p <- ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = drv)) +

geom_smooth(se = FALSE) +

labs(title = " 燃油效率与引擎大小的关系图 ",

subtitle = " 两座车 ( 跑车 ) 因重量小而符合预期 ",

caption = " 数据来自 fueleconomy.gov")

标题若要居中，采用theme图层设置。

p + theme(plot.title = element_text(hjust = 0.5),

plot.subtitle = element_text(hjust = 0.5))

3.6 设置color、fill颜色

数据的某个维度信息可以通过颜色来表示。

可以直接使用颜色值，建议使用RColorBrewer（调色板）或者colorspace包。

1）连续变量

- 用scale_color_gradient()设置二色渐变色。

# 连续变量

# 图1 scale_color_gradient()函数

ggplot(mpg, aes(displ, hwy, color = hwy)) +

geom_point() +

scale_color_gradient(low = "green", high = "red")

- 用scale_color_distiller()设置调色板中的颜色

# 图2 scale_color_distiller()函数

ggplot(mpg, aes(displ, hwy, color = hwy)) +

geom_point() +

scale_color_distiller(palette = "Set1")

2）离散变量

- 用scale_color_manual()手动设置颜色，还可以修改图例及其标签信息

# 离散变量

# 图1 scale_color_manual()函数

ggplot(mpg, aes(displ, hwy, color = drv)) +

geom_point() +

scale_color_manual(" 驱动方式 ",

values = c("red", "blue", "green"),

breaks = c("4", "f", "r"))

ggplot(mpg, aes(displ, hwy, color = drv)) +

geom_point() +

scale_color_manual(" 驱动方式 ",

values = c("red", "blue", "green"),

labels = c(" 四驱 ", " 前驱 ", " 后驱 "))

-用scale_fill_brewer()调用调色板中的颜色

# 图2 scale_fill_brewer()函数

ggplot(mpg, aes(x = class, fill = class)) +

geom_bar() +

scale_fill_brewer(palette = "Dark2")

.7 添加文字标注

ggrepel包提供了geom_label_repel()函数或者geom_text_repel()函数，为图形添加文字标注。

操作步骤：

第一步：先准备好标记点的数据

第二步：增加文字标注图层，包括标记点的数据和标注的文字给label参数

# 设置文字标注信息

library(ggrepel)

# 选取每种车型 hwy 值最大的样本

best_in_class <- mpg %>%

group_by(class) %>%

slice_max(hwy, n = 1)

best_in_class %>% select(class, model, hwy)

ggplot(mpg, aes(displ, hwy)) +

geom_point(aes(color = class)) +

geom_label_repel(data = best_in_class,

aes(label = model))

计变换、坐标系和位置调整

.1 统计变换

统计变换是构建新的统计量而画图。

例如，条形图或直方图，是对数据分组的频数做画图；平滑曲线是对数据拟合模型的预测值画图。

gplot2可以把统计变换直接融入画图中，不必先在对数据做统计变换后再画图。

gplot2提供30多种统计，均以stats_xxx()的方式命名。

1）可在几何对象中直接使用的统计变换，直接使用几何对象就可以了。

能在几何对象创建的，而需要单独使用。

mpg数据集为例。

stat_summary()做统计绘图并汇总。

# 图1 stat_summary()做统计绘图并汇总

p <- ggplot(mpg, aes(x = class, y = hwy)) +

geom_violin(trim = FALSE, alpha = 0.5, color = "green")

p + stat_summary(fun = mean,

fun.min = function (x) {mean(x) - sd(x)},

fun.max = function (x) {mean(x) + sd(x)},

geom = "pointrange",

color = "red")

tat_smooth()添加光滑曲线，与geom_smooth()相同。

参数method设置平滑曲线的拟合方法，如lm线性回归、glm广义线性回归、loess多项式回归、gam广义加法模型(mgcv包)、rlm稳健回归(MASS包)等。

参数formula指定平滑曲线方程，如y ~ x, y ~ poly(x, 2)， y ~ log(x)等。

参数se设置是否绘制置信区间。

# 图2 stat_smooth()添加平滑曲线

ggplot(mpg, aes(displ, hwy)) +

geom_point() +

stat_smooth(method = "lm",

formula = y ~ splines::bs(x, 3),

se = FALSE)

ggplot(mpg, aes(displ, hwy)) +

geom_point() +

geom_smooth(method = "lm",

formula = y ~ splines::bs(x, 3),

se = FALSE)

4.2 坐标系

ggplot2默认是直角坐标系。

- coord_cartesian()

常用的其它坐标系：

以mpg数据集为例，坐标轴翻转。

# 图1 坐标轴翻转coord_flip()

p <- ggplot(mpg, aes(class, hwy)) +

geom_boxplot()

p + coord_flip()

直角坐标下条形图转换为极坐标下玫瑰图。

# 图2 直角坐标条形图-->极坐标玫瑰图

p <- ggplot(mpg, aes(class, fill = drv)) +

geom_bar()

p + coord_polar()

4.3 位置调整

条形图的位置调整

# 图1：条形图条形位置调整

ggplot(mpg, aes(class, fill = drv)) +

geom_bar()

ggplot(mpg, aes(class, fill = drv)) +

geom_bar(position = "dodge")

ggplot(mpg, aes(class, fill = drv)) +

geom_bar(position = position_dodge(preserve = "single"))

散点图的散点位置调整

# 图1：散点图的散点位置调整

ggplot(mpg, aes(displ, hwy)) +

geom_point()

ggplot(mpg, aes(displ, hwy)) +

geom_point(position = "jitter")

用patchwork包排布多个图形

library(patchwork)

p1 <- ggplot(mpg, aes(displ, hwy)) +

geom_point()

p2 <- ggplot(mpg, aes(drv, displ)) +

geom_boxplot()

p3 <- ggplot(mpg, aes(drv)) +

geom_bar()

p1 | (p2 / p3)

p1 | p2 | p3

p1 / p2 / p3

p1 / (p2 | p3)

分面

利用分类变量把图形分成若干“子图”（面），实际上就是对数据分组后再画图，属于数据分析里面细分和下钻的思想。

5.1 用facet_wrap()函数

封装分面，先生成一维的面板系列，再封装到二维中。

语法形式：~ 分类变量或者 ~ 分类变量1 + 分类变量2

参数scales设置是否共用坐标刻度，fixed 默认共用， free 不共用，还可以额通过free_x，free_y单独设置。

1. barplot函数

>a=matrix(1:18,2)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]

[1,] 1 3 5 7 9 11 13 15 17

[2,] 2 4 6 8 10 12 14 16 18

>class(a) #查看a数据类型

[1] "matrix"

注意barplot函数对象要么是向量，要么是矩阵，若不是，则要进行数据数据类型进行转换

>barplot(d) #所有参数默认

>?barplot

常见参数就不赘述了，几个个人认为比较重要参数如下

names.arg----在每个条形图或条形图下绘制的名称向量。如果省略此参数，那么如果它是向量，则从height的names属性中获取名称；如果它是矩阵，则从列名称中获取名称。

legend.text----数据为矩阵的时候用，如果legend.text为true，则height的行名称非空时将用作标签。

horiz----默认false，为竖直条形图，改为TRUE，为水平条形图

beside---如果为FALSE，则将高度列描绘为堆叠的条，如果为TRUE，则将列描绘为并列的条

space---每根柱子之前留出的空间量（以平均柱子宽度的一部分为单位）。可以以单个数字或每个小节一个数字的形式给出。如果height是一个矩阵，并且next为TRUE，则可以用两个数字指定空间，其中第一个是同一组中的条形之间的间隔，第二个是组之间的间隔。如果未明确给出，则如果height为矩阵，并且next为TRUE，则默认为c（0,1），否则为0.2。

还有很多参数可以通过help()查询

>barplot(a,names.arg = c('1','2','3','4','5','6','7','8','9'),beside = TRUE,horiz = TRUE,col = rep(c('blue','green','gray'),3),legend.text = TRUE)

>barplot(a,names.arg = c('1','2','3','4','5','6','7','8','9'),beside = F,horiz = TRUE,col = rep(c('blue','green'),2),legend.text = TRUE)

>barplot(a,names.arg = c('1','2','3','4','5','6','7','8','9'),beside = F,horiz = F,col = rep(c('blue','green'),2),legend.text = TRUE)

2.ggplot2包

安装加载包

install.package('ggplot2')

library(ggplot2)

#创建矩阵

data<-data.frame(Sample<-c(rep('control1',3),rep('control2',3),rep('control3',3),rep('treat1',3),rep('treat2',3),rep('treat3',3),rep('treat4',3)), contion<-rep(c('Cell','Tissue','Organ'),7), value<-c(503,264,148,299,268,98,363,289,208,108,424,353,1,495,168,152,367,146,48,596,143))

colnames(data)=c('sample',"contion","value")

ggplot(data,mapping = aes(Sample,value,fill=contion))+geom_bar(stat='identity',position='fill') +labs(x = 'Sample',y = 'frequnency') +theme(axis.title =element_text(size = 16),axis.text =element_text(size = 14, color = 'black'))+theme(axis.text.x = element_text(angle = 45, hjust = 1))

#ggplot函数，geom从数据到几何图像，geom_bar为柱状图，geom_line为线型图等，aes形成映射，x轴为sample，y轴为value，堆叠为contion，geom_bar()函数为建立柱状图，stat参数-统计变换，position参数为柱状图形式，position= 'fill'（图形元素堆叠且高度标准化为1），position= 'stack'（图形堆叠图），参数position= 'dodge'（并列数据，非堆叠展示），coord画图在某个坐标系中，facet将绘图窗口分成若干子窗口用来生成数据中不同子集的图形

# labs为标题，theme为设置标题参数，axis.title为轴标题信息，axis.text为轴注释文本，axis.text.x表示设置x轴的信息，还有更多参数详查ggplot2包

ggplot(data,mapping = aes(Sample,value,fill=contion))+geom_bar(stat='identity',position='stack') +labs(x = 'Sample',y = 'frequnency') +theme(axis.title =element_text(size = 16),axis.text =element_text(size = 14, color = 'black'))+theme(axis.text.x = element_text(angle = 45, hjust = 1))

ggplot(data,mapping = aes(Sample,value,fill=contion))+geom_bar(stat='identity',position='dodge') +labs(x = 'Sample',y = 'frequnency') +theme(axis.title =element_text(size = 16),axis.text =element_text(size = 14, color = 'black'))+theme(axis.text.x = element_text(angle = 45, hjust = 1))

数据参数函数变量坐标轴

# 上一篇：小米RUBY电脑如何设置锁屏密码

# 下一篇：js中如何动态向枚举中添加元素