R语言初级教程(15): 矩阵（下篇）

2023-02-12 18:20:03Python049

R语言初级教程(15): 矩阵（下篇）,第1张

这是最后一篇讲解有关矩阵操作的博客，介绍有关矩阵的函数，主要有 rowSums() , colSums() , rowMeans() , colMeans() , apply() , rbind() , cbind() , row() , col() , rowsum() , aggregate() , sweep() , max.col() 。

下面通过例子来了解这些函数的用法：

我们知道，通过下标索引 [i, j] 可以访问矩阵的某一部分，索引如果没有提供意味着“所有行”或“所有列”。来看个例子，比如：

在R中，可以用一些特殊的函数来进行矩阵的行、列计算。来看些例子：

上述矩阵的行、列计算，还可以使用 apply() 函数来实现。 apply() 函数的原型为 apply(X, MARGIN, FUN, ...) ，其中： X 为矩阵或数组； MARGIN 用来指定是对行运算还是对列运算， MARGIN＝1 表示对行运算， MARGIN＝2 表示对列运算； FUN 用来指定运算函数； ... 用来指定 FUN 中需要的其它参数。来看些例子：

用 apply() 函数来实现上面的例子

apply() 函数功能很强大，我们可以对矩阵的行或列进行其它运算，例如：

如果矩阵存在 NA 值，可通过设置 na.rm=TRUE 来忽略 NA 值，然后再计算。比如：

甚至我们还可以自定义运算函数，来看个例子：

在R中， rbind() 和 cbind() 函数可分别为矩阵添加行和列，来看一个例子：

在R中， row() 和 col() 函数将分别返回元素的行和列下标矩阵，来看个例子：

通过这两个函数，可以获取矩阵的对角元素以及上下三角矩阵，例如：

有时，你可能需要对每行进行分组，然后组内每列求和。在R中可以用 rowsum() 函数来解决，而且效率也非常高。先看个例子：

你也可以用 aggregate() 函数获得类似结果：

有人就会问“为啥没有列分组求和的操作？”，其实你可以先将矩阵转置，然后行分组求和；这两步就等同于列分组求和。

sweep() 函数的原型为 sweep(x, MARGIN, STATS, FUN = "-", check.margin = TRUE, ...) ，其中： x 为矩阵或数组； MARGIN 用来指定是对行运算还是对列运算， MARGIN＝1 表示对行运算， MARGIN＝2 表示对列运算； STATS 表示想要清除的统计量； FUN 用来指定运算函数，默认为减法 - ； check.margin 用来核实 x 的维度是否与 STATS 的匹配，如果事先知道它们匹配的话，将其设为 FALSE 将提高运算速度； ... 用来指定 FUN 中需要的其它参数。来看些例子：

事实上，通过改变 FUN 参数的具体形式或自定义函数， sweep() 函数可以实现很多不同操作，这里就不细讲了。

max.col() 函数返回矩阵每行最大值所在的列位置（即列下标），其原型为 max.col(m, ties.method = c("random", "first", "last")) ，其中： m 为矩阵；当存在多个最大值时， ties.method 指定用哪种方式来处理这种情况，默认为"random"（随机），"first"指使用第一个最大值，"last"指使用最后一个最大值。来看个官网例子：

我们也可以结合 apply() 和 which.max() 函数来实现 max.col(mm, 'first') 。看个例子，

R矩阵的最后一部分内容就讲到这。

如若有遗漏，后期将会添加至本博客。

变量可归结为名义型、有序型或连续型变量。名义型变量是没有顺序之分的类别变量。类别（名义型）变量和有序类别（有序型）变量在R中称为因子（factor）。因子在R中非常重要，因为它决定了数据的分析方式以及如何进行视觉呈现。因子（factor)是R语言中比较特殊的一个数据类型，它是一个用于存储的类型，举个例子，从性别上，可以把人分为：男人和女人，从年龄上划分，又可以把人分为：未成年人（<18岁），成年人（>=18）。

R把表示分类的数据称为因子，因子的行为有时像字符串，有时像整数。因子是一个向量，通常情况下，每个元素都是字符类型，也有其他数据类型的元素。因子具有因子水平（Levels），用于限制因子的元素的取值范围，R强制：因子水平是字符类型，因子的元素只能从因子水平中取值，这意味着，因子的每个元素要么是因子水平中的字符（或转换为其他数据类型），要么是缺失值，这是因子的约束，是语法上的规则。

通常情况下，在创建数据框变量时，R隐式把数据类型为字符的列创建为因子，这是因为R会把文本类型默认为类别数据，并自动转换为因子。前面我们在讲数据框时，就有提到。

通过class()函数检查gender列的类，结果是因子类型，而不是字符向量。

可以通过factor()函数创建因子，factor()函数的第一个参数必须是字符向量，通过levels参数显式设置因子水平。

参数注释：

例如，因子sex的值是向量c('f','m','f','f','m')，因子水平是c('f','m')

因子水平规定了 因子取值的范围 ，每一个因子，都包含因子水平的信息，例如，打印gender列，可以看到因子的元素和水平：

该因子中的每个值都是一个字符串，它们被限制为“f”、“m”和缺失值（NA）。如果把其他字符串添加到gender列中，R会抛出警告消息，并把错误赋值的元素设置为NA，例如：

因子水平，可以通过函数levels(factor)来查看：

水平的级数，相当于level的长度，可以由nlevels函数查询到：

使用factor函数创建因子，可以使用labels参数为每个因子水平添加标签，labels参数的字符顺序，要和levels参数的字符顺序保持一致，例如：

通常情况下，因子一般是无序的，这可以通过is.ordered()函数来验证：

因子的顺序，实际上是指因子水平的顺序，有序因子的因子水平是有序的。在特殊情况下，有些因子的水平在语义上大于或小于其他水平，R支持按顺序排列的因子，使用ordered函数，或通过给factor函数传入order=TRUE参数，把无序因子转换为有序的因子。

ordered()函数不能指定特定因子水平的顺序，通常情况下，因子中先出现的水平小于后出现的水平。例如，通过ordered函数把sex因子转换为有序的因子：

通过factor函数创建有序因子，通过levels指定因子的顺序。

因子的顺序，其实是因子水平的顺序，我们可以通过levels，使现有的因子按照指定的因子水平来排序。

例如，把heights数据框的gender，按照指定的levels，转换成有序因子：

在数据清理时，可能需要去掉与因子水平对应的数据，通常情况下，需要删除未使用的因子水平，可以使用droplevels函数，它接受因子或是数据框作为参数。

如果x是数据框，那么把数据框中未使用的因子删除。

在数据清理中，有时需要把因子转换为字符，通常情况下，使用as.character()函数，把因子转换为字符串：

使用as.numeric()或as.integer()函数可以把因子转换成对应的整数.

函数 cut() 能够把数值变量切成不同的块，然后返回一个因子.

参数注释：

例如，把身高数据，按照指定的切割点向量分割：

当需要把因子转换为有序因子时，要注意因子水平的顺序.

数据准备

函数：legend(location, title, legend, ....)

参数详解：

x和y：用于定位图例，也可用关键词"bottomright", "bottom", "bottomleft", "left", "topleft", "top", "topright", "right" 和 "center"；当图例用关键词设置位置后，inset = 分数，可以设置其相对位置；

legend：指定图例标签，字符或表达式向量；

fill：用特定的颜色进行填充；

col：设置图例中出现的点或线的颜色；

border：当fill = 参数存在的情况下，用于指定填充的边框颜色；

lty, lwd：图例中线的类型与宽度；

pch：点的类型；

angle：阴影的角度；

density：阴影线的密度；

cex：指定图例显示大小；

bg：指定图例的背景色；

bty：指定图例框是否画出，默认o为画出，n为不画出；

box.lty, box.lwd, box.col：设置图例边框线型，线粗，颜色，box.lty为虚线，box.lwd决定粗线，box.col决定颜色；

pt.bg：图例中点的背景色；

pt.cex：图例中点的大小；

pt.lwd：图例中点边缘的线宽；

x.intersp：图例中文字离图片的水平距离；

y.intersp：图例中文字离图片的垂直距离；

adj：图例中字体的相对位置；

text.width：图例中字体所占的宽度，调整后图例整个宽度也跟着变化了；

text.col：图例字体的颜色；

text.font：图例字体；

merge：逻辑值，merge=TRUE，合并点与线，但不填充图例框，默认为TRUE；

trace：逻辑值，trace=TRUE显示图例信息；

plot：逻辑值，plot=FALSE不画出图例；

ncol：图例中分类的列数；

horiz：逻辑值，horiz=TRUE，水平放置图例；

title：给图例加标题；

xpd：xpd=FALSE，即不允许在作图区域外作图，改为TRUE即可，与par()参数配合使用；

title.col：标题颜色；

title.adj：图例标题的相对位置，0.5为默认，在中间。0最左，1为最右；

seg.len：指定图例中线的线长，长度单位为字符宽度。

1 图例方位

2 修饰图例

3 图例绘制在图外

4 自定义图例

有时候绘制出的图是分组图，这时候需要自定义绘制图例。

参考资料：

《R语言实战》（中文版），人民邮电出版社，2013.

R语言绘制图例(legend)的各种问题_详细综合解析， https://blog.csdn.net/xiangyong58/article/details/54579293

投必得R语言教程，第二讲 R作图-基础-图形参数设置：标题、图例、文字， https://mp.weixin.qq.com/s?__biz=MzU1Mzc3OTIwNg==&mid=2247495531&idx=1&sn=cdd80d4e950ae2b344cf188c68922fa8&chksm=fbef0602cc988f14e93b71bc6fcc2fda782d3ae9a3a67601a6c87756f4ae85bcc5d9c56d9b51&scene=21#wechat_redirect

一幅图解决R语言绘制图例的各种问题， https://blog.csdn.net/weixin_30469895/article/details/96649305

因子函数图例矩阵水平

# 上一篇：单机版的"口袋怪兽"攻略

# 下一篇：怎么用c语言输出倒三角形