R语言基础教程 | 数据结构—因子

2023-02-23 00:31:01Python028

R语言基础教程 | 数据结构—因子,第1张

变量可归结为名义型、有序型或连续型变量。名义型变量是没有顺序之分的类别变量。类别（名义型）变量和有序类别（有序型）变量在R中称为因子（factor）。因子在R中非常重要，因为它决定了数据的分析方式以及如何进行视觉呈现。因子（factor)是R语言中比较特殊的一个数据类型，它是一个用于存储的类型，举个例子，从性别上，可以把人分为：男人和女人，从年龄上划分，又可以把人分为：未成年人（<18岁），成年人（>=18）。

R把表示分类的数据称为因子，因子的行为有时像字符串，有时像整数。因子是一个向量，通常情况下，每个元素都是字符类型，也有其他数据类型的元素。因子具有因子水平（Levels），用于限制因子的元素的取值范围，R强制：因子水平是字符类型，因子的元素只能从因子水平中取值，这意味着，因子的每个元素要么是因子水平中的字符（或转换为其他数据类型），要么是缺失值，这是因子的约束，是语法上的规则。

通常情况下，在创建数据框变量时，R隐式把数据类型为字符的列创建为因子，这是因为R会把文本类型默认为类别数据，并自动转换为因子。前面我们在讲数据框时，就有提到。

通过class()函数检查gender列的类，结果是因子类型，而不是字符向量。

可以通过factor()函数创建因子，factor()函数的第一个参数必须是字符向量，通过levels参数显式设置因子水平。

参数注释：

例如，因子sex的值是向量c('f','m','f','f','m')，因子水平是c('f','m')

因子水平规定了 因子取值的范围 ，每一个因子，都包含因子水平的信息，例如，打印gender列，可以看到因子的元素和水平：

该因子中的每个值都是一个字符串，它们被限制为“f”、“m”和缺失值（NA）。如果把其他字符串添加到gender列中，R会抛出警告消息，并把错误赋值的元素设置为NA，例如：

因子水平，可以通过函数levels(factor)来查看：

水平的级数，相当于level的长度，可以由nlevels函数查询到：

使用factor函数创建因子，可以使用labels参数为每个因子水平添加标签，labels参数的字符顺序，要和levels参数的字符顺序保持一致，例如：

通常情况下，因子一般是无序的，这可以通过is.ordered()函数来验证：

因子的顺序，实际上是指因子水平的顺序，有序因子的因子水平是有序的。在特殊情况下，有些因子的水平在语义上大于或小于其他水平，R支持按顺序排列的因子，使用ordered函数，或通过给factor函数传入order=TRUE参数，把无序因子转换为有序的因子。

ordered()函数不能指定特定因子水平的顺序，通常情况下，因子中先出现的水平小于后出现的水平。例如，通过ordered函数把sex因子转换为有序的因子：

通过factor函数创建有序因子，通过levels指定因子的顺序。

因子的顺序，其实是因子水平的顺序，我们可以通过levels，使现有的因子按照指定的因子水平来排序。

例如，把heights数据框的gender，按照指定的levels，转换成有序因子：

在数据清理时，可能需要去掉与因子水平对应的数据，通常情况下，需要删除未使用的因子水平，可以使用droplevels函数，它接受因子或是数据框作为参数。

如果x是数据框，那么把数据框中未使用的因子删除。

在数据清理中，有时需要把因子转换为字符，通常情况下，使用as.character()函数，把因子转换为字符串：

使用as.numeric()或as.integer()函数可以把因子转换成对应的整数.

函数 cut() 能够把数值变量切成不同的块，然后返回一个因子.

参数注释：

例如，把身高数据，按照指定的切割点向量分割：

当需要把因子转换为有序因子时，要注意因子水平的顺序.

变量课归结为名义型、有序型或连续型变量。

名义型变量是美哟顺序之分的类别变量。有序型变量表示一种顺序关系，而非数量关系。连续型变量可以呈现为某个范围内的任意值，并同事表示了顺序和数量。

类别（名义型）变量和有序类别（有序型）变量在R中称为因子（factor）。因子决定了数据的分析方式以及如何进行诗句呈现。

函数（factor）以一个整数向量的形式存储类别值，整数的取值范围是[1...k]（其中k是名义型变量中唯一值的个数）同时一个由字符串（原始值）组成的内部向量将映射到这些整数上。

要表示有序型变量，需要为函数factor（）指定参数order=TRUE。

对于字符型向量，因子的水平默认依字母顺序创建。但按字母顺粗排序的因子很少能让人满意，可通过指定levels选项来默认覆盖默认排序。

数值型变量可以用levels和lables参数来编码成因子。

首先，以向量形式输入数据，然后将diabetes和status分别制定为普通因子和有序型因子。最后，将数据合并为一个数据框。函数str（object）可提供R中某个对象的信息，它清楚的显示diabetes是一个因子，而status是一个有序型因子，以及此数据框在内部是如何进行编码的。

函数summary（）会区别对待各个变量，它显示了连续性变量age的最小值、最大值、均值和各四分位数【四分位数（Quartile）也称四分位点，是指在统计学中把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分，其中每部分包含25%的数据。很显然，中间的四分位数就是中位数，因此通常所说的四分位数是指处在25%位置上的数值（称为下四分位数）和处在75%位置上的数值（称为上四分位数）。与中位数的计算方法类似，根据未分组数据计算四分位数时，首先对数据进行排序，然后确定四分位数所在的位置，该位置上的数值就是四分位数。与中位数不同的是，四分位数位置的确定方法有几种，每种方法得到的结果会有一定差异，但差异不会很大，该解释来源于百度百科】，并显示了类别型变量diabetes和status的频数值。

R中的因子用于存储不同类别的数据，可以用来对数据进行分组，例如人的性别有男和女两个类别，根据年龄可以将人分为未成年人和成年人，考试成绩可以分为优，良，中，差。

R 语言创建因子使用** factor() **函数，向量作为输入参数。

factor() 函数语法格式：

参数说明：

以下实例把字符型向量转换成因子：

我们可以看到输出sex的时候，除了显示字符串的内容以外，这里还有一行levels，证明sex有两个level（类别），female和male。这个顺序也是有讲究的，一般是按字母顺序来排列。我们也可以按照自己的需要来排列因子的顺序。以下实例设置因子水平为levels=c("male","female")：

你会发现现在levels的顺序就按照你设置的来显示了。

我们还能够设置显示的标签

可以看到虽然最初我们构建的向量里面包含的是male和female，最后因子却变成了man和woman。关于这个参数后面我们还会给大家举个更实际的，跟临床数据相关的例子。

R中的因子使用还是更广泛的，例如做差异表达分析的时候我们可以根据因子将数据分成两组。绘制boxplot的时候，我们也可以根据因子来将数据分成两组。更多的实例可以参考下面的视频讲解

☞ R语言基础培训

【R语言】R中的因子（factor）

因子变量水平数据函数

# 上一篇：# 手摸手教你使用树莓派 go语言点亮一个led

# 下一篇：C语言源程序文件的后缀是什么？