创建因子的函数介绍如下:
factor(x, levels = sort(unique(x), na.last = TRUE),
labels = levels, exclude = NA, ordered = is.ordered(x))
levels 用来指定因子可能的水平(缺省值是向量x中互异的值);labels
用来指定水平的名字;exclude表示从向量x中剔除的水平值;ordered是
一个逻辑型选项用来指定因子的水平是否有次序。回想数值型或字符型
的x。
>factor(1:3)
[1] 1 2 3
Levels: 1 2 3
>factor(1:3, levels=1:5)
[1] 1 2 3
Levels: 1 2 3 4 5
>factor(1:3, labels=c("A", "B", "C"))
[1] A B C
Levels: A B C
>factor(1:5, exclude=4)
[1] 1 2 3 NA 5
Levels: 1 2 3 5
函数levels用来提取一个因子中可能的水平值:
>f <- factor(c(2, 4), levels=2:5)
>f
[1] 2 4
Levels: 2 3 4 5
>levels(f)
[1] "2" "3" "4" "5"
因子用来存储类别变量(categorical variables)和有序变量,这类变量不能用来计算而只能用来分类或者计数。因子表示分类变量,有序因子表示有序变量。生成因子数据对象的函数是factor(),语法是factor(data, levels, labels, ...),其中data是数据,levels是因子水平向量,labels是因子的标签向量。
1、创建一个因子。
例1:
>colour <- c('G', 'G', 'R', 'Y', 'G', 'Y', 'Y', 'R', 'Y')
>col <- factor(colour)
>col1 <- factor(colour, levels = c('G', 'R', 'Y'), labels = c('Green', 'Red', 'Yellow')) #labels的内容替换colour相应位置对应levels的内容
>col2 <- factor(colour, levels = c('G', 'R', 'Y'), labels = c('1', '2', '3'))
>col_vec <- as.vector(col2) #转换成字符向量
>col_num <- as.numeric(col2) #转换成数字向量
>col3 <- factor(colour, levels = c('G', 'R'))
2、创建一个有序因子。
例1:
>score <- c('A', 'B', 'A', 'C', 'B')
>score1 <- ordered(score, levels = c('C', 'B', 'A'))
>score1
[1] A B A C B
Levels: C <B <A
3、用cut()函数将一般的数据转换成因子或有序因子。
例1:
>exam <- c(98, 97, 52, 88, 85, 75, 97, 92, 77, 74, 70, 63, 97, 71, 98,
65, 79, 74, 58, 59, 60, 63, 87, 82, 95, 75, 79, 96, 50, 88)
>exam1 <- cut(exam, breaks = 3) #切分成3组
>exam1
[1] (82,98] (82,98] (50,66] (82,98] (82,98] (66,82] (82,98] (82,98] (66,82]
[10] (66,82] (66,82] (50,66] (82,98] (66,82] (82,98] (50,66] (66,82] (66,82]
[19] (50,66] (50,66] (50,66] (50,66] (82,98] (66,82] (82,98] (66,82] (66,82]
[28] (82,98] (50,66] (82,98]
Levels: (50,66] (66,82] (82,98]
>exam2 <- cut(exam, breaks = c(0, 59, 69, 79, 89, 100)) #切分成自己设置的组
>exam2
[1] (89,100] (89,100] (0,59] (79,89] (79,89] (69,79] (89,100] (89,100]
[9] (69,79] (69,79] (69,79] (59,69] (89,100] (69,79] (89,100] (59,69]
[17] (69,79] (69,79] (0,59] (0,59] (59,69] (59,69] (79,89] (79,89]
[25] (89,100] (69,79] (69,79] (89,100] (0,59] (79,89]
Levels: (0,59] (59,69] (69,79] (79,89] (89,100]
>attr(exam1, 'levels')
[1] "(50,66]" "(66,82]" "(82,98]"
>attr(exam2, 'levels')
[1] "(0,59]" "(59,69]" "(69,79]" "(79,89]" "(89,100]"
>attr(exam2, 'class')
[1] "factor"
#一个有序因子
>x <- factor(rep(1:5,3))
>ordered(x,labels = c('a1','a2','a3','a4','a5'))
[1] a1 a2 a3 a4 a5 a1 a2 a3 a4 a5 a1 a2 a3 a4 a5
Levels: a1 <a2 <a3 <a4 <a5
R中的因子用于存储不同类别的数据,可以用来对数据进行分组,例如人的性别有男和女两个类别,根据年龄可以将人分为未成年人和成年人,考试成绩可以分为优,良,中,差。
R 语言创建因子使用** factor() **函数,向量作为输入参数。
factor() 函数语法格式:
参数说明:
以下实例把字符型向量转换成因子:
我们可以看到输出sex的时候,除了显示字符串的内容以外,这里还有一行levels,证明sex有两个level(类别),female和male。这个顺序也是有讲究的,一般是按字母顺序来排列。我们也可以按照自己的需要来排列因子的顺序。以下实例设置因子水平为levels=c("male","female"):
你会发现现在levels的顺序就按照你设置的来显示了。
我们还能够设置显示的标签
可以看到虽然最初我们构建的向量里面包含的是male和female,最后因子却变成了man和woman。关于这个参数后面我们还会给大家举个更实际的,跟临床数据相关的例子。
R中的因子使用还是更广泛的,例如做差异表达分析的时候我们可以根据因子将数据分成两组。绘制boxplot的时候,我们也可以根据因子来将数据分成两组。更多的实例可以参考下面的视频讲解
☞ R语言基础培训
【R语言】R中的因子(factor)
因为R语言因子变量类型:使用factor函数将字符串向量转化为因子向量、使用as.factor函数将因子向量转化为字符串向量、使用as.numeric函数将因子向量转化为数值向量R语言数据类型(data types)
R语言有各种各样的数据类型,包括标量scaler、向量vector(数值向量、字符串向量、逻辑向量)、矩阵matrix、dataframe和列表list。
R语言因子(factor)数据类型、factor函数将字符串向量因子化(标称变量)、使用ordered函数基于levels参数对因子变量进行自定义排序称为序数因子变量、因子数据实战