R语言——因子

2023-02-27 09:39:01Python019

R语言——因子,第1张

变量课归结为名义型、有序型或连续型变量。

名义型变量是美哟顺序之分的类别变量。有序型变量表示一种顺序关系，而非数量关系。连续型变量可以呈现为某个范围内的任意值，并同事表示了顺序和数量。

类别（名义型）变量和有序类别（有序型）变量在R中称为因子（factor）。因子决定了数据的分析方式以及如何进行诗句呈现。

函数（factor）以一个整数向量的形式存储类别值，整数的取值范围是[1...k]（其中k是名义型变量中唯一值的个数）同时一个由字符串（原始值）组成的内部向量将映射到这些整数上。

要表示有序型变量，需要为函数factor（）指定参数order=TRUE。

对于字符型向量，因子的水平默认依字母顺序创建。但按字母顺粗排序的因子很少能让人满意，可通过指定levels选项来默认覆盖默认排序。

数值型变量可以用levels和lables参数来编码成因子。

首先，以向量形式输入数据，然后将diabetes和status分别制定为普通因子和有序型因子。最后，将数据合并为一个数据框。函数str（object）可提供R中某个对象的信息，它清楚的显示diabetes是一个因子，而status是一个有序型因子，以及此数据框在内部是如何进行编码的。

函数summary（）会区别对待各个变量，它显示了连续性变量age的最小值、最大值、均值和各四分位数【四分位数（Quartile）也称四分位点，是指在统计学中把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分，其中每部分包含25%的数据。很显然，中间的四分位数就是中位数，因此通常所说的四分位数是指处在25%位置上的数值（称为下四分位数）和处在75%位置上的数值（称为上四分位数）。与中位数的计算方法类似，根据未分组数据计算四分位数时，首先对数据进行排序，然后确定四分位数所在的位置，该位置上的数值就是四分位数。与中位数不同的是，四分位数位置的确定方法有几种，每种方法得到的结果会有一定差异，但差异不会很大，该解释来源于百度百科】，并显示了类别型变量diabetes和status的频数值。

Data Frame每一列有列名，每一行也可以指定行名。如果不指定行名，那么就是从1开始自增的Sequence来标识每一行。初始化使用data.frame函数就可以初始化一个Data Frame。比如我们要初始化一个student的Data Frame其中包含ID和Name还有Gender以及Birthdate，那么代码为：student<-data.frame(ID=c(11,12,13),Name=c("Devin","Edward","Wenli"),Gender=c("M","M","F"),Birthdate=c("1984-12-29","1983-5-6","1986-8-8”))另外也可以使用read.table() read.csv()读取一个文本文件，

一般给变量赋值用<-,在函数内部给形式参数赋值用=，一定要记住这一点，因为有时在函数内用<-给参数赋值，虽然不会报错，但结果可能并非你想要的，比如：

rep(1:3,each=2) rep(1:3,each<-2) 两条语句都不报错，但是返回结果是不一样的，因为在函数内部，忽略"<-"及它之前的参数名，所以 rep(1:3,each<-2) 相当于 rep(1:3,2)，2默认为是参数times的取值。

你的问题同样如此。

变量四分位数因子函数

# 上一篇：java中什么叫做线程？什么叫多线程？多线程的特点是什么

# 下一篇：C语言如何一行行读文件