R语言如何批量的将连续型数据重编码为字符型因子。

Python09

R语言如何批量的将连续型数据重编码为字符型因子。,第1张

点菜单的编辑,替换,查找处输入 2010,替换处输入 2011,全部替换。 由于担心把不必要的2010替换为2011,可以输入类似 2010.xls 和 2011.xls,如果适用的话。

重新编码为相同变量的意义。答:重新编码为相同变量统称变量编码。变量编码的0-1编码,鲜少有看到其他的编码方式,所以就基于ucla statistical consulting(这里好像都是介绍stata的)的网页结合R语言,写一篇关于分类变量的编码

Coding Systems for Categorical Variables in Regression Analysis

​stats.idre.ucla.edu/spss/faq/coding-systems-for-categorical-variables-in-regression-analysis/

下面的示例都是基于以下生成的数据集:

# 代码高亮貌似没有R,看了一下只有Ruby比较相近……就这样将就以下吧,希望有懂的大佬给个指引怎么调整……

set.seed(999)

# 生成数据

df <- data.frame(class = c(rep("low",30),rep("mid",30),rep("high",30)),grade = c(rnorm(30,65,sd=10),rnorm(30,75,sd=5),rnorm(30,85,sd=5)))

# 数据

## 低组的均值

mean(df$grade[df$class == "low"]) # result: 61.58283

mean(df$grade[df$class == "mid"]) # result: 74.68185

mean(df$grade[df$class == "high"]) # result: 85.07108

print(mean(df$grade[df$class == "high"]) - mean(df$grade[df$class == "low"])) # result: 23.48825

print(mean(df$grade[df$class == "mid"]) - mean(df$grade[df$class == "low"])) # result: 13.09902

print(mean(df$grade))# result: 73.77858

print(mean(df$grade[df$class == "high"]) - mean(df$grade)) # result: 11.2925

print(mean(df$grade[df$class