R语言 - 字符串与变量的转换

Python015

R语言 - 字符串与变量的转换,第1张

假设一个场景,我们要生成20个变量,变量名是a1到a20,那么我们如何通过一个循环来生成这20个变量。

表示将1赋值给变量1。

表示选取a1对应的变量的值。

我们只能手动将factorvariable转换为取值(0,1)的虚拟变量。所用的函数一般有model.matrix(),nnetpackage中的class.ind()。

最简单的方法,数据框的名称,加上你要提取的列数,示例如下:需要注意的是,如果只提取单列的话,得到的数据就变成了一个vector,而不再是dataframe的格式了。

在我们实际建模拟合时,若数据中某个变量过度离散,则需要做转化,常见的有做log和根号两种方式。 install.packages('gridExtra')  library(gridExtra)  #先画一个柱状图,观察friend_count这个变量的整体趋势,发现过度离散 p1<-ggplot(aes(x=friend_count),data=pf)+geom_histogram() #log转化 p2<-p1+scale_x_log10() #根号转化 p3<-p1+scale_x_sqrt() #将三张图放在一个面板里 grid.arrange(p1,p2,p3,ncol=1)最后我们发现,做了log转化的数据更接近正态分布。