dat <- read.xls("filename")# 最好使用CSV
dat <- dat # 去掉行名
dat <- dat# 去掉列名
ndat <- log(dat)
write.xls("filename")
大体就这样 ,可能读进来 需要调整
在我们实际建模拟合时,若数据中某个变量过度离散,则需要做转化,常见的有做log和根号两种方式。 install.packages('gridExtra') library(gridExtra) #先画一个柱状图,观察friend_count这个变量的整体趋势,发现过度离散 p1<-ggplot(aes(x=friend_count),data=pf)+geom_histogram() #log转化 p2<-p1+scale_x_log10() #根号转化 p3<-p1+scale_x_sqrt() #将三张图放在一个面板里 grid.arrange(p1,p2,p3,ncol=1)最后我们发现,做了log转化的数据更接近正态分布。