R语言-数据转化(log和根号)

Python049

R语言-数据转化(log和根号),第1张

在我们实际建模拟合时,若数据中某个变量过度离散,则需要做转化,常见的有做log和根号两种方式。 install.packages('gridExtra')  library(gridExtra)  #先画一个柱状图,观察friend_count这个变量的整体趋势,发现过度离散 p1<-ggplot(aes(x=friend_count),data=pf)+geom_histogram() #log转化 p2<-p1+scale_x_log10() #根号转化 p3<-p1+scale_x_sqrt() #将三张图放在一个面板里 grid.arrange(p1,p2,p3,ncol=1)最后我们发现,做了log转化的数据更接近正态分布。

第一种方法是使用 R = 10^(-A) 的公式来计算 R 的值。因为 log10(1/R) = -A,所以 1/R = 10^(-A),即 R = 10^(-A)。

例如,如果 A = 0.5,那么 R = 10^(-A) = 10^(-0.5) = 0.3162。

第二种方法是使用 R = 1 / 10^A 的公式来计算 R 的值。因为 log10(1/R) = -A,所以 log10(1/R) = log10(1) - log10(R) = 0 - A,即 log10(R) = A。

由于 log10(R) = A,所以 R = 10^A,即 R = 1 / 10^A。

例如,如果 A = 0.5,那么 R = 1 / 10^A = 1 / 10^0.5 = 3.162。