R语言-数据转化(log和根号)

Python019

R语言-数据转化(log和根号),第1张

在我们实际建模拟合时,若数据中某个变量过度离散,则需要做转化,常见的有做log和根号两种方式。

install.packages('gridExtra') 

library(gridExtra) 

#先画一个柱状图,观察friend_count这个变量的整体趋势,发现过度离散

p1<-ggplot(aes(x=friend_count),data=pf)+geom_histogram()

#log转化

p2<-p1+scale_x_log10()

#根号转化

p3<-p1+scale_x_sqrt()

#将三张图放在一个面板里

grid.arrange(p1,p2,p3,ncol=1)

最后我们发现,做了log转化的数据更接近正态分布。

四分位数百度(Quartile)是一种统计描述分析方法,用于描述任何类型的数据,尤其是偏态数据的离散程度,即将全部数据从小到大排列,正好排列在下 1/4 位置上的数就叫做下四分位数(按照%比,也就是 25%位置上的数)也叫做第一四分位数,排在上 1/4 位置上的数就叫上四分位数(按照%比,也就是 75%位置上的数)也叫做第三四分位数,同样排列在中间位置的就是中位数,也叫做第二四分位数,四分位数间距就是指上下四分位数之间的差值

内距IQR即 Inter-Quartile Range这是统计技术上的名词。内距又称为四分位差,是两个四分位数之差,即内距 IQR = 高四分位数 - 低四分位数。标准化四分位距——对一组按顺序排列的数据,上四分位值Q3与下四分位值Q1之间的差称为四分位距(IQR),即IQR=Q3-Q1。IQR乘以因子0.7413得标准化四分位距(Norm IQR)。

与方差、标准差一样,表示统计资料中各变量分散情形,但四分差更多为一种稳健统计(robust statistic)。

可以查查csape这个函数,我给你一段代码吧:

x=1:7

y=[0

0.9

4.8

24.3

67.6

83.5

92.8

98.5

0]

%

以上是离散点的原始数据

pp=csape(x,y,'second')

%

样条曲线

%

second表示第二边界条件,取值对应y中第一个0和最后的0

x=1:0.1:7

y=ppval(p