install.packages('gridExtra')
library(gridExtra)
#先画一个柱状图,观察friend_count这个变量的整体趋势,发现过度离散
p1<-ggplot(aes(x=friend_count),data=pf)+geom_histogram()
#log转化
p2<-p1+scale_x_log10()
#根号转化
p3<-p1+scale_x_sqrt()
#将三张图放在一个面板里
grid.arrange(p1,p2,p3,ncol=1)
最后我们发现,做了log转化的数据更接近正态分布。
四分位数百度(Quartile)是一种统计描述分析方法,用于描述任何类型的数据,尤其是偏态数据的离散程度,即将全部数据从小到大排列,正好排列在下 1/4 位置上的数就叫做下四分位数(按照%比,也就是 25%位置上的数)也叫做第一四分位数,排在上 1/4 位置上的数就叫上四分位数(按照%比,也就是 75%位置上的数)也叫做第三四分位数,同样排列在中间位置的就是中位数,也叫做第二四分位数,四分位数间距就是指上下四分位数之间的差值
内距IQR即 Inter-Quartile Range这是统计技术上的名词。内距又称为四分位差,是两个四分位数之差,即内距 IQR = 高四分位数 - 低四分位数。标准化四分位距——对一组按顺序排列的数据,上四分位值Q3与下四分位值Q1之间的差称为四分位距(IQR),即IQR=Q3-Q1。IQR乘以因子0.7413得标准化四分位距(Norm IQR)。
与方差、标准差一样,表示统计资料中各变量分散情形,但四分差更多为一种稳健统计(robust statistic)。
可以查查csape这个函数,我给你一段代码吧:x=1:7
y=[0
0.9
4.8
24.3
67.6
83.5
92.8
98.5
0]
%
以上是离散点的原始数据
pp=csape(x,y,'second')
%
样条曲线
%
second表示第二边界条件,取值对应y中第一个0和最后的0
x=1:0.1:7
y=ppval(p