最初我是在“ A genome-based model for adjusting radiotherapy dose (GARD): a retrospective, cohort-based study ”这篇文章中看到的一个图。
它形似一张提琴图,展示了来自不同类型疾病患者个体的GARD得分的分布,图中红色点代表了中位数。但与常规提琴图不同的地方在于,提琴图中还添加了密度信息,即数值分布更多区域颜色更为明显。尽管提琴图的宽度足以代表数值的分布区间了,颜色的添加使其更为丰富多彩。
本节内容,就让我来讲一下这种“密度提琴图”如何在R中绘制。
其实,如果从提琴图的角度出发,即首先绘制一个提琴图,然后设法在其中标识出密度,则该图是很难实现的。这点我深有体会,好几个人折腾了老半天也没能成功地在提琴图中设置密度颜色。
因此,我们需要换个角度思考该图的绘制方法。设想一下,既然要表示密度,那么首先不妨绘制一个密度分布图观测数据。
有没有什么感触呢?
对的没错,密度提琴图可以视为两张“相反方向”的密度分布图的叠加。因此,我们再绘制一个反方向的。
最后,将两张图组合在一起,就获得密度提琴图了,是不是?
同时,也计算各个变量的中位数,并以红点的形式标注在图中。
这样,密度提琴图就得到了。和常规的提琴图相比,它是不是更漂亮呢?
作为一种语言进行统计分析,R有一个随机数生成各种统计分布功能的综合性图书馆。R语言可以针对不同的分布,生成该分布下的随机数。其中有许多常用的个分布可以直接调用。
在R中各种概率函数都有统一的形式,即一套统一的前缀+分布函数名:
d 表示密度函数(density)。
p 表示分布函数(生成相应分布的累积概率密度函数)。
q 表示分位数函数,能够返回特定分布的分位数(quantile)。
r 表示随机函数,生成特定分布的随机数(random)。
扩展资料:
注意事项:
1、使用了错误大小写:help()是正确的,其他都是错误的。
2、不要忘记使用必要的引号:install.packages(“gclus”)。
3、在函数调用时,不要忘记使用括号:help()。
4、在Windous上,路径名中使用的是\。
5、R拥有许多用于存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表。数据框是用来存储数据集的主要数据结构。
参考资料来源:百度百科-R语言
参考资料来源:百度百科-标准正态分布
参考资料来源:百度百科-散点图