《R语言实战(第2版)》([美] Robert I. Kabacoff)电子书网盘下载免费在线阅读
资源链接:
链接:https://pan.baidu.com/s/1LGgzzjw4XSz159P0dCubFA
提取码:v2g0书名:R语言实战(第2版)
作者:[美] Robert I. Kabacoff
译者:王小宁
豆瓣评分:9.1
出版社:人民邮电出版社
出版年份:2016-5
页数:556
内容简介:
本书注重实用性,是一本全面而细致的R指南,高度概括了该软件和它的强大功能,展示了使用的统计示例,且对于难以用传统方法处理的凌乱、不完整和非正态的数据给出了优雅的处理方法。作者不仅仅探讨统计分析,还阐述了大量探索和展示数据的图形功能。新版做了大量更新和修正,新增了近200页内容,介绍数据挖掘、预测性分析和高级编程。
作者简介:
作者简介:
Robert I. Kabacoff
R语言社区著名学习网站Quick-R的维护者,现为全球化开发与咨询公司Management研究集团研发副总裁。此前,Kabacoff博士是佛罗里达诺瓦东南大学的教授,讲授定量方法和统计编程的研究生课程。Kabacoff还是临床心理学博士、统计顾问,擅长数据分析,在健康、金融服务、制造业、行为科学、政府和学术界有20余年的研究和统计咨询经验。
译者简介:
王小宁
中国人民大学统计学院14级硕士,16级博士,统计之都副主编,中国人民大学数据挖掘中心分布式计算负责人,研究兴趣包括统计机器学习和缺失数据。
刘撷芯
中国人民大学统计学院13级硕士,爱荷华大学商学院16级博士,中国人民大学数据挖掘中心核心成员之一,研究兴趣包括统计机器学习和文本分析。
黄俊文
2014年毕业于中山大学数学系,2016年毕业于加州大学圣地亚哥分校统计学专业,统计之都成员,易易网创始人之一,目前关注计算机科学和统计学的结合与应用,包括机器学习方法等。他致力于成为一个有趣的人。
数据准备
向一个数值型向量中添加一个字符串会将此向量中的所有元素转换为字符型。
is.datatype()用于判断数据类型,返回值为TRUE或FALSE,常见类型包括数值型numeric、字符型character、逻辑型logical、数据框data.frame等。 as.datatype()可将数据类型进行转化。
查看数据类型:mode(), class(), typeof(), storage.mode()
逻辑值转换成数值时,TRUE转换成1,FALSE转换成0。
函数:order(x,decreasing=F,na.last=NA)
x是要排序的数据,可以是数据框也可以是向量,decreasing=F是默认升序,在排序变量前加一个减号可得到降序排序结果,na.last =NA表示将NA元素移到最后,否则,将NA放在第一个。
函数:cbind(A, B) ,不需要指定一个公共索引对数据框进行合并。
cbind:根据列进行合并,即叠加所有列,m列的矩阵与n列的矩阵cbind()最后变成m+n列,合并前提:cbind(a, c)中矩阵a、c的行数必需相符。
merge(A, B) :横向合并两个数据框(数据集),在多数情况下,两个数据框是通过一个或多个共有变量进行联结的(即一种内联结,inner join)。
rbind(A, B) :纵向合并两个数据框(数据集),两个数据框必须拥有相同的变量,不过它们的顺序不必一定相同。
rbind:根据行进行合并,就是行的叠加,m行的矩阵与n行的矩阵rbind()最后变成m+n行,合并前提:rbind(a, c)中矩阵a、c的列数必需相符。
函数:dataframe[row indices, column indices] dataframe为要索引的数据框,[]中,前面的是行,后面是列。
在某一列或行的下标之前加一个减号(-)就会剔除那一列或行。
subset(x, subset, select, drop = FALSE, ...)
x是要进行操作的数据框,subset是对数据的某些字段进行操作,select是选取要显示的字段。
sample(x, size, replace = FALSE, prob = NULL)
x表示所要抽样数据,size表示抽样元素个数,replace为T表示采取有重复的抽样,prob用于指定抽样的概率。
参考资料:
数据准备
corrgram包corrgram()函数。
corrgram(x, order=, panel=, text.panel=, diag.panel=)
其中,x是一行一个观测的数据框。当order = TRUE时,相关矩阵将使用主成分分析法对变量
重排序,这将使得二元变量的关系模式更为明显。选项panel设定非对角线面板使用的元素类型。你可以通过选项 lower.panel和upper.panel来分别设置主对角线下方和上方的元素类型。而text.panel和diag.panel选项控制着主对角线元素类型。
下三角部分,默认地,蓝色和从左下指向右上的斜杠表示单元格中的两个变量呈正相关。反过来,红色和从左上指向右下的斜杠表示变量呈负相关。色彩越深,饱和度越高,说明变量相关性越大。相关性接近于0的单元格基本无色。上三角单元格用饼图展示了相同的信息。颜色的功能同上,但相关性大小由被填充的饼图块的大小来展示。正相关性将从12点钟处开始顺时针填充饼图,而负相关性则逆时针方向填充饼图。
可以使用colorRampPallette()函数来指定四种颜色。
colorRampPalette 函数支持自定义的创建一系列的颜色梯度。
马赛克图(Mosaic Plot)是利用列联表对分类数据进行的图形表示,它可观察两个或多个分类变量之间的关系。
整个图形的长、宽概率值均为1,其被划分为多个矩形,每个矩形边长与所关联分类变量的概率分布成比例。
在马赛克图中,嵌套矩形面积正比于单元格频率,其中该频率即多维列联表中的频率。颜色和/或阴影可表示拟合模型的残差值。
vcd包mosaic()函数绘制马赛克图
mosaic()函数可按如下方式调用
mosaic(table)
其中table是数组形式的列联表。
另外也可用
mosaic(formula, data=)
其中formula是标准的R表达式,data设定一个数据框或者表格。
shade=TRUE将根据拟合模型的皮尔逊残差值对图形上色。
legend=TRUE 将展示残差的图例。
图表解读:图3反映的2021年品种a相对b而言,品种a的v1值大的比例较b高,2020年,两品种v1值大小均衡;2020年v1值在N1条件下数值大的比例较N2高,2021年两氮水平平衡
参考资料: