【R语言入门与数据分析-5】 数据分析实战

Python016

【R语言入门与数据分析-5】 数据分析实战,第1张

老师的吐槽大会,乐死我了。hhh

regression,通常指用一个或者多个预测变量,也称自变量或者解释变量,来预测响应变量,也称为因变量、效标变量或者结果变量的方法

存在多个变量

AIC 考虑模型统计拟合度、用来拟合的参数数目

AIC值越小,越好

更多的变量:

图一:是否呈线性关系, 是

图二:是否呈正态分布,一条直线,正态分布

图三:位置与尺寸图,描述同方差性,如果方差不变,水平线周围的点应该是随机分布

图四:残差与杠杆图,对单个数据值的观测,鉴别离群点、高杠杆点、强影响点

模型建好,用predict函数对剩余500个样本进行预测,比较残差值,若预测准确,说明模型可以。

analysis of variance,简称ANOVA,也称为变异数分析。用于两个及两个以上样本均数差别的显著性检验。广义上,方差分析也是回归分析的一种,只不过线性回归的因变量一般是连续型变量。自变量是因子时,研究关注的重点通常会从预测转向不同组之间的差异比较。也就是方差分析。

power analysis,可以帮助在给定置信度的情况下,判断检测到给定效应值所需的样本量。也可以在给定置信度水平情况下,计算在某样本量内能检测到给定效应值的概率

拓展了线性模型的框架,包含了非正态因变量的分析。线性回归、方差分析都是基于正态分布的假设

-泊松回归 ,用来为计数资料和列联表建模的一种回归分析。泊松回归假设因变量是泊松分布,并假设它平均值的对数可被未知参数的线性组合建模

-logistic 回归

通过一系列连续型或者类别型预测变量来预测二值型结果变量是,logistic 回归是一个非常有用的工具。流行病学研究中用的多。

Principal Component Analysis,PCA,探索和简化多变量复杂关系的常用方法。 是一种数据降维技巧。可以将大量相关变量转化为一组很少的不相关变量。这些无关变量成为主成分。主成分是对原始变量重新进行线性组合,将原先众多具有一定相关性的指标,重新组合为一组的心得相互独立的综合指标。

探索性因子分析法 exploratory factor analysis,简称为EFA,是一系列用来发现一组变量的潜在结构的方法。通过找寻一组更小的、潜在的活隐藏的结构来解释已观测到的、显式的变量间的关系

因子分析步骤与PCA一致

啤酒与尿布

《R语言编程指南》(任坤)电子书网盘下载免费在线阅读

链接:https://pan.baidu.com/s/1sk_ULlgUZ3MRaYbvwV41Ow

提取码:KXQS  

书名: R语言编程指南

作者:任坤

出版社: 人民邮电出版社

译者: 王婷 / 赵孟韬 / 王泽贤

出版年: 2017-10

页数:519

内容简介

R是一个开源、跨平台的科学计算和统计分析软件包,它提供了丰富多样的统计功能和强大的数据分析功能。随着数据科学的快速发展,R已经成为数据分析领域非常流行的语言。本书通过15章内容,向读者全面讲解了R的基础知识和编程技巧。本书不仅介绍了R的安装、基本对象、工作空间管理、基本表达式、基本对象操作、字符串的使用等基础内容,还对数据处理、R的内部机制、元编程、面向对象编程、数据库操作、数据操作进行了讲解,同时也涉及高性能计算、网页爬虫和效率提升等重要主题。

作者简介  

在量化交易中使用R以及C++和C#已有4年的时间,他一直致力于开发有用的但社区尚未提供的R包(每天工作8~10小时)。他为其他作者开发的扩展包做出过很多贡献,指出其中存在的问题并给出改进建议。他也是中国R语言大会的重要嘉宾,在R会议上做过多次演讲。在众多社交媒体中,任坤也受到了广泛关注。