怎样进行大数据的入门级学习?

Python015

怎样进行大数据的入门级学习?,第1张

1R programming

如果只是想初步了解一下R语言已经R在数据分析方面的应用,那不妨就看看这两本:

R in action:我的R语言大数据101。其实对于一个没有任何编程基础的人来说,一开始就学这本书,学习曲线可能会比较陡峭。但如果配合上一些辅助材料,如官方发布的 R basics

2Python

Think Python,Think

Stats,Think Bayes:这是Allen B. Downey写的著名的Think X

series三大卷。其实是三本精致的小册子,如果想快速地掌握Python在统计方面的操作,好好阅读这三本书,认真做习题,答案链接在书里有。这三本书学通了,就可以上手用Python进行基本的统计建模了。

3Exploratory Data Analysis 和 Data Visualization

Exploratory Data

Analysis:John

Tukey写于1977年的经典老教材,是这一领域的开山之作。如今EDA已经是统计学里的重要一支,但当时还是有很多人对他的工作不屑一顾。可他爱数据,坚信数据可以以一种出人意料的方式呈现出来。正是他的努力,让数据可视化成为一门无比迷人的技术。

4Machine Learning &Data Mining

这一块就不多说了,不是因为它不重要,而是因为它太太太重要。所以这一部分就推两本书,都是”世界名著“,都比较难读,需要一点点地啃。这两本书拿下,基本就算是登堂入室了。其实作为机器学习的延伸和深化,概率图模型(PGM)和深度学习(deep

learning)同样值得研究,特别是后者现在简直火得不得了。但PGM偏难,啃K.Daphne那本大作实在太烧脑,也没必要,而且在数据领域的应用也不算很广。deep

learning目前工业界的步子迈得比学术界的大,各个domain的应用如火如荼,但要有公认的好教材问世则还需时日,所以PGM和deep

learning这两块就不荐书了。

多元线性回归的计算方法之迟辟智美创作摘要在实际经济问题中,一个变量往往受到多个变量的影响.例如,家庭消费支出,除受家庭可支配收入的影响外,还受诸如家庭所有的财富、物价水平、金融机构存款利息等多种因素的影响,暗示在线性回归模型中的解释变量有多个.这样的模型被称为多元线性回归模型.多元线性回归的基来源根基理和基本计算过程与一元线性回归相同,但由于自变量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件.这里只介绍多元线性回归的一些基本问题.

但由于各个自变量的单元可能纷歧样,比如说一个消费水平的关系式中,工资水平、受教育水平、职业、地域、家庭负担等等因素城市影响到消费水平,而这些影响因素(自变量)的单元显然是分歧的,因此自变量前系数的年夜小其实不能说明该因素的重要水平,更简单地来说,同样工资收入,如果用元为单元就比用百元为单元所得的回归系数要小,可是工资水平抵消费的影响水平并没有变,所以得想法子将各个自变量化到统一的单元上来.前面学到的标准分就有这个功能,具体到这里来说,就是将所有变量包括因变量都先转化为标准分,再进行线性回归,此时获得的回归系数就能反映对应自变量的重要水平.这时的回归方程称为标准回归方程,回归系数称为标准回归系数,暗示如下:

Zy=β1Zx1+β2Zx2+…+βkZxk

注意,由于都化成了标准分,所以就不再有常数项a了,因为各自变量都取平均水平时,因变量也应该取平均水平,而平均水平正好对应标准分0,当等式两真个变量都取0时,常数项也就为0了.多元线性回归模型的建立多元线性回归模型的一般形式为Yi=β0+β1X1i+β2X2i+…+

β_{i}x_{i}h_{i}+υ_{i}

β

i

x

i

h

i

i

=1,2,…,n其中 k为解释变量的数目,

β_{j}

β

j

=(j=1,2,…,k)称为回归系数(regression coefficient).上式也被称为总体回归函数的随机表达式.它的非随机表达式为E(Y∣X1i,X2i,…Xki,)=β0+β1X1i+β2X2i+…+βkXki

5.9

百度文库VIP限时优惠现在开通,立享6亿+VIP内容

立即获取

多元线性回归的计算方法

多元线性回归的计算方法之迟辟智美创作

摘要

在实际经济问题中,一个变量往往受到多个变量的影响.例如,家庭消费支出,除受家庭可支配收入的影响外,还受诸如家庭所有的财富、物价水平、金融机构存款利息等多种因素的影响,暗示在线性回归模型中的解释变量有多个.这样的模型被称为多元线性回归模型.

多元线性回归的基来源根基理和基本计算过程与一元线性回归相同,但由于自变量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件.这里只介绍多元线性回归的一些基本问题.

但由于各个自变量的单元可能纷歧样,比如说一个消费水平的关系式中,工资水平、受教育水平、职业、地域、家庭负担等等因素城市影响到消费水平,而这些影响因素(自变量)的单元显然是分歧的,因此自变量前系数的年夜小其实不能说明该因素的重要水平,更简单地来说,同样工资收入,如果用元为单元就比用百元为单元所得的回归系数要小,可是工资水平抵消费的影响水平并没有变,所以得想法子将各个自变量化到统一的单元上来.前面学到的标准分就有这个功能,具体到这里来说,就是将所有变量包括因变量都先转化为标准分,再进行线性回归,此时获得的回归系数就能反映对应自变量的重要水平.这时的回归方程称为标准回归方程,回归系数称为标准回归系数,暗示如下:

Zy=β1Zx1+β2Zx2+…+βkZxk

注意,由于都化成了标准分,所以就不再有常数项a了,因为各自变量都取平均水平时,因变量也应该取平均水平,而平均水平正好对应标准分0,当等式两真个变量都取0时,常数项也就为0了.