一. 数据分析,需要掌握哪些必备的统计学知识
描述统计学
1.平均值、中位数、众数
2.方差、标准差
3.统计分布:正态分布、指数分布、二项分布、卡方分布
推论统计学
1.假设检验
2.置信区间
3.显着性测试
实验设计
1.A/B测试
2.实验条件控制
3.双盲测试
4.幂律分布
二、数据分析的常用工具都有哪些?
SQL:数据科学家的必备技能
ECXCEL:容易上手,所见即所得,无需编程即可对数据进行运算和作图。
R:专门为数据科学而设计的语言,在数据科学领域比PYTHON略微受欢迎些。
Python:简单易学,功能强大且丰富,是大学教授中最受欢迎的编程语言。
Spark:专为大规模数据处理而设计的基于内存计算的引擎。
Tableau: 帮人们查看并处理数据,可进行快速分析、可视化并分享结果
推荐学python
从事数据科学所需要掌握的技能都有哪些?
要从事数据科学,我们需要从数据知识、计算机知识、专业知识这三个维度考虑
具有分析思维
基本的大学数学知识,包括微积分和线性代数。
统计学知识,包括描述统计学和推导统计学
编程基础,如 Python 、R语言、SQL语句
算法知识,如回归、分类、聚类算法等。
数据可视化,将你的分析结果展示出来。
领域专业知识,如商业知识、生物知识等,视具体分析的问题而定。
三.科学数据的工作流程是怎么样的?
虽然数据分析是一个不断迭代的过程,而且不同的步骤会有些交叉,但是我们依然可以将过程简化为以下七个步骤:
明确的问题
收集原始数据
数据清洗
数据探索
应用模型进行深度分析
传达分析结果
是分析过程可再现
幂律分布是指某个具有分布性质的变量,且其分布密度函数是幂函数(由于分布密度函数必然满足“归一律”,所以这里的幂函数,一般规定小于负1)的分布。
判断依据
在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。
判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法。
可得lny对lnx的经验回归直线方程,从而得到y与x之间的幂律关系式.在双对数坐标下的图形,由于某些因素的影响,前半部分的线性特性并不是很强,而在后半部分,则近乎为一直线,其斜率的负数就是幂指数。