Python语言:编写一些脚本时会用到。
Scala语言:编写Spark程序的最佳语言,当然也可以选择用Python。
Ozie,azkaban:定时任务调度的工具。
Hue,Zepplin:图形化任务执行管理,结果查看工具。
Allluxio,Kylin等:通过对存储的数据进行预处理,加快运算速度的工具。
必须掌握的技能:
Java高级(虚拟机、并发)、Linux 基本操作、hadoop(HDFS+MapReduce+Yarn )、 HBase(JavaAPI操作+Phoenix )、Hive(Hql基本操作和原理理解)、 Kafka、Storm/JStorm、Scala、Python、Spark (Core+sparksql+Spark streaming ) 、辅助小工具(Sqoop/Flume/Oozie/Hue等)
高阶技能6条:
机器学习算法以及mahout库加MLlib、 R语言、Lambda 架构、Kappa架构、Kylin、Alluxio
大数据开发工程师除具备专业的技能外,还要有学历(至少大专学历),学历是敲门砖。
R是一种用于统计计算的编程语言,R语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析、绘图、数据挖掘。
如果你是一个计算机程序的初学者并且急切地想了解计算机的通用编程,R 语言不是一个很理想的选择,可以选择 Python、C 或 Java。
R语言与C语言都是贝尔实验室的研究成果,但两者有不同的侧重领域,R 语言是一种解释型的面向数学理论研究工作者的语言,而 C 语言是为计算机软件工程师设计的。
R语言特点:
1、R 语言环境软件属于 GNU 开源软件,兼容性好、使用免费。
2、语法十分有利于复杂的数学运算。
3、数据类型丰富,包括向量、矩阵、因子、数据集等常用数据结构。
4、代码风格好,可读性强。
虽然R主要用于统计分析或者开发统计相关的软件,但也有人用作矩阵计算。其分析速度可媲美专用于矩阵计算的自由软件GNU Octave和商业软件MATLAB。