大数据分析师面试必备:java与mysql解析

Python018

大数据分析师面试必备:java与mysql解析,第1张

一、大数据面试要准备一些应试须知:

1、让面试官记住你的名字。很多人在介绍自己名字的时候仅仅只有简单的一句“我叫某某某”,直到你的自我介绍完毕,面试官也没有记住你的名字,如果后续的自我介绍中没有突出的表现,那么这样的自我介绍注定是失败的。

2、告诉面试官和应聘职位相关的工作经历。在自我介绍自己的工作经历时,一定要注意哪些经历是和应聘职位相关,对应聘有帮助,哪些是毫无意义的。例如应聘技术人员的职位,我们主要讲从事本职工作的经历,如果有从事其他行业的经历,比如从事过销售,组织,管理工作的,也可以略微提一下,往往会对应聘起到一定的帮助。

3、在面试官面前展现性格阳光的一面。性格也是面试官需要考察的一项,一般来说活泼、外向的性格始终会受到大家的亲睐,所以我们在面试官面前一定要展示性格阳光的一面,即使内向,也不能表现出来。

4、简单的介绍一下自己的未来规划。未来规划这一项是为了告诉面试官,我是一个有计划、有目标、有理想的人,我参加面试是因为我对这份工作比较热爱,而不是为了混口饭吃而应聘这项工作。很多老板最怕找到以混日子为目的的员工。

5、注意扬长避短。扬长避短也就是说在面试时尽量选择自己好的方面来说,只说自己的优点,避免谈及自己的缺点。从人性的角度来讲,人们总是对负面的新闻感兴趣,因此在面试时,面试官会千方百计的发现你的缺点,你的弱项,如果我们主动将缺点暴露给对方,那么产生的影响往往是负面的。

细节决定成败,一个简单的自我介绍虽然只有短短的几分钟,但是其内容却包罗万象,因此在面试时自我介绍的完美与否是举足轻重的。

二、大数据面试要准备一些常见的面试题:

1、你会Java语言吗?熟悉到什么程度?

2、你最喜欢的编程语言是什么?为什么?

3、处理过的最大的数据量?你是如何处理他们的?处理的结果如何。

2、在处理大数据过程中,如何保证得到期望值?

3、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?

4、点击流数据应该是实时处理?为什么?哪部分应该实时处理?

6、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?

7、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?

8、Spark和Hive的区别,以及Spark和Hive的数据倾斜调优问题?

9、Hive和Hbase的区别?

10、MapReduce的思想,以及MapReduce调优问题?

11、你所了解的开源网站?

12、有两个集群,每个集群有3个节点,使用hive分析相同的数据,sql语句完全一样,一个集群的分析结果比另外一个慢的多,给出造成这种现象的可能原因?

13、Hbase的优化?

14、集群的版本,以及集群的瓶颈问题?

15、CRM项目,怎么跟Spark结合?

16、如何创建一个关键字分类?

17、海量日志数据,提取出某日访问百度次数最多的那个IP?

18、Hadoop和Spark处理数据时,出现内存溢出的处理方法?

19、有一个1G大小的一个文件,里面每一是一个词,词的大小不超过16字节,内存大小限制大小1M,返回频率最高的50个词。

20、你是如何处理缺少数据的?你是推荐使用什么样的处理技术,或者说你是用什么样的技术处理呢?