在大数据中心需要什么样的技术？

2023-02-26 23:02:02Python010

在大数据中心需要什么样的技术？,第1张

大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段，处理的数据量通常是TB级，甚至是PB或EB级的数据，这是传统数据手段所无法完成的，其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等，汇集了当前IT领域热门流行的IT技术。1. Java编程技术

Java编程技术是大数据学习的基础，Java是一种强类型的语言，拥有极高的跨平台能力，可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等，是大数据工程师最喜欢的编程工具，因此，想学好大数据，掌握Java基础是必不可少的。

2. Linux命令

对于大数据开发通常是在Linux环境下进行的，相比Linux操作系统，Windows操作系统是封闭的操作系统，开源的大数据软件很受限制，因此，想从事大数据开发相关工作，还需掌握Linux基础操作命令。

3. Hadoop

Hadoop是大数据开发的重要框架，其核心是HDFS和MapReduce，HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算，因此，需要重点掌握，除此之外，还需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop高级管理等相关技术与操作！

4. Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务运行，十分适合数据仓库的统计分析。对于Hive需掌握其安装、应用及高级操作等。

5. Avro与Protobuf

Avro与Protobuf均是数据序列化系统，可以提供丰富的数据结构类型，十分适合做数据存储，还可进行不同语言之间相互通信的数据交换格式，学习大数据，需掌握其具体用法。

6. ZooKeeper

ZooKeeper是Hadoop和Habase的重要组件，是一个分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组件服务等，在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法。7. HBase

HBase是一个分布式的、面向列的开源数据库，他不同于一般的关系数据库，更适合于非结构化数据存储的数据库，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，大数据开发需掌握HBase基础知识、应用、架构以及高级用法等。

8.phoenix

Phoenix是用Java编写的基于JDBC API操作HBase的开源SQL引擎，其具有动态列、散列加载、查询服务器、追踪、事务、用户自定义函数、二级索引、命名空间映射、数据收集、行时间戳列、分页查询、跳跃查询、视图以及多租户的特性，大数据开发需掌握其原理和使用方法。

9.Redis

Redis是一个key-value存储系统，其出现很大程度补偿了memcached这类key/value存储的不足，在部分场合可以对关系数据库起到很好的补充作用，它提供了Java，C/C++，C#，PHP，JavaScript，Perl，Object-C，Python，Ruby，Erlang等客户端，使用很方便，大数据开发需掌握Redis的安装、配置及相关使用方法。

10.Flume

Flume是一款高可用、高可靠、分布式的海量日志采集、聚合和传输系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接收方（可定制）的能力。大数据开发需掌握其安装、配置以及相关使用方法。

11.SSM

SSM框架是由Spring、SpringMVC、MyBatis三个开源框架整合而成，常作为数据源较简单的web项目的框架。大数据开发需分别掌握Spring、SpringMVC、MyBatis三种框架的同时，再使用SSM进行整合操作。

12.Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统，其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka架构原理及各组件的作用和是用方法及相关功能的实现！

13.Scala

Scala是一门多范式的编程语言，大数据开发重要框架Spark是采用Scala语言设计的，想要学好Spark框架，拥有Scala基础是必不可少的，因此，大数据开发需掌握Scala编程基础知识！

14.Spark

Spark是专为大规模数据处理而设计的快速通用的计算引擎，其提供了一个全面、统一的框架用于管理各种不同性质的数据集和数据源的大数据处理的需求，大数据开发需掌握Spark基础、SparkJob、Spark RDD、sparkjob部署与资源分配、SparkshuffleSpark内存管理、Spark广播变量、SparkSQL SparkStreaming以及 Spark ML等相关知识。

15.Azkaban

Azkaban是一个批量工作流任务调度器，可用于在一个工作流内以一个特定的顺序运行一组工作和流程，可以利用Azkaban来完成大数据的任务调度，大数据开发需掌握Azkaban的相关配置及语法规则。

Ruby是非常流行的构建网站技术，最著名的是Twitter，Basecamp，Github，Airbnb，Slideshare，Groupon。

Rbuy和Python都是面向对象的语言，都是动态和灵活的，这些技术的主要区别在于他们解决问题的方式。Ruby提供了不同的方法。

最流行的Ruby框架是Ruby on

rails，它和Django非常类似，因为这两个框架都是为了解决相同的任务。如果我们比较这些技术的社区，你会意外的发现他们是一样的，然而形成这些团体的人是不同的。Python在数据科学和数学方面很受欢迎，你可以找到很多的引导者。

当你开发Web应用程序时，可以用RoR实现，也可以用Django，两者都是非常快速高效的，如果开发偏重于大量计算和数据处理的应用，则可以选择Python。

Python的支持者是世界上规模最大和构成最多样化的一个团队，不仅有数以千计的个人开发者，同时还有诸如谷歌、yandex、Dropbox、Mozilla、微软等巨头公司，他们和其他公司一起，已经用Python创建了世界最大的和最受欢迎的项目。

与Rbuy相比，Python更加流行，目前已广泛应用于人工智能、云计算开发、大数据开发、数据分析、科学运算、网站开发、爬虫、自动化运维、自动化测试等领域，就业范围广，薪资待遇高，且入门简单、语法清晰。

Docker技术在Ruby社区是有影响力的，我所知道的一些创业团队很早就在运用它来解决环境管理、持续集成以及部署的问题了。但是，也有一些同学尚未注意到这个技术，或者了解过后认为它不是很重要，所以我想讨论一下Docker对Ruby系技术的帮助。

有的人可能对Docker技术不太了解，不妨参考论坛里的这篇文章（https://ruby-china.org/topics/22004 ）以及肖德时写的系列文章（http://www.infoq.com/cn/articles/docker-core-technology-preview ）。 Docker 与 Vagrant

我一直很喜欢Vagrant这个工具，两三年前就用它来进行自己项目的环境维护，那时候主要是做测试，由于Vagrant将操作系统环境进行了标准化，我很容易就能让自己的应用系统以及相关的测试结果保持稳定。

Vagrant还有一个好处，Ruby社区比较偏爱Mac，但是线上的系统基本都是Linux，所以开发环境所做的测试是有疑问的，特别是遇到一些有so依赖的gem，这时一个和线上完全一样的环境就特别重要。

其实上面的表述不太准确，Vagrant也有各种provider，我所说的场景，基本上都是virtualbox的provider，所以这些地方正确的说法是 vagrant/virtualbox。

和Docker相比，vagrant/virtualbox组合的成本还是很高的，无论是setup一个环境还是reset一个环境，都需要一段时间的等待，Vagrant只是把virtualbox的操作DSL了而已，底层的做法没有变化。而Docker由于本质上就是一个进程，因此天生就是轻量级的。对于运行时间在分钟级别的自动化测试工作，Docker显然有很大的优势。

当然，也有人会认为Docker不能模拟完整的操作系统，不过这恐怕是一个优点而不是缺点。我在以前的文章中已经说过了，这里概述一下主要观点——

Docker简化了操作系统这个基础设施，让应用精简为其最核心的形态——携带有限资源的进程，在此基础上更有利于架构上的最佳实践。

而对Ruby工程师而言，这个“最佳实践”中肯定少不了的一条就是——微服务。

微服务

Ruby工程师中有很多就是Rails工程师，而Rails实际上更倾向于单体架构，因此后来社区的工程师们才需要在实际工作中总结1 to 30这样的实践。

其实微服务本身不是个教条，即使没有人教，我们也常常自发的去进行服务化改造，但是这个工作并不容易，主要是会受到一些问题的掣肘，比如运维复杂度和系统测试成本会大幅度上升等等。

处理这些困难，首先当然是看是否必要，一些简单场景我们也可以用单体架构直接搞定，但是我们很容易会注意到，这两年大家越来越多的提到了微服务或者服务化，这背后其实是有趋势的——各种业务形态都在朝着互联网级的用户规模推进，同时大家都在努力从每一个用户的各种维度上挖掘价值（这导致了大数据的需求），这些场景变得越来越常见，单体架构是难以支持的。

既然微服务或者服务化不可避免，那么就要有相应的对策，虽然Ruby社区也有很多人在不同问题点上针对微服务进行改进（比如完善异步化框架，以及对服务协议的探索等），但是在基础设施层面，Docker是最重要的武器，没有之一！

对Ruby工程师来说，Docker能做两件事：约束边界和建立通用基础服务。

约束服务边界

Ruby项目Docker化，并不是简单换个虚拟机那么简单，我们会面对拆分的压力，相信很多人尝试用Dockerfile来描述自己的项目的时候都会觉得束手束脚，但这些地方其实是促使我们想清楚——这个应用到底要做什么？它和外界是什么关系？对于外界的变化它如何响应？失败后怎样恢复？

这类的问题对系统架构非常重要。比如应用到底要做什么，这是让工程师去思考系统的目标，无论是提供web服务，管理调度后台任务，还是提供实时分析，它们都应该有一个尽可能单一的目标，在这个基础之上，我们建立的服务才有可能是易测试、易扩展和易维护的。

其它问题也类似，这些地方以前如果没有留意，很可能不是没问题，而是没意识到，使用Docker有助于我们意识到这些问题。

另外补充一点，由于Ruby项目不能完全脱离动态库依赖（java大都可以），本身的打包机制又没有自包含结构（gem+bundle不包括动态库，相比之下，Golang是静态联编的），在分布式环境中的交付和软件包分发其实是有着先天不足的，Docker的Image恰好补上了这一块，简直是睡觉时候有人送枕头了。建立通用基础服务

当我们将应用系统分裂为各种服务并明确其边界以后，就出现了“分久必合”的问题，这很自然，服务化改造并不是各行其是，应用之间还是要协作，而对应用的运维——服务发现、水平扩展、容错等等——都需要基础设施的支持。

以前，对于这种运维基础设施，各公司甚至同一个公司的各个团队的做法都千差万别，但是借助Docker以及周边的生态圈，我们可以很容易的得到通用的服务发现框架，享受自动的部署和弹性扩展。

更好的消息是，这些基础服务是通用的——不但不关心是rails还是sinatra，甚至根本不关心是不是Ruby。

这也很好理解，Docker是对进程这个操作系统工作单元进行了简化约束，而进程的概念本来就是与语言和框架无关的。

这使得Ruby工程师以及Ruby项目可以更为自由的选择合适的技术去扩展公司的产品线。

延伸技术框架

Ruby 刚出来的时候，有很多来自 Java 社区的工程师加入其中（我也算是其中之一吧），很多人最大的感受是——视野被打开了。曾经象口号一样的“all in java”变成了落后的标志，大家意识到，一把钥匙开一把锁，用最合适的技术针对性的解决问题才是聪明的做法，单纯排斥某种技术或者语言框架并不明智。

这个道理在Ruby/RoR应用开发中也不例外，但是不少人在使用了几年Ruby以后都会遇到一个问题——“Ruby确实很适合开发Web，但是现在有些问题需要使用XX技术，而我们的系统严重依赖Ruby环境，这该怎么办呢？”

我认为问题就出在“系统严重依赖Ruby环境”上，研发的基础设施，比如配管、自动化测试、打包、部署，不应该仅满足一种技术或是语言，它一开始就要考虑到通用性，否则我们就只能“手里拿着锤子，看谁都像钉子”。

Docker本身和语言无关，它唯一的约束大概就是要运行在Linux上，这个对互联网服务端系统来说也算是标准了，问题不大。所以，我们应该以Docker为核心打造研发的基础设施，这将是未来的一笔重要投资。

当然，为未来画饼是危险的，不过还好，Docker领域的创业很活跃，有很多团队和公司已经做了相当多的基础工作，对于Ruby工程师和Ruby创业团队，去用现成的基础设施其实更方便。

数据框架技术都是分布式

# 上一篇：go语言能做什么？

# 下一篇：R语言字符串处理常用函数