β

《Hadoop十年回顾》学习笔记

老王 14 阅读
Hadoop在底层共用一份HDFS存储,上层有很多个组件分别服务多种应用场景,如:
确定性数据分析:主要是简单的任务统计任务,例如OLAP,关组快速响应,实现组件有Impala等;
探索性数据分析:主要是信息关联性发现任务,例如搜索,关注非结构化全量信息收集,实现组件有Search等;
预测性数据分析:主要是机器学习类任务,例如逻辑回归等,关注计算模型的先进性和计算能力,实现组件有Spark、MapReduce等;
数据处理及转化:主要是ETL类任务,例如数据管道等,关注IO吞吐率和可靠性,实现组件有MapReduce等。

对Hadoop定位和使用不同,可以将Hadoop业界公司划分为四类:
第一梯队:这类公司已经将Hadoop当作大数据战略武器。
第二梯队:这类公司将Hadoop产品化。
第三梯队:这类公司创造对Hadoop整体生态系统产生附加价值的产品。
第四梯队:这类公司消费Hadoop,并给规划比第一类和第二类小的公司提供基于Hadoop的服务。

hadoop非常适合的解决方案:
历史数据日志在线查询:传统的解决方案将数据存放在昂贵的关系型数据库中,不仅成本高、效率低,而且无法满足在线服务时高并发的访问量。
ETL任务:不少厂商已经提供了非常优秀的ETL产品和解决方案,并在市场中得到了广泛的应用。然而在大数据的场景中,传统ETL遇到了性能和QoS保证上的严重挑战。多数ETL任务是轻计算重IO类型的,而传统的IT硬件方案,如承载数据库的小型计算机,都是为计算类任务而设计的,即使使用了最新的网络技术,IO也顶多到达几十GB。
数据仓库offload:传统数据仓库中有很多离线的批量数据处理业务,如日报表、月报表等,占用了大量的硬件资源。而这些任务通常又是Hadoop所擅长的。

互联网以外的传统行业内部,现在大数据的应用和业务普遍尚处在探索阶段,虽然不少企业已经从数据和深度挖掘数据价值中得到了甜头,但更多的企业在实现数据分析时缺少业务的指导和支撑,可量化可规模化的大数据业务闭环尚未建立,更多是站在改善用户体验等角度改善现有运营效率。

技术的发展背后总是业务需求的驱动。但现在的大数据项目多是初级阶段的IT系统,目的是解决目前IT有限的能力限制和成本压力,并非针对业务创造新的价值,甚至没有对业务有直接互动和反馈。未来的需求是要使用实时数据建立更好的模型,使用机器学习等高级数据分析技术,能够改善用户体验、优化业务运营,实现大数据业务的闭环。

“后Hadoop时代”的下一代企业大数据平台:
1、内存计算时代的来临
2、统一数据访问管理
作者:老王
专注软件开发领域知识与创新。 .NET、Java、Php、Python、Go、NodeJs...... Go技术交流群:194583743 Python技术交流群:310949405 微软北京.Net
原文地址:《Hadoop十年回顾》学习笔记, 感谢原作者分享。

发表评论