如何让Hadoop结合R语言做大数据分析？

2023-02-27 16:08:02Python013

如何让Hadoop结合R语言做大数据分析？,第1张

R语言和Hadoop让我们体会到了，两种技术在各自领域的强大。很多开发人员在计算机的角度，都会提出下面2个问题。问题1: Hadoop的家族如此之强大，为什么还要结合R语言？\x0d\x0a问题2: Mahout同样可以做数据挖掘和机器学习，和R语言的区别是什么？下面我尝试着做一个解答：问题1: Hadoop的家族如此之强大，为什么还要结合R语言？\x0d\x0a\x0d\x0aa. Hadoop家族的强大之处，在于对大数据的处理，让原来的不可能（TB,PB数据量计算），成为了可能。\x0d\x0ab. R语言的强大之处，在于统计分析，在没有Hadoop之前，我们对于大数据的处理，要取样本，假设检验，做回归，长久以来R语言都是统计学家专属的工具。\x0d\x0ac. 从a和b两点，我们可以看出，hadoop重点是全量数据分析，而R语言重点是样本数据分析。两种技术放在一起，刚好是最长补短！\x0d\x0ad. 模拟场景：对1PB的新闻网站访问日志做分析，预测未来流量变化\x0d\x0ad1:用R语言，通过分析少量数据，对业务目标建回归建模，并定义指标d2:用Hadoop从海量日志数据中，提取指标数据d3:用R语言模型，对指标数据进行测试和调优d4:用Hadoop分步式算法，重写R语言的模型，部署上线这个场景中，R和Hadoop分别都起着非常重要的作用。以计算机开发人员的思路，所有有事情都用Hadoop去做，没有数据建模和证明，”预测的结果”一定是有问题的。以统计人员的思路，所有的事情都用R去做，以抽样方式，得到的“预测的结果”也一定是有问题的。所以让二者结合，是产界业的必然的导向，也是产界业和学术界的交集，同时也为交叉学科的人才提供了无限广阔的想象空间。问题2: Mahout同样可以做数据挖掘和机器学习，和R语言的区别是什么？\x0d\x0a\x0d\x0aa. Mahout是基于Hadoop的数据挖掘和机器学习的算法框架，Mahout的重点同样是解决大数据的计算的问题。\x0d\x0ab. Mahout目前已支持的算法包括，协同过滤，推荐算法，聚类算法，分类算法，LDA, 朴素bayes，随机森林。上面的算法中，大部分都是距离的算法，可以通过矩阵分解后，充分利用MapReduce的并行计算框架，高效地完成计算任务。\x0d\x0ac. Mahout的空白点，还有很多的数据挖掘算法，很难实现MapReduce并行化。Mahout的现有模型，都是通用模型，直接用到的项目中，计算结果只会比随机结果好一点点。Mahout二次开发，要求有深厚的JAVA和Hadoop的技术基础，最好兼有 “线性代数”，“概率统计”，“算法导论” 等的基础知识。所以想玩转Mahout真的不是一件容易的事情。\x0d\x0ad. R语言同样提供了Mahout支持的约大多数算法(除专有算法)，并且还支持大量的Mahout不支持的算法，算法的增长速度比mahout快N倍。并且开发简单，参数配置灵活，对小型数据集运算速度非常快。\x0d\x0a虽然，Mahout同样可以做数据挖掘和机器学习，但是和R语言的擅长领域并不重合。集百家之长，在适合的领域选择合适的技术，才能真正地“保质保量”做软件。\x0d\x0a\x0d\x0a如何让Hadoop结合R语言？\x0d\x0a\x0d\x0a从上一节我们看到，Hadoop和R语言是可以互补的，但所介绍的场景都是Hadoop和R语言的分别处理各自的数据。一旦市场有需求，自然会有商家填补这个空白。\x0d\x0a\x0d\x0a1）. RHadoop\x0d\x0a\x0d\x0aRHadoop是一款Hadoop和R语言的结合的产品，由RevolutionAnalytics公司开发，并将代码开源到github社区上面。RHadoop包含三个R包 (rmr，rhdfs，rhbase)，分别是对应Hadoop系统架构中的，MapReduce, HDFS, HBase 三个部分。\x0d\x0a\x0d\x0a2）. RHiveRHive是一款通过R语言直接访问Hive的工具包，是由NexR一个韩国公司研发的。\x0d\x0a\x0d\x0a3）. 重写Mahout用R语言重写Mahout的实现也是一种结合的思路，我也做过相关的尝试。\x0d\x0a\x0d\x0a4）.Hadoop调用R\x0d\x0a\x0d\x0a上面说的都是R如何调用Hadoop，当然我们也可以反相操作，打通JAVA和R的连接通道，让Hadoop调用R的函数。但是，这部分还没有商家做出成形的产品。\x0d\x0a\x0d\x0a5. R和Hadoop在实际中的案例\x0d\x0a\x0d\x0aR和Hadoop的结合，技术门槛还是有点高的。对于一个人来说，不仅要掌握Linux, Java, Hadoop, R的技术，还要具备软件开发，算法，概率统计，线性代数，数据可视化，行业背景的一些基本素质。在公司部署这套环境，同样需要多个部门，多种人才的的配合。Hadoop运维，Hadoop算法研发，R语言建模，R语言MapReduce化，软件开发，测试等等。所以，这样的案例并不太多。

不同列族分别存在不同的文件夹里。

与MySQL比较

首先Hbase是依赖于HDFS和zookeeper的。

Zookeeper分担了Hmaster的一部分功能，客户端进行DML语句的时候，都是先跟ZK交互。

RegionServer管理了很多的Region（表），RegionServer里面的WAL(HLog)是预写入日志，功能是防止内存中的数据没有来的及落盘时丢失。在Region里面管理的Store管理的是列族，Store里面有Mem Store（内存），Flush之后，删除内存中的数据，同时写入文件StoreFile Hfile,Hfile 其实是在DataNode里面的。

Hbase的读比写慢。

Hbase命名空间下有一张元数据表meta表和namespace表。meta表里面保存了要操作的表所在的位置等元数据。

（1）首先客户端向zk请求元数据表所在的RegionServer，zk返回给客户端meta表所在的regionServer。

（2）然后客户端再去对应的RegionServer查找meta表，找到真正要操作的表所在的regionServer，同时把meta表的信息缓存下来，加快后续的查询。

（3）然后客户端再向目标表所在的RegionServer发送put请求。先把数据写到Hlog里面，再写到内存MemStore,数据会在内存排序，然后向客户端发送ack，到这里对于客户端来说写数据已经结束了。再等到MemStore的刷写时机后，将数据刷写到Hfile.

注：meta表所在的位置信息保存在zk的meta-region-server节点上，客户端首先就是在这个节点上差询meta表所在的RegionServer。meta表里面的信息就是表与其对应的RegionServer的信息

这个stu表可能不止一条，因为stu表可能数据量大了之后根据RowKey进行了切分，并且可能会在不同的机器上。

不同的列族是在不同的文件夹。

MemStore刷写时机：

全局的MemStore的容量，默认是堆内存的40%。这个容量值会触发flush操作，所有的MemStore都要刷写，flush操作会阻塞读写操作。

会刷写并阻塞到到MemStore大小降到它的最大容量的95%

WAL日志的刷写时机：

可以设置日志的大小和数量，当达到一定数量，刷写到HDFS

（1）从zk找meta表所在的RegionServer

（2）从上述RegionServer里的meta表里找目标表所在的RegionServer，同时把meta表缓存，加速后面的查询。

（3）向目标表所在的RegionServer发送get请求。可以从block Cache，MemStore还有StoreFile里面查，具体从哪查根据时间戳，查时间戳大的，具体就都查然后merge取最新。

RegionServer里面有block Cache可以缓存磁盘的数据，加速查询。如果block Cache里面有，就将缓存和MemStore的数据merge然后取最新时间戳，没有就是把磁盘读的和MemStore里面的合并。所以hbase大多数读要走磁盘，所以读很慢。

每次刷写会生成新的Hfile，Hfile很小并且数量多的时候会影响查询的速度。所以要进行合并。合并分为minor Compaction和major Compaction

minor Compaction将临近的若干较小的Hfile合并成一个较大的Hfile，不会清理过期和删除的数据，major Compaction会将一个Store里面的所有Hfile合并成一个大的Hfile，并且会清理掉过期和删除的数据。

数据的读写可以不依赖Hmaster，只需要指定zookeeper，但是Hmaster负责region调度的元数据

但是DDL语言是要有Hmaster的

Flush和major Compact

（1）flush在同一个内存中清除过期或删除（删除标记也是一行数据）的数据，但是如果数据不同的版本分布在不同的memStroe，就不能清除。删除的标记在flush之后不会被删，但在后面的major compaction会把删除标记删除掉。

（2）major compaction 会清除过期或删除的数据。

默认情况下，每个Table起初只有一个Region，随着数据的不断写入，Region会自动拆分，两个子Region开始都会在一个Regionserver里面，但是出于负载均衡的考虑，Hmaster有可能会将某个Region传给其他的RegionServer。

Split的时机：

（1）当一个Region中的某个Store下的StoreFile的总大小查过某个值，由参数hbase.hregion.max.filesize设定（默认10g），该Region就会按照RowKey进行拆分。

（2）在新版本中这个值是Min（R^2*"hbase.hregion.memStore.flush.size（128M）","hbase.hregion.max.filesize"）,R是当前RegionServer中属于该Table的Region个数。分region是按照RowKey切分的。这会导致数据倾斜，就是因为切分的阈值在变化，导致切分之后的region数据量不均匀，导致热点的问题。所以在建表的时候要做预分区，就是用RowKey规划好多少个region，不让hbase自己的切分逻辑切分。

官方建议只用一个列族，防止不同的列族之间数据不均匀，单一列族数据量增多，导致全局的flush，数据量小的列族也要flush，这样会形成很多小的storeFile。

delete操作：

（1）设置RowKey：打的删除标记是deleteFamily，删除多个版本

（2）设置RowKey+Family：打的标记是deleteFamily，删除多个版本

（3）设置RowKey+family+column：有addColumn()和addColumns().addColumn是删除最新的版本或者删除指定时间戳的版本，删除标记是delete标记。addColumns是删除所有的版本或者删除指定时间戳或之前的版本，删除标记是deleteColumn

Delete的操作其实也是put操作，put的是删除的标记。

在Hbase中HMaster负责监控HRegionServer的生命周期，均衡RegionServer的负载，如果HMaster挂掉了，那个整个Hbase集群将处于不健康的状态，并且此时的工作状态不会维持太久。所以Hbase支持对HMaster的高可用配置。

在Hbase的conf目录下新建backup-masters文件，vim加入备份Master，比如slave01,slave02.在把文件分发到各个slave里，然后再启动hbase 就能实现HMaster的高可用了。

每一个region维护着StartRow和EndRow，如果加入的数据符合某个region维护的RowKey范围，则该数据交给这个region维护。那么依照这个原则，我们可以将数据所要投放的分区提前大致的规划好，以提高Hbase性能。

（1）手动设定预分区

手动设置RowKey分了5个region

（2）生成16进制序列预分区