扣丁学堂大数据hadoop培训十分钟带你读懂zookeeper

2017-11-10 15:26:30 703浏览

Zookeeper是什么?

ZooKeeper是Hadoop的开源子项目(GoogleChubby的开源实现)，它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、命名服务、分布式同步、组服务等。

Zookeeper的FastFail和Leader选举特性大大增强了分布式集群的稳定和健壮性，并且解决了Master/Slave模式的单点故障重大隐患，这是越来越多的分布式产品如HBase、Storm(流计算)、S4(流计算)等强依赖Zookeeper的原因。

引用官方的说法：“Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API”。

Zookeeper总体结构

Zookeeper服务自身组成一个集群(2n+1个服务允许n个失效)。Zookeeper服务有两个角色，一个是leader，负责写服务和数据同步，剩下的是follower，提供读服务，leader失效后会在follower中重新选举新的leader。

Zookeeper逻辑图如下:

客户端可以连接到每个server，每个server的数据完全相同。

每个follower都和leader有连接，接受leader的数据更新操作。

Server记录事务日志和快照到持久存储。

大多数server可用，整体服务就可用。

Zookeeper数据模型

Zookeeper表现为一个分层的文件系统目录树结构(不同于文件系统的是，节点可以有自己的数据，而文件系统中的目录节点只有子节点)。

圆形节点可以含有子节点，多边形节点不能含有子节点。一个节点对应一个应用，节点存储的数据就是应用需要的配置信息。

Zookeeper特点

顺序一致性：按照客户端发送请求的顺序更新数据。

原子性：更新要么成功，要么失败，不会出现部分更新。

单一性：无论客户端连接哪个server，都会看到同一个视图。

可靠性：一旦数据更新成功，将一直保持，直到新的更新。

及时性：客户端会在一个确定的时间内得到最新的数据。

应用场景

1、统一命名服务(如Dubbo服务注册中心)

Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，是阿里巴巴SOA服务化治理方案的核心框架，每天为2,000+个服务提供3,000,000,000+次访问量支持，并被广泛应用于阿里巴巴集团的各成员站点。

在Dubbo实现中：

服务提供者在启动的时候，向ZK上的指定节点/dubbo/${serviceName}/providers目录下写入自己的URL地址，这个操作就完成了服务的发布。

服务消费者启动的时候，订阅/dubbo/${serviceName}/providers目录下的提供者URL地址，并向/dubbo/${serviceName}/consumers目录下写入自己的URL地址。

注意，所有向ZK上注册的地址都是临时节点，这样就能够保证服务提供者和消费者能够自动感应资源的变化。另外，Dubbo还有针对服务粒度的监控，方法是阅/dubbo/${serviceName}目录下所有提供者和消费者的信息。

2、配置管理(如淘宝开源配置管理框架Diamond)

在大型的分布式系统中，为了服务海量的请求，同一个应用常常需要多个实例。如果存在配置更新的需求，常常需要逐台更新，给运维增加了很大的负担同时带来一定的风险(配置会存在不一致的窗口期，或者个别节点忘记更新)。zookeeper可以用来做集中的配置管理，存储在zookeeper鸡群中的配置，如果发生变更会主动推送到连接配置中心的应用节点，实现一处更新处处更新的效果。

3、分布式集群管理(Hadoop分布式集群管理)

这通常用于那种对集群中机器状态，机器在线率有较高要求的场景，能够快速对集群中机器变化作出响应。这样的场景中，往往有一个监控系统，实时检测集群机器是否存活。过去的做法通常是：监控系统通过某种手段(比如ping)定时检测每个机器，或者每个机器自己定时向监控系统汇报“我还活着”。这种做法可行，但是存在两个比较明显的问题：

(1)集群中机器有变动的时候，牵连修改的东西比较多。

(2)有一定的延时。

利用ZooKeeper有两个特性，就可以实现另一种集群机器存活性监控系统：

(1)客户端在节点x上注册一个Watcher，那么如果x?的子节点变化了，会通知该客户端。

(2)创建EPHEMERAL类型的节点，一旦客户端和服务器的会话结束或过期，那么该节点就会消失。

例如，监控系统在/clusterServers节点上注册一个Watcher，以后每动态加机器，那么就往/clusterServers下创建一个EPHEMERAL类型的节点：/clusterServers/{hostname}.这样，监控系统就能够实时知道机器的增减情况，至于后续处理就是监控系统的业务了。

4、分布式锁(强一致性)

这个主要得益于ZooKeeper为我们保证了数据的强一致性。锁服务可以分为两类，一个是保持独占，另一个是控制时序。

(1)所谓保持独占，就是所有试图来获取这个锁的客户端，最终只有一个可以成功获得这把锁。通常的做法是把zk上的一个znode看作是一把锁，通过createznode的方式来实现。所有客户端都去创建/distribute_lock节点，最终成功创建的那个客户端也即拥有了这把锁。

(2)控制时序，就是所有视图来获取这个锁的客户端，最终都是会被安排执行，只是有个全局时序了。做法和上面基本类似，只是这里/distribute_lock已经预先存在，客户端在它下面创建临时有序节点(这个可以通过节点的属性控制：CreateMode.EPHEMERAL_SEQUENTIAL来指定)。Zk的父节点(/distribute_lock)维持一份sequence,保证子节点创建的时序性，从而也形成了每个客户端的全局时序。

以上就是扣丁学堂浅谈zookeeper从入门到实战的简明介绍，如果你觉得本文对你有所帮助，请关注扣丁学堂官网、微信等平台，扣丁学堂IT职业在线学习教育平台为您提供权威的大数据Hadoop视频教程系统，通过扣丁学堂金牌讲师在线录制的第一套自适应Hadoop在线视频课程系统，让你快速掌握Hadoop从入门到精通大数据开发实战技能。

查看更多关于“大数据开发资讯”的相关文章>>

标签: 大数据培训 hadoop培训 Hadoop视频教程

上一篇扣丁学堂剖析大数据培训之如何创建一个大数据平台下一篇扣丁学堂带你一分钟了解大数据Hadoop是什么

扣丁学堂大数据hadoop培训十分钟带你读懂zookeeper

热门专区

课程推荐