zookeeper集群和kafka集群

本文介绍: 消息在分区按照偏移量存储，消费者可以独立读取每个分区的数据（存储生产者发布的数据）*3.0之后不依赖 zookeeper的核心：元数据由kafka 节点自己管理。zookeeper 默认自建的主题：_consumer _offset s。（只是打上“删除”的标记，并不是真正的删除，还保存在元数据中）leader一旦确定，后续的服务器都是追随者。可恢复性、缓冲、峰值的处理能力、异步通信。是每个消息在分区中唯一的标识。②分区：partition。①主题：topic，

（一）kafka

1、kafka3.0之前依赖于zo o keep e r

2、kafka3.0之后不依赖zo o keep e r，元数据由kafka 节点 自己 管理

（二）zo o keep e r

1、zo o keep er是一个 开源的、分布式的架构，提供协调服务（Ap a ch e 项目）

（1）基于 观察者 模式涉及的分布式 服务 管理 架构

（2）存储和管理 数据，分布式 节点上的服务接受观察者的注册，一旦分布式 节点上的数据发生变化，由zookeep er负责同时分布式 节点上的服务

2、zookeep er分为：领导者和追随者leader、follower组成的集群

（1）只要有一半以上的集群 存活，zookeeper集群就可以正常工作，适用于 安装 奇数台的服务 集群

（2）全局 数据一致，每一个zookeeper每一个几点都保存相同的数据，维护监控 服务的数据一致

（3）数据更新的原子性，要么都成功、要么都失败

（4）实时性，只要有变化，立即同步

3、zookeeper的应用 场景（记）

（1）统一 命名 服务：在分布式的环境下，对所有的应用和服务及女性统一 命名

（2）统一 配置管理：配置文件同步，kafka的配置文件被修改，可以 快速同步到其他节点

（3）统一 集群 管理（重点）：实时 掌握所有节点的状态

（4）服务器 动态上下线

（5）实现 负载 均衡，把访问的服务器的数据，发送到访问最少的服务器 处理 客户端的请求

4、zookeeper的选举机制：领导者和追随者

例：3台服务器：leader一旦确定，后续的服务器都是追随者

（1）A先启动，发起第一次选举，投票给自己，只有1票，不满半数，A的状态是look in g

（2）B启动，再发起一次选举，A和B分别投自己一票，交换选票信息，（my id）A发现B的m y i d比A大，A的这一票转而投给B（A 0;B 2），没有半数以上结果，A、B会进入 look in g（B有可能成为leader，C也就成为follower）

（3）C启动，C的m y i d 最大，A和B都会把票投给C（A0;B0;C3），C的状态变为leader，A和B变成follower

（4）只有两种情况会重新开启选举

①初始化的情况会产生选举

②服务器之间和leader丢失了连接 状态

*若leader已存在，建立间接即可

*若leader不存在：

服务器 i d的胜出

EPOCH大，直接胜出

EPOCH相同，事务ID大的胜出

*EPOCH是每个leader任期时的代号，没有leader，大家的逻辑地位相同，每投完一次之后，数据是递增

*事务 i d是标识服务器的每一次变更，每变更一次 事务 i d就变化一次

*服务器i d，每一个zookeeper 集群中的机器都有一个 i d，每台 机器不重复，和m y i d保持一致

（三）部署zookeeper

20.0.0.10	zookeeper+kafka（2核4G）
20.0.0.20	zookeeper+kafka（2核4G）
20.0.0.30	zookeeper+kafka（2核4G）

1、部署 环境

升级Java：yum install -y java-1.8.0-openjdk java-1.8.0-openjdk–devel

cp zoo_sam ple.cfg zoo.cfg

2、修改zookeeper的配置文件

server.1=20.0.0.10:3188:3288

1：表示 每个zookeeper集群的初始myi d

20.0.0.10：服务器的ip 地址

3188：领导者和追随者之间交换信息的端口（内部 通信的端口）

3288：一旦leader丢失 响应，开启选举，3288就是用来 执行选举时的服务器之间的通信 端口

（1）创建 目录

（2）分配 myid

（3）编写zookeeper的启动脚本

chmod +x /etc/init.d/zookeeper

添加到系统服务中：chkconfig —add zookeeper

（四）消息 队列：kafka

1、为什么要引入消息队列（MQ）

（1）他也是一个 中间件，在高并发 环境下，同步请求来不及处理，来不及处理的请求会形成堵塞。比方说数据库就会形成行锁或者表锁，请求 线程满了，超标了，too mu ch connection，导致整个系统 雪崩

2、消息队列的作用：异步 处理 请求、流量削峰，应用解耦、可恢复性、缓冲、峰值的处理能力、异步 通信

（1）耦合：在软件系统当中，修改 一个 组件 需要 修改所有其他组件，高度耦合

（2）低度耦合：修改其中一个 组件，对其他影响不大，无需修改所有

（3）解耦：只要通信保证，其他的修改不影响整个集群，每一个组件可以 独立的扩展，修改，降低组件之间的依赖性，依赖点就是接口 约束，通过不同的端口，保证集群通信

（4）可恢复性：系统当中的有一部分组件消失，不影响整个系统，也就是说在消息队列当中，即使有一个处理消息的进程 失败，一旦恢复，还可以重新加入到队列当中，继续处理消息

（5）缓冲：可以控制和优化数据经过系统的时间和速度，解决生产消息和消费消息处理速度不一致的问题

（6）峰值的处理能力：消息队列在峰值的情况下，能够顶住突发的访问压力（核心作用），避免专门为了突发情况而对系统进行修改

（7）异步通信：允许用户把一个消息放入队列，但是不立即处理，等用户想处理的时候再处理

3、消息队列的模式

（1）点对点：一对一，消息的生产者发送消息到队列中，消费者从队列中提取消息，消费者取完之后，队列中被提取的消息将会被移除，后续的消费者不能再继续消费队列当中的消息，消息队列可以有多个消费者，但是一个消息只能由一个消费者提取（RABBITMQ）

（2）发布/订阅 模式：一对多（观察者模式），消费者提取数据之后，队列中的消息不会被清除。生产者发布一个消息到主题，所有消费者都是通过 主题获取消息

组件：

①主题：topic，topic类似一个数据流的管道，生产者把消息发布到主题，消费者从主题中订阅数据（获取数据），主题可以分区，每个 分区都有自己的偏移量

②分区：partition。每个主题都可以分成多个分区，每个分区是数据的有序 子集，分区可以允许kafka进行水平扩展，以处理大量数据。消息在分区按照偏移量存储，消费者可以独立 读取每个分区的数据（存储生产者发布的数据）

③偏移量：是每个消息在分区中唯一的标识，消费者可以通过 偏移量来跟踪 获取已读或者未读消息的位置，也可以提交 偏移量来记录已处理的信息

④生产者：producer，生产者把数据发送给kafka的主题当中，负责 写入消息

⑤消费者：consumer，从主题当中读取数据，消费者可以是一个也可以是多个，每个消费者有一个唯一的消费者组id，kafka通过消费者实现负载均衡和容错性

⑤经纪人：broker，每个kafka节点都有一个broker，每一个负责 一台kafka服务器，id唯一，处理存储主题分区当中的数据，处理生产和消费者的请求，维护元数据（zookeeper）

⑥zookeeper：zookeeper负责 保存元数据，元数据就是topic的相关信息（发布在哪台主机上，指定了多少分区，以及副本数，偏移量）。

zookeeper默认自建的主题：_c on sumer_offset s。

*3.0之后不依赖zookeeper的核心：元数据由kafka节点自己管理

（五）kafka的工作 流程

1、至少一次 语义：只要消费者进入，确保消息至少被消费一次

（六）zookeeper+kafka（2.7.0）——配置kafka（2.7.0）

2181：zookeeper对外服务的端口

9092：kafka的默认 端口

1、安装kafka

2、声明 环境变量

export KAFKA_HOME=/opt/kafka

export PATH=$PATH:$KAFKA_HOME/bin

3、修改 配置文件

4、设置kafka的启动脚本

chmod +x /etc/init.d/kafka

chkconfig —add kafka

service kafka start

5、设置主机映射（否则识别不到）

6、创建主题（在kafka的bin 目录下执行 命令）

kafka-topic s.sh —create –zookeeper 20.0.0.10:2181,20.0.0.20:2181,20.0.0.30:2181 —re pli cation-factor 2 —partit ions 3 —top ic hyde1

创建主题：创建主题：创建主题，必须创建分区，指定 副本

（1）在kafka的bin 目录下，是所有kafka可执行 命名 文件

（2）–zookeeper：指定的是zookeeper的地址和端口，保存kafka的元数据

（3）—repli cat ion-factor 2：指定分区的副本数（实现冗余）

（4）partit ion 3 ：指定主题的分区数

（5）–top ic test1 指定主题的名称。

查看主题的详细信息：

kafka-topics.sh —des cribe –zookeeper 20.0.0.10:2181,20.0.0.20:2181,20.0.0.30:2181

kafka-topics.sh —describe –zookeeper 20.0.0.10:2181,20.0.0.20:2181,20.0.0.30:2181 —top ic hyde1

7、发布消息和消费消息

（1）发布消息

kafka-console–producer.sh —broker–list 20.0.0.10:9092,20.0.0.20:9092,20.0.0.30:9092 —top ic hyde1

（2）消费消息

①全部获取：

kafka-console–consumer.sh —bootstrap–server 20.0.0.10:9092,20.0.0.20:9092,20.0.0.30:9092 —t op ic hyde1 –from-beginnin g

②实时 获取：

kafka-console-consumer.sh —bootstrap–server 20.0.0.10:9092,20.0.0.20:9092,20.0.0.30:9092 —t op ic hyde1

8、不同主机订阅不同主题

（1）指定创建主题

kafka-t opics.sh —create –zookeeper 20.0.0.20:2181 —repli cation-factor 1 —partitions 1 –top ic hyde2

（2）发布消息

kafka-console-producer.sh —broker–list 20.0.0.20:9092 –top ic hyde2

（3）消费消息

kafka-console-consumer.sh —bootstrap–server 20.0.0.20:9092 –topic hyde3 –from-beginnin g

9、修改分区数

kafka-topi cs.sh –zookeeper 20.0.0.20:2181 —alter –topic hyde2 —partitions 3

kafka-topi cs.sh —describe –zookeeper 20.0.0.20:2181 –topic hyde2

10、删除主题：（只是打上“删除”的标记，并不是真正的删除，还保存在元数据中）

kafka-topi cs.sh —delete –zookeeper 20.0.0.20:2181 –topic hyde2

11、查看内部保存的元数据信息

总结：

1、zookeeper：主要是分布式、观察者模式，统一 各个服务器节点的数据

在kafka当中，zookeeper主要是收集、保存kafka的元数据

2、kafka消息队列，订阅发布模式（速度快，处理大数据）

RABDIT MQ（轻量级）：实现rab bit MQ消息队列

3、kafka的组件

（1）主题

（2）分区（存储消息的位置）

（3）偏移量

（七）配置kafka（3.4.1）（还是依赖于zookeeper）

1、部署zookeeper组件

2、安装kafka（3.4.1）

3、修改配置文件

4、添加 环境变量

5、编辑启动脚本

chmod +x /etc/init.d/kafka

chkconfig —add kafka

service kafka start

6、创建主题

kafka-topi cs.sh —create —bootstrap–server 20.0.0.51:9092,20.0.0.52:9092,20.0.0.53:9093 —repli cation-factor 2 —partitions 3 –topic hyde1

7、查看主题

（1）查看 列表

kafka-topics.sh —list —bootstrap–server 20.0.0.51:9092,20.0.0.52:9092,20.0.0.53:9093

（2）查看主题详情

kafka-topics.sh —describe —bootstrap–server 20.0.0.51:9092,20.0.0.52:9092,20.0.0.53:9093

8、发布、消费消息

（1）发布消息

kafka-console-producer.sh —broker–list 20.0.0.51:9092,20.0.0.52:9092,20.0.0.53:9093 –topic hyde1

原文地址:https://blog.csdn.net/weixin _48145965/article/details/134718603

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_21060.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：suwngjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

（一）kafka

1、kafka3.0之前依赖于zookeeper

2、kafka3.0之后不依赖zookeeper，元数据由kafka节点自己管理

（二）zookeeper

1、zookeeper是一个开源的、分布式的架构，提供协调服务（Apache项目）

（1）基于观察者模式涉及的分布式服务管理架构

（2）存储和管理数据，分布式节点上的服务接受观察者的注册，一旦分布式节点上的数据发生变化，由zookeeper负责同时分布式节点上的服务

2、zookeeper分为：领导者和追随者leader、follower组成的集群

（1）只要有一半以上的集群存活，zookeeper集群就可以正常工作，适用于安装奇数台的服务集群

（2）全局数据一致，每一个zookeeper每一个几点都保存相同的数据，维护监控服务的数据一致

（3）数据更新的原子性，要么都成功、要么都失败

（4）实时性，只要有变化，立即同步

3、zookeeper的应用场景（记）

（1）统一命名服务：在分布式的环境下，对所有的应用和服务及女性统一命名

（2）统一配置管理：配置文件同步，kafka的配置文件被修改，可以快速同步到其他节点

（3）统一集群管理（重点）：实时掌握所有节点的状态

（4）服务器动态上下线

（5）实现负载均衡，把访问的服务器的数据，发送到访问最少的服务器处理客户端的请求

4、zookeeper的选举机制：领导者和追随者

例：3台服务器：leader一旦确定，后续的服务器都是追随者

（1）A先启动，发起第一次选举，投票给自己，只有1票，不满半数，A的状态是looking

（2）B启动，再发起一次选举，A和B分别投自己一票，交换选票信息，（myid）A发现B的myid比A大，A的这一票转而投给B（A 0;B 2），没有半数以上结果，A、B会进入looking（B有可能成为leader，C也就成为follower）

（3）C启动，C的myid最大，A和B都会把票投给C（A0;B0;C3），C的状态变为leader，A和B变成follower

（4）只有两种情况会重新开启选举

①初始化的情况会产生选举

②服务器之间和leader丢失了连接状态

*若leader已存在，建立间接即可

*若leader不存在：

服务器id的胜出

EPOCH大，直接胜出

EPOCH相同，事务ID大的胜出

*EPOCH是每个leader任期时的代号，没有leader，大家的逻辑地位相同，每投完一次之后，数据是递增

*事务id是标识服务器的每一次变更，每变更一次事务id就变化一次

*服务器id，每一个zookeeper集群中的机器都有一个id，每台机器不重复，和myid保持一致

（三）部署zookeeper

1、部署环境

升级Java：yum install -y java-1.8.0-openjdk java-1.8.0-openjdk–devel

server.1=20.0.0.10:3188:3288

1：表示每个zookeeper集群的初始myid

20.0.0.10：服务器的ip地址

3188：领导者和追随者之间交换信息的端口（内部通信的端口）

3288：一旦leader丢失响应，开启选举，3288就是用来执行选举时的服务器之间的通信端口

（1）创建目录

chmod +x /etc/init.d/zookeeper

（四）消息队列：kafka

1、为什么要引入消息队列（MQ）

（1）他也是一个中间件，在高并发环境下，同步请求来不及处理，来不及处理的请求会形成堵塞。比方说数据库就会形成行锁或者表锁，请求线程满了，超标了，too much connection，导致整个系统雪崩

2、消息队列的作用：异步处理请求、流量削峰，应用解耦、可恢复性、缓冲、峰值的处理能力、异步通信

（1）耦合：在软件系统当中，修改一个组件需要修改所有其他组件，高度耦合

（2）低度耦合：修改其中一个组件，对其他影响不大，无需修改所有

（3）解耦：只要通信保证，其他的修改不影响整个集群，每一个组件可以独立的扩展，修改，降低组件之间的依赖性，依赖点就是接口约束，通过不同的端口，保证集群通信

（4）可恢复性：系统当中的有一部分组件消失，不影响整个系统，也就是说在消息队列当中，即使有一个处理消息的进程失败，一旦恢复，还可以重新加入到队列当中，继续处理消息

（5）缓冲：可以控制和优化数据经过系统的时间和速度，解决生产消息和消费消息处理速度不一致的问题

（6）峰值的处理能力：消息队列在峰值的情况下，能够顶住突发的访问压力（核心作用），避免专门为了突发情况而对系统进行修改

（7）异步通信：允许用户把一个消息放入队列，但是不立即处理，等用户想处理的时候再处理

3、消息队列的模式

（2）发布/订阅模式：一对多（观察者模式），消费者提取数据之后，队列中的消息不会被清除。生产者发布一个消息到主题，所有消费者都是通过主题获取消息

组件：

①主题：topic，topic类似一个数据流的管道，生产者把消息发布到主题，消费者从主题中订阅数据（获取数据），主题可以分区，每个分区都有自己的偏移量

②分区：partition。每个主题都可以分成多个分区，每个分区是数据的有序子集，分区可以允许kafka进行水平扩展，以处理大量数据。消息在分区按照偏移量存储，消费者可以独立读取每个分区的数据（存储生产者发布的数据）

③偏移量：是每个消息在分区中唯一的标识，消费者可以通过偏移量来跟踪获取已读或者未读消息的位置，也可以提交偏移量来记录已处理的信息

④生产者：producer，生产者把数据发送给kafka的主题当中，负责写入消息

⑤消费者：consumer，从主题当中读取数据，消费者可以是一个也可以是多个，每个消费者有一个唯一的消费者组id，kafka通过消费者实现负载均衡和容错性

⑤经纪人：broker，每个kafka节点都有一个broker，每一个负责一台kafka服务器，id唯一，处理存储主题分区当中的数据，处理生产和消费者的请求，维护元数据（zookeeper）

⑥zookeeper：zookeeper负责保存元数据，元数据就是topic的相关信息（发布在哪台主机上，指定了多少分区，以及副本数，偏移量）。

zookeeper默认自建的主题：_consumer_offsets。

*3.0之后不依赖zookeeper的核心：元数据由kafka节点自己管理

（五）kafka的工作流程

1、至少一次语义：只要消费者进入，确保消息至少被消费一次

（六）zookeeper+kafka（2.7.0）——配置kafka（2.7.0）

2181：zookeeper对外服务的端口

9092：kafka的默认端口

1、安装kafka

2、声明环境变量

export KAFKA_HOME=/opt/kafka

export PATH=$PATH:$KAFKA_HOME/bin

3、修改配置文件

4、设置kafka的启动脚本

chmod +x /etc/init.d/kafka

chkconfig —add kafka

1、kafka3.0之前依赖于zo o keep e r

2、kafka3.0之后不依赖zo o keep e r，元数据由kafka 节点自己管理

（二）zo o keep e r

1、zo o keep er是一个开源的、分布式的架构，提供协调服务（Ap a ch e 项目）

（2）存储和管理数据，分布式节点上的服务接受观察者的注册，一旦分布式节点上的数据发生变化，由zookeep er负责同时分布式节点上的服务

2、zookeep er分为：领导者和追随者leader、follower组成的集群

（1）A先启动，发起第一次选举，投票给自己，只有1票，不满半数，A的状态是look in g

（2）B启动，再发起一次选举，A和B分别投自己一票，交换选票信息，（my id）A发现B的m y i d比A大，A的这一票转而投给B（A 0;B 2），没有半数以上结果，A、B会进入 look in g（B有可能成为leader，C也就成为follower）

（3）C启动，C的m y i d 最大，A和B都会把票投给C（A0;B0;C3），C的状态变为leader，A和B变成follower

服务器 i d的胜出

*事务 i d是标识服务器的每一次变更，每变更一次事务 i d就变化一次

*服务器i d，每一个zookeeper 集群中的机器都有一个 i d，每台机器不重复，和m y i d保持一致

1：表示每个zookeeper集群的初始myi d

20.0.0.10：服务器的ip 地址

（1）他也是一个中间件，在高并发环境下，同步请求来不及处理，来不及处理的请求会形成堵塞。比方说数据库就会形成行锁或者表锁，请求线程满了，超标了，too mu ch connection，导致整个系统雪崩

zookeeper默认自建的主题：_c on sumer_offset s。

6、创建主题（在kafka的bin 目录下执行命令）

kafka-topic s.sh —create –zookeeper 20.0.0.10:2181,20.0.0.20:2181,20.0.0.30:2181 —re pli cation-factor 2 —partit ions 3 —top ic hyde1

（1）在kafka的bin 目录下，是所有kafka可执行命名文件

（3）—repli cat ion-factor 2：指定分区的副本数（实现冗余）

（4）partit ion 3 ：指定主题的分区数

（5）–top ic test1 指定主题的名称。

kafka-topics.sh —des cribe –zookeeper 20.0.0.10:2181,20.0.0.20:2181,20.0.0.30:2181

kafka-topics.sh —describe –zookeeper 20.0.0.10:2181,20.0.0.20:2181,20.0.0.30:2181 —top ic hyde1

kafka-console–producer.sh —broker–list 20.0.0.10:9092,20.0.0.20:9092,20.0.0.30:9092 —top ic hyde1

kafka-console–consumer.sh —bootstrap–server 20.0.0.10:9092,20.0.0.20:9092,20.0.0.30:9092 —t op ic hyde1 –from-beginnin g

kafka-console-consumer.sh —bootstrap–server 20.0.0.10:9092,20.0.0.20:9092,20.0.0.30:9092 —t op ic hyde1

kafka-t opics.sh —create –zookeeper 20.0.0.20:2181 —repli cation-factor 1 —partitions 1 –top ic hyde2

kafka-console-producer.sh —broker–list 20.0.0.20:9092 –top ic hyde2

kafka-console-consumer.sh —bootstrap–server 20.0.0.20:9092 –topic hyde3 –from-beginnin g

kafka-topi cs.sh –zookeeper 20.0.0.20:2181 —alter –topic hyde2 —partitions 3

kafka-topi cs.sh —describe –zookeeper 20.0.0.20:2181 –topic hyde2

kafka-topi cs.sh —delete –zookeeper 20.0.0.20:2181 –topic hyde2

RABDIT MQ（轻量级）：实现rab bit MQ消息队列

kafka-topi cs.sh —create —bootstrap–server 20.0.0.51:9092,20.0.0.52:9092,20.0.0.53:9093 —repli cation-factor 2 —partitions 3 –topic hyde1