zookeeper集群+kaafka集群_代码007(未授权)

本文介绍: kafka3.0之前依赖于 zookeeper zookeeper 开源，分布式的架构，提供协调服务（Ap a ch e 项目）基于观察者模式涉及的分布式服务管理架构存储和管理数据，分布式节点上的服务接受观察者的注册，一旦分布式节点上的数据发生变化，由zookeeper 负责通知分布式节点上的服务。

kafka3.0之前依赖于 zookeeper

zookeeper 开源，分布式的架构，提供协调服务（Ap a ch e 项目）

基于观察者模式涉及的分布式服务管理架构

存储和管理数据，分布式节点上的服务接受观察者的注册，一旦分布式节点上的数据发生变化，由zo o keep e r 负责通知分布式节点上的服务

1、分为领导者追随者 leader follow组成的集群

#所有服务器

#关闭防火墙和安全机制
#把zookeeper和kafka源码包拖到opt目录下

#升级java环境
yum install -y java-1.8.0-openjdk java-1.8.0-openjdk-devel

java -version

#解压源码包
cd /opt
tar -xf apache-zookeeper-3.5.7-bin.tar.gz 
mv apache-zookeeper-3.5.7-bin zookeeper
cd zookeeper/conf

cp zoo_sample.cfg zoo.cfg
vim zoo.cfg

tickTime=2000
#服务器与客户端之间心跳时间，2秒检测一次服务器和客户端之间的通信
initLimit=10
#领导者和追随者之间,初始连接时能够容忍的超时时间，10*2s 20s
syncLimit=5
#同步超时时间，领导者和追随者之间，同步通信超时的时间，5*2s，leader会认为follower丢失，移除集群
dataDIr=/opt/zookeeper/data
#保存数据的目录，需要单独创建
dataLogDir=/opt/zookeeper/logs
#保存日志的目录，需要单独创建
clientPort=2181
#端口号
server.1=20.0.0.10:3188:3288
server.2=20.0.0.11:3188:3288
server.3=20.0.0.12:3188:3288
#server.1=20.0.0.10:3188:3288
#1 每个zookeeper集群的初始myid
# 20.0.0.10	服务器的IP地址
# 3188 领导者和追随者之间交换信息的端口（内部通信的端口）
# 3288 一旦leader丢失响应，开启选举，3288就是用来选举时的服务之间通信端口

cd /opt/zookeeper
mkdir data logs

#给每台服务器分配myid
cd /data
echo 1 &gt; myid

cd /data
echo 2 &gt; myid

cd /data
echo 3 &gt; myid

#创建启动脚本
vim /etc/init.d/zookeeper

#!/bin/bash
#chkconfig:2345 20 90
#description:Zookeeper Service Control Script
ZK_HOME='/opt/zookeeper'
case $1 in
start)
	echo "---------- zookeeper 启动 ------------"
	$ZK_HOME/bin/zkServer.sh start
;;
stop)
	echo "---------- zookeeper 停止 ------------"
	$ZK_HOME/bin/zkServer.sh stop
;;
restart)
	echo "---------- zookeeper 重启 ------------"
	$ZK_HOME/bin/zkServer.sh restart
;;
status)
	echo "---------- zookeeper 状态 ------------"
	$ZK_HOME/bin/zkServer.sh status
;;
*)
    echo "Usage: $0 {start|stop|restart|status}"
esac

#给脚本权限
chmod +x /etc/init.d/zookeeper
chkconfig --add zookeeper

#重启服务
service zookeeper start
#查看状态(查看谁是主)
service zookeeper status

#解压kafka的源码包
tar -xf kafka

mv kafka

vim /etc/profile
export KAFKA_HOME=/opt/kafka
export PATH=$PATH:$KAFKA_HOME/bin

#10服务器
#修改kafka的配置文件
cd /opt/kafka
cd /config
vim server.properties

#21行
broker.id=1
#全局唯一编号，不可以重复
#28行
#如果全局遍布改变，不需要改
#42行
num.network.threads=3
#处理网络请求的线程数量，默认即可
#46行
num.io.threads=8
#处理磁盘的IO线程数量，一定要比硬盘数大
#50行
socket.receive
#发送套接字的缓冲区大小
54行

#接受者的接受套接字缓冲区大小（套接字就是端口）
58行

#请求套接字的缓冲区大小
#65行
log.dirs=/var/log/kafka
#日志路径
#70行
num.partitions=1
#在此kafka服务器上创建topic，默认分区数，如果指定了，这个配置无效了
#75行
num.recovery.threads.per.data.dir=1
#用来恢复，回收，清理data下的数据的线程数量，kafka的默认不允许删除主题的
#110行
log.retention.hours=168
#生产者发布的数据文件在主题当中保存的时间，168小时，默认是7天
#130行
zookeeper.connect=20.0.0.10:2181,20.0.0.11:2181,20.0.0.12:2181
#指定zookeeper集群

#11服务器
vim server.properties

#21行
broker.id=2
#65行
log.dirs=/var/log/kafka
#日志路径
#130行
zookeeper.connect=20.0.0.10:2181,20.0.0.11:2181,20.0.0.12:2181
#指定zookeeper集群

#12服务器
vim server.properties

#21行
broker.id=3
#65行
log.dirs=/var/log/kafka
#日志路径
#130行
zookeeper.connect=20.0.0.10:2181,20.0.0.11:2181,20.0.0.12:2181
#指定zookeeper集群


#kafka的启动脚本
vim /etc/init.d/kafka

#!/bin/bash
#chkconfig:2345 22 88
#description:Kafka Service Control Script
KAFKA_HOME='/opt/kafka'
case $1 in
start)
	echo "---------- Kafka 启动 ------------"
	${KAFKA_HOME}/bin/kafka-server-start.sh -daemon ${KAFKA_HOME}/config/server.properties
;;
stop)
	echo "---------- Kafka 停止 ------------"
	${KAFKA_HOME}/bin/kafka-server-stop.sh
;;
restart)
	$0 stop
	$0 start
;;
status)
	echo "---------- Kafka 状态 ------------"
	count=$(ps -ef | grep kafka | egrep -cv "grep|$$")
	if [ "$count" -eq 0 ];then
        echo "kafka is not running"
    else
        echo "kafka is running"
    fi
;;
*)
    echo "Usage: $0 {start|stop|restart|status}"
esac

#给权限
chmod +x /etc/init.d/kafka
#添加系统当中
chkconfig --add kafka

#启动kafka
service kafka start 
#查看kafka端口
netstat -antp | grep 9092

#所有可执行kafka的命令文件都要在bin目录下执行
cd /opt/kafka/bin

#创建主题
kafka-topics.sh --create --zookeeper 20.0.0.10:2181,20.0.0.11:2181,20.0.0.12:2181 --replication-factor 2 --partitions 3 --topic xiaobu 
#--zookeeper  指定的是zookeeper的地址和端口，保存kafka的元数据
#--replication-factor 2 定义每个分区的副本数
#--partitions 3  指定主题的分区数
# --topic xiaobu 指定主题名可以自定义

#查看主题
kafka-topics.sh --describe --zookeeper 20.0.0.10:2181,20.0.0.11:2181,20.0.0.12:2181

#查看指定的主题详细信息
kafka-topics.sh --describe --zookeeper 20.0.0.10:2181,20.0.0.11:2181,20.0.0.12:2181 --topic xiaobu

#Partition：分区编号	
#Leader：每个分区都有一个领导者（Leader），领导者负责处理分区的读写操作。
#在上述输出中，领导者的编号分别为 3、1、3。
#Replicas：每个分区可以有多个副本（Replicas），用于提供冗余和容错性。
#在上述输出中，Replica 3、1、2 分别对应不同的 Kafka broker。
#Isr：ISR（In-Sync Replicas）表示当前与领导者保持同步的副本。
#ISR 3、1分别表示与领导者同步的副本。

#做映射
vim /etc/hosts
20.0.0.10 test1
20.0.0.11 test2
20.0.0.12 test3

随便选择一个主机发布消息
kafka-console-producer.sh --broker-list 20.0.0.10:9092,20.0.0.11:9092,20.0.0.12:9092 --topic xiaobu

订阅信息（从头开始）
kafka-console-consumer.sh --bootstrap-server 20.0.0.10:9092,20.0.0.11:9092,20.0.0.12:9092 --topic xiaobu --from-beginning 

订阅信息（实时更新）
kafka-console-consumer.sh --bootstrap-server 20.0.0.10:9092,20.0.0.11:9092,20.0.0.12:9092 --topic xiaobu

在11上创建主题
kafka-topics.sh --create --zookeeper 20.0.0.11:2181 --replication-factor 1 --partitions 1 --topic xiaobu1
在10上订阅信息
kafka-console-consumer.sh --bootstrap-server 20.0.0.11:9092 --topic xiaobu1
在11上创建主题
kafka-topics.sh --create --zookeeper 20.0.0.12:2181 --replication-factor 1 --partitions 1 --topic xiaobu2
在10上订阅信息
kafka-console-consumer.sh --bootstrap-server 20.0.0.12:9092 --topic xiaobu2

kafka-topics.sh  --zookeeper 20.0.0.11:2181 --alter -topic xiaobu1 --partitions 3
#查看指定的主题详细信息
kafka-topics.sh --describe --zookeeper 20.0.0.11:2181 --topic xiaobu1

kafka-topics.sh --delete --zookeeper 20.0.0.12:2181 --topic xiaobu1
#此时命令执行后，只是打赏打上删除的标记，并没有完全删除。还是保存在元数据当中

cd zookeeper/bin
./zkCli.sh -server 20.0.0.11:2181
#-server 20.0.0.11:2181：指定需要登录的IP地址
ls /brokes/topics
#保存Kafka的元数据信息的位置。
#你无法对保存的元数据进行任何信息，只可以查询
get /brokes/topics
#查看元数据信息

#所有可执行kafka的命令文件都要在bin目录下执行
cd /opt/kafka/bin

#创建主题
kafka-topics.sh --create --bootstrap-server 20.0.0.13:9092,20.0.0.40:9092,20.0.0.41:9092 --replication-factor 2 --partitions 3 --topic test1

#查看主题
kafka-topics.sh --list --bootstrap-server 20.0.0.10:9092,20.0.0.11:9092,20.0.0.12:9092 
指定查看主题
kafka-topics.sh --list --bootstrap-server 20.0.0.10:9092,20.0.0.11:9092,20.0.0.12:9092 test


随便选择一个主机发布消息
kafka-console-producer.sh --broker-list 20.0.0.10:9092,20.0.0.11:9092,20.0.0.12:9092 test

#两个es主机
#把filebeat的源码包拖到opt目录下
解压
cd filebeat
yum -y insatll nginx
systemctl restart nginx 
vim /var/share/nginx/html/index.html

vim filebeat.yml
- type: log
  enabled: true
  paths:
    - /var/log/nginx/access.log
    - /var/log/nginx/error.log
  tags: ["nginx"]
  fields:
    service_name: 20.0.0.10_nginx
    log_type: nginx
    from: 20.0.0.10
output.kafka:
  enabled: true
  hosts: ["20.0.0.40:9092,20.0.0.41:9092,20.0.0.42:9092"]
  topic: "nginx"

运行filebeat

nohup ./filebeat -e -c filebeat.yml > filebeat.out &amp;


cd /opt/kafka.conf
input {
     kafka {
        bootstrap_servers => "20.0.0.40:9092,20.0.0.41:9092,20.0.0.42:9092"
        topics => "nginx"
        type => "nginx_kafka"
        codec => "json"
        解析json格式的代码
        auto_offset_reset => "earliest"
        从头拉取，latest
        decorate_event => true
        传递给es实例中的信息包含kafka的属性数据
     }
  }
 output{
     if "nginx" in [tags] {
        elasticsearch {
            hosts => ["20.0.0.10:9200","20.0.0.11:9200"]
            index => "%{[fields][service_name]}-%{YYYY.MM.dd}"
        }
     }
 }
 

logstash -f kafka.conf --path.data /opt/nginx1
 
 去kafka上查看
 kafka-topic.sh --list --bootstrap-server 20.0.0.40:9092,20.0.0.41:9092,20.0.0.42:9092