KAFKA监控方法以及核心指标

本文介绍: 探讨kafka的监控数据采集方式以及需要关注的核心指标，便于日常生产进行监控和巡检。

探讨kafka的监控数据采集方式以及需要关注的核心指标，便于日常生产进行监控和巡检。

监控指标的采集方式使用promethues + kafka_exporter的方式采集kafka的指标，并通过promethues协议暴露出来。本文探讨kafka的采集监控方式，以及常用核心监控告警配置。

kafka_exporter的下载地址选择合适的版本下载，并解压，使用如下方法启动。

./kafka_exporter --kafka.server=127.0.0.1:9092 --web.listen-address=":9308"

确定metrics指标暴露出来后，就可以通过prometheus配置target进行指标采集

# 通过promethues协议暴露指标
curl http://localhost:9308/metrics

在这里插入图片描述

  - job_name: kafka
    static_configs:
      - targets: ['172.19.0.2:9308','172.19.0.3:9308','172.19.0.4:9308']
        labels:
          instance: kafka

指标名称	指标说明	参考值	备注
进程	进程	进程存在 == 1
UnderReplicatedPartitions	处于复制状态的parition	<= 1	在一个运行健康的集群中，处于同步状态的副本数（ISR）应该与总副本数（简称AR:Assigned Repllicas）完全相等，如果分区的副本远远落后于leader，那这个follower将被ISR池删除，随之而来的是IsrShrinksPerSec(可理解为isr的缩水情况，后面会讲)的增加。由于kafka的高可用性必须通过副本来满足，所有有必要重点关注这个指标，让它长期处于大于0的状态
ActiveControllerCount	活跃的controller数量	>=1	controller的职责是维护partition leader的列表，当遇到这个值等于0且持续了一小段时间（<1秒）的时候，必须发出明确的告警
OfflinePartitionsCount	离线的partition数量	==0	这个指标报告了没有活跃leader的partition数，任何partition都应该有一个Leader
OfflinePartitionsCount	离线的partition数量	==0	这个指标报告了没有活跃leader的partition数，任何partition都应该有一个Leader
UncleanLeaderElectionsPerSec	未清理领导选举/每秒	<= 1	这个指标如果存在的话很糟糕，这说明kafka集群在寻找partition leader节点上出现了故障
BytesInPerSec	Kafka的吞吐量	根据机器规格调整	不同机器的规格网卡带宽吞吐有差异，根据实际情况调整，如果单个broker的吞吐过高，意味着需要进行扩容了
BytesOutPerSec	Kafka的吞吐量	根据机器规格调整	不同机器的规格网卡带宽吞吐有差异，根据实际情况调整，如果单个broker的吞吐过高，意味着需要进行扩容了

指标名称	指标说明	参考值
Disk usage	磁盘使用情况	<= 70%
CPU usage	CPU使用情况	<= 60%
机器网卡入流量	机器网卡入流量	不同机器的规格网卡带宽吞吐有差异，根据实际情况调整，如果单个broker的吞吐过高，意味着需要进行扩容了
机器网卡出流量	机器网卡出流量	不同机器的规格网卡带宽吞吐有差异，根据实际情况调整，如果单个broker的吞吐过高，意味着需要进行扩容了

指标名称	指标说明	参考值	备注
MemHeapUsedM/MemHeapMaxM	Jvm 堆内内存使用率	<= 60%

指标名称	指标说明	参考值	备注
kafka_consumergroup_lag	每个消费者的消息延迟	<= 500	这个监控是partition维度，该指标跟topic的数据写入有关系，需要根据实际情况调整