监控Kafka集群情况,主要关注以下几个方面的指标:
1. 副本健康
- ISR和AR 集合大小
- 副本之间的同步延迟
- 未复制数据量
可以发现副本同步问题。
2. 分区负载
- 每个Partition的消息负载
- Partition大小
可以防止分区负载不均衡。
3. Throughput
- Produce rate和fetch rate
- 消息发送和接收速率
- 前缀压缩比率
可以监控实时吞吐量及压缩率。
4.错误率
- Produce 和fetch 失败率
- 未复制数据率
可以发现连通性和IO问题。
5.客户端运行
- Consumer数量和分配
- 当前consumer offset
可以监控消费进度和负载分布。
6.资源消耗
- CPU和内存占用
- 已使用和最大堆空间
- GC 次数
可以定位资源问题。
Kafka运维监控主要关注:
- 副本状态
- 分区负载
- 吞吐量
- 错误率
- 客户端运行
- 资源消耗
监控这些核心指标,可以有效地发现潜在问题,为后期维护提供数据支持。
主要监控副本状态、分区负载、吞吐量、错误率、客户端运行状况和资源消耗这些方面。