Kafka运维监控的重点指标有哪些?

监控Kafka集群情况,主要关注以下几个方面的指标:

1. 副本健康

  • ISR和AR 集合大小
  • 副本之间的同步延迟
  • 未复制数据量

可以发现副本同步问题。

2. 分区负载

  • 每个Partition的消息负载
  • Partition大小

可以防止分区负载不均衡。

3. Throughput

  • Produce rate和fetch rate
  • 消息发送和接收速率
  • 前缀压缩比率

可以监控实时吞吐量及压缩率。

4.错误率

  • Produce 和fetch 失败率
  • 未复制数据率

可以发现连通性和IO问题。

5.客户端运行

  • Consumer数量和分配
  • 当前consumer offset

可以监控消费进度和负载分布。

6.资源消耗

  • CPU和内存占用
  • 已使用和最大堆空间
  • GC 次数

可以定位资源问题。

Kafka运维监控主要关注:

  1. 副本状态
  2. 分区负载
  3. 吞吐量
  4. 错误率
  5. 客户端运行
  6. 资源消耗

监控这些核心指标,可以有效地发现潜在问题,为后期维护提供数据支持。

主要监控副本状态、分区负载、吞吐量、错误率、客户端运行状况和资源消耗这些方面。