告警指标说明
QKE 与云监控 CloudSat 对接,通过在 CloudSat 中设置指标告警规则,您可以及时发现容器服务的异常状况,以保证您业务的稳定性和可靠性。
QKE 支持的告警指标如下表所示。
指标 | 监控周期 | 单位/取值 | 说明 | 配置建议 |
---|---|---|---|---|
正在运行的 Pod 数量 | 5分钟 | 整数,>= 0 | 集群节点上运行的 Pod 数量 | 根据节点类型进行配置,例如:4c/8g时,阈值建议配置为 20。 |
数据盘使用率 | 5分钟 | %,[0, 100] | 节点内数据盘使用量占总量之比 | 如果持续 1 分钟超过 80%,建议告警。 |
系统盘使用率 | 5分钟 | %,[0, 100] | 节点内系统盘使用量占总量之比 | 如果持续 1 分钟超过 80%,建议告警。 |
内存使用率 | 5分钟 | %,[0, 100] | 节点内内存使用量占节点总量之比 | 如果持续 1 分钟超过 50%,建议告警。 |
CPU 负载 | 5分钟 | 核,整数,>= 0 | 节点内已使用的内存 | 如果持续 1 分钟超过 CPU 核数,建议告警。 |
CPU 使用率 | 5分钟 | %,[0, 100] | 节点内 CPU 使用量占节点总量之比 | 如果持续 1 分钟超过 50%,建议告警。 |
apiserver 的连通性 | 5分钟 | 1 表示正常 0 表示异常 |
apiserver 是否能正常连接 | 如果持续 1 分钟,一直为 0(异常),则表示 apiserver 连接异常。 |
说明
监控指标的最大值、最小值、平均值及总和,是指在一个监控周期内,指标的最大值、最小值、平均值及总和。