告警管理

 

告警指标说明

更新时间 2022-08-03

QKE 与云监控 CloudSat 对接,通过在 CloudSat 中设置指标告警规则,您可以及时发现容器服务的异常状况,以保证您业务的稳定性和可靠性。

QKE 支持的告警指标如下表所示。

指标 监控周期 单位/取值 说明 配置建议
正在运行的 Pod 数量 5分钟 整数,>= 0 集群节点上运行的 Pod 数量 根据节点类型进行配置,例如:4c/8g时,阈值建议配置为 20。
数据盘使用率 5分钟 %,[0, 100] 节点内数据盘使用量占总量之比 如果持续 1 分钟超过 80%,建议告警。
系统盘使用率 5分钟 %,[0, 100] 节点内系统盘使用量占总量之比 如果持续 1 分钟超过 80%,建议告警。
内存使用率 5分钟 %,[0, 100] 节点内内存使用量占节点总量之比 如果持续 1 分钟超过 50%,建议告警。
CPU 负载 5分钟 核,整数,>= 0 节点内已使用的内存 如果持续 1 分钟超过 CPU 核数,建议告警。
CPU 使用率 5分钟 %,[0, 100] 节点内 CPU 使用量占节点总量之比 如果持续 1 分钟超过 50%,建议告警。
apiserver 的连通性 5分钟 1 表示正常
0 表示异常
apiserver 是否能正常连接 如果持续 1 分钟,一直为 0(异常),则表示 apiserver 连接异常。

说明

监控指标的最大值、最小值、平均值及总和,是指在一个监控周期内,指标的最大值、最小值、平均值及总和。

这篇文档解决了您的问题吗?
0
0