告警管理
用户可以在告警管理模块,通过设置告警规则,当告警被触发时,平台自动向指定人员推送告警邮件/短信,使业务问题有机会得到及时处理
,提高系统的可靠性。(此模块只支持指标告警)
INFO
当前告警管理存在告警规则创建不灵活、告警通知文本缺少对资源的描述、告警处理缺少闭环管理等问题,信云+拟定于24年7月与智能一体化运维平台对接,以解决这些问题,增强运维管理体验。
已创建的告警会尽量平滑迁移,若有影响会提前通知。
1. 告警组管理
告警管理-告警组管理-创建告警组,为告警组起名,并选择告警通知人,完成创建。
创建成功后,可以在列表中查看和修改告警组。
TIP
请务必检查告警通知人的“手机号”和“邮箱”这两列是否有数,若没数则此人将接收不到告警,需联系zhuangxinyu1维护。
2. 创建告警
可以看到生产环境已经默认为每个项目创建了存储卷容量使用率告警,按需修改告警通知组即可。
A 模板创建
告警管理-告警规则-创建告警,一般可以直接选择“模板创建”,步骤如下:
告警对象请选择监控的服务,可以多选;
执行频率和持续时间按需调整,点击
小问号
理解参数作用,保证执行频率>=60s,持续时间≥执行频率
;选择告警级别;
级别 紧急程度 通知方式 一级 高(需要立刻介入处理) 短信 二级 中 邮件 三级 低(知晓此事但无需立刻处理) 邮件 选择告警指标和告警阈值,可添加多行;
指标名称 适用场景 配置建议 最近3分钟健康检查失败次数 3分钟内就绪健康检查和存活健康检查失败次数之和 (1)建议配置;(2)编辑服务配置了健康检查,此告警才有用。 容器(无状态)/有状态)副本数匹配检查 因为节点资源不足、项目配额不足、镜像拉取失败、程序一启动就崩溃等原因,新pod无法创建或处于CrashLoopBackOff状态,导致服务新版本可用副本数≠期望的副本数。 (1)建议配置,尤其是单副本服务;(2)持续时间>正常启动服务时间才能避免误告警;(3)有状态还是无状态不要选错了。 最近10分钟Pod重启次数之和 10分钟内重启次数之和 (1)建议配置;(2)一般设置低级别,事后追溯pod重启原因;(3)若短时间内连续告警,需要尽快介入。 CPU利用率 CPU利用率高,表示此时程序很忙,可能已经响应缓慢 非必需。如果配置了健康检查失败告警,则此告警可以不设置,或者告警级别低。 内存利用率 内存利用率高,有oom killed风险,可能频繁回收缓存页导致程序缓慢 非必需。告警阈值建议不小于95%。 POD发送网络包速度 过去两分钟每秒发送的字节数 非必需。如出现过出站流量猛增异常,因此想要监测。 POD接收网络包速度 过去两分钟每秒接收的字节数 非必需。如出现过入站流量猛增异常,因此想要监测。 容器sockets数 容器的网络套接字数量,和netstat -anultp数量基本一致 非必需。对于nginx服务,worker_connections参数不能小于socket数量,可将前者的70%作为告警阈值。 容器线程数 容器的线程数量,和ps -xH数量基本一致 非必需。如出现过线程数量猛增异常,因此想要监测。 pod被节点异常驱逐 比如由于pod消耗了太多非PVC磁盘,造成节点磁盘紧张,此pod会被驱逐。pod被驱逐后会自动重新创建,但是要手动删除被终止的pod信息。 非必需。低级别告警即可,一般不处理也不影响运行。 持续x分钟不健康状态将下线,勿配置将下线,勿配置点击下一步;
选中告警通知组,可多选;
留观时长、重复发送频率、最大发送次数按需设置,保证
留观时长≥60s
,一般最大发送次数=1
(即告警未恢复不重复发通知)。
B 自定义创建
若平台提供的告警规则模板不能满足您的需求,可以采用自定义创建告警,步骤如下:
(可跳过)点击“更多监控指标”,进入夜莺上的监控大盘;
(可跳过)在大盘里直接获取想要的指标名称
(可跳过)务必替换$namespace和$container为真实值,并加上阈值判断;
(必须)在夜莺的“即时查询”调试验证语句语法正确(PromQL语法,请自行百度),效果符合预期;
在信云+容器服务-告警管理-告警规则-创建告警,选择自定义创建
将验证过的语句填入“Promql”,并参考 A模板创建 完成其他配置。
TIP
如果觉得应当模板化以推广到其他项目组,请联系平台管理员,谢谢。
创建告警后,在告警被触发时,您会及时收到告警通知。
2. 查看活跃告警和历史告警
可以在告警管理-活跃告警,查看当前未恢复的告警列表。
可以在告警管理-历史告警,查看历史产生的告警列表及告警恢复情况。
3.取消告警
A 停用
- 场景:立刻暂停单条告警规则的通知,不确定什么时间重新启用
- 操作:告警规则,操作列选择“停用”;恢复告警时选择“启用”
B 忽略
- 场景:立刻暂停单条告警规则的通知,有确定的忽略时长
- 操作:告警规则,操作列选择“忽略”,填写忽略时长&原因;达到忽略时长后会自动恢复告警;提前恢复告警需选择“取消忽略”
C 屏蔽
场景:暂停某一类(比如项目下所有;某个服务的所有;使用某类告警模板的所有)告警规则的通知,有确定的开始&结束时间
操作:屏蔽告警,点击“新建屏蔽规则”,填写屏蔽时间窗口&原因&事件标签;达到结束时间后会自动恢复告警;提前恢复告警时点击“删除”屏蔽规则
D 删除
- 场景:永久删除一条告警规则,无法恢复
- 操作:告警规则,操作列选择“删除”
Q&A
如何支持应用指标告警?
A:(1)产生应用指标,上报应用指标,手册参考;(2)使用自定义告警。