告警
发表于:2024-12-10
字数统计:1594 字
预计阅读6分钟
WHAT-告警是什么
定义
运维人员通过告警管理对系统自身或管理对象上报的告警或事件进行监控和管理。告警管理提供了丰富的监控和处理规则,还可以将故障通知给运维人员,帮助高效监控、快速定位和处理网络故障,从而保证业务正常运行。
告警和事件
系统自身或管理对象检测到自身存在异常或正常运行时的重要状态变化,将分别以告警或事件显示在告警管理界面中。管理对象指接入告警管理系统的对象或网元。告警和事件的定义等信息如表3-1所示。
表3-1 告警和事件
| 名称 | 含义 | 区别 | 共同点 |
|---|---|---|---|
| 告警 | 系统自身或管理对象检测到故障而产生的通知。 | 告警的产生预示着系统自身或管理对象发生了异常或故障;事件是系统自身或管理对象在正常运行状态下产生的通知。告警必须要处理,否则会导致业务异常;事件不需要处理,用来帮助分析、定位问题。用户可以在界面上对告警进行确认和清除;用户不能对事件进行确认和清除。 | 以通知方式提示用户。 |
| 事件 | 系统自身或管理对象在正常运行状态下产生且需要主动提示用户的通知。 |
告警级别
告警级别用来表示故障的严重程度、重要性和紧迫性,帮助运维人员在大量告警中快速识别告警的重要程度,采取相应的处理策略,运维人员也可以根据需要调整告警的级别。
告警的级别说明如表3-2所示。
表3-2 告警级别
| 告警级别 | 缺省颜色 | 说明 | 处理策略 |
|---|---|---|---|
| 紧急 | 已经影响业务,需要立即采取纠正措施。 | 需要紧急处理,否则有业务中断或系统瘫痪的风险。 | |
| 重要 | 已经影响业务,如果不及时处理会产生较为严重后果。 | 需要及时处理,否则会影响重要业务运行。 | |
| 次要 | 目前对业务影响轻微,但需要采取纠正措施,以防止更为严重的故障发生。 | 需要查找告警原因,消除故障隐患。 | |
| 提示 | 检测到潜在的或即将发生的影响业务的故障,但是目前对业务还没有影响。 | 可根据告警了解网络和网元的运行状态,视具体情况进行处理。 |
告警状态
告警的状态分类如表3-3所示。
表3-3 告警状态分类
| 状态名称 | 告警状态 | 说明 |
|---|---|---|
| 确认状态 | 已确认、未确认 | 初始确认状态为“未确认”。当用户已经看到此告警并纳入到处理计划中,此时对告警进行“确认”操作,告警变为“已确认”状态;当此告警暂时不处理但需要后续关注或者其他用户进行处理时,用户可以进行“反确认”操作,则告警恢复为“未确认”状态。用户也可以通过配置“自动确认规则”来实现告警自动确认。 |
| 清除状态 | 已清除、未清除 | 初始清除状态为“未清除”。当修复了引起告警的故障,对应的清除通知自动上报到告警管理系统后,告警状态将变为“已清除”。部分告警修复后,清除通知无法自动上报至告警管理系统,则用户需确认故障修复后手工执行“清除”操作。“已清除”告警的背景色在界面中显示为绿色。 |
| 维护状态 | 正常态、维护态 | 正常态:告警初始维护状态为正常态。维护态:因调测产生而非故障产生的告警,在监控或查询告警时,可通过过滤条件将维护态告警过滤掉,运维人员不用耗费时间关注这类告警。用户可通过配置“标识规则”将其设置为“维护态”,也可直接在当前告警列表中将此类告警设为维护。维护态包括:新建、扩容、升级、调测。 |
| 失效状态 | 有效告警、无效告警 | 有效告警:告警初始失效状态为有效。无效告警:运维人员通过经验判断为无用的告警。可通过配置“标识规则”将其设置为“无效”,也可直接在当前告警列表中将此类告警设为无效。在监控或查询告警时,可通过过滤条件将无效告警过滤掉,运维人员不用耗费时间关注这类告警。 |
事件状态
事件的状态分类如表3-4所示。
表3-4 事件状态分类
| 状态名称 | 事件状态 | 说明 |
|---|---|---|
| 维护状态 | 正常态、维护态 | 事件的维护状态是固定的,在监控或查询事件时,可通过过滤条件将维护态事件过滤掉,运维人员不用耗费时间关注这类事件。说明:“正常态”的事件在事件日志中的“维护状态”显示为“正常”。“维护态”的事件在事件日志中的“维护状态”显示为“新建”、“扩容”、“升级”或“调测”。 |
WHY-为什么要告警
同上
WHEN-何时
同上
WHO-谁告警,谁接受告警
同上
WHERE-在哪
同上
HOW-如何
HOW MUCH-花费和性能优化
参考资料
运维 - 如何做到人均告警减少 90%?B 站新一代告警平台的设计与实践 - 个人文章 - SegmentFault 思否
告警介绍 - eSight 20.1 操作指南 12 - 华为 (huawei.com)
运维 - 监控告警怎么搭建比较合理?B 站 SRE 实践总结了 4 大关键步骤 - 个人文章 - SegmentFault 思否
