跳转到主要内容
告警降噪是 Flashduty On-call 的核心能力之一,当告警风暴来袭时,您可能会收到数百条相似通知。降噪功能将这些告警聚合为一条故障,让您只需处理一次,而非被重复通知淹没。

为什么需要降噪

场景无降噪有降噪
服务器宕机触发 100 条告警收到 100 条通知,需逐条处理收到 1 条故障,统一处理
网络抖动导致告警反复触发/恢复通知轰炸,疲于应对标记抖动状态,减少干扰
凌晨批量告警被电话/短信吵醒多次仅通知一次,睡眠不受影响
降噪的核心价值
  • 减少通知频次,避免告警疲劳
  • 聚焦真正需要关注的问题
  • 提升故障响应和处理效率

核心概念

理解降噪前,需要先了解三个核心对象的关系:
监控系统 → 事件(Event)→ 告警(Alert)→ 故障(Incident)
对象定义来源
事件监控系统的原始通知,每次触发或恢复都是一次事件Zabbix、Prometheus 等
告警由事件自动触发,同一告警的多次事件会合入同一条告警Flashduty 自动创建
故障Flashduty 处理的主要对象,由告警触发或手动创建自动触发或手动创建
关键理解
  • 一条告警可以包含多个事件(同一告警的触发、恢复)
  • 一条故障可以包含多条告警(相似告警被聚合到一起)
  • 降噪发生在「告警 → 故障」这个环节

降噪过程

当监控系统推送告警到 Flashduty On-call 时,系统会自动执行以下流程:
1

接收事件

判断是否合入已有告警,否则创建新告警。
2

处理新告警

判断是否合入已有故障,否则创建新故障。
3

触发通知

新故障按分派策略通知相关人员。
4

后续告警合入

后续告警合入已有故障,不再重复通知。
告警降噪流程图

告警聚合

进入 协作空间详情 → 降噪配置 进行配置。 告警聚合将多条相似告警合并为一条故障,统一分派和通知。当告警风暴来袭时,您只需处理一条故障,而非数百条重复通知。
新建协作空间默认关闭告警聚合。未开启时,每条告警将创建一条独立故障。

聚合模式

Flashduty On-call 提供两种聚合模式:
模式适用场景特点
智能聚合快速上手,对聚合精度要求不高基于机器学习分析语义相似度,无需手动配置规则
规则聚合需要精确控制聚合逻辑按指定维度(属性、标签)精确匹配

通用配置

配置项说明
聚合窗口仅聚合时间窗口内的告警,超出窗口的告警将触发新故障
风暴预警当合入告警数达到阈值时触发预警通知,提醒加急处理
严格聚合开启时,空值标签视为不同项;关闭时,空值标签视为相同项(智能聚合不支持)
当新告警与活跃故障的内容高度相似时,自动合入故障。
1

选择聚合模式

选择 智能聚合 模式
2

指定计算字段

指定参与计算的字段(最多 10 个)
智能聚合配置

智能聚合配置

聚合效果

设置按 告警检查项 聚合后,5 条告警通知被聚合为 1 条故障:
故障:cpu idle < 20% / es.nj.03,Critical

  - 告警 cpu idle < 20% / es.nj.03:
      - 事件1:es.nj.03,cpu.idle = 10%,Critical
      - 事件2:es.nj.03,cpu.idle = 18%,Warning
      - 事件4:es.nj.03,cpu.idle = 10%,Ok

  - 告警 cpu idle < 20% / es.nj.01:
      - 事件3:es.nj.01,cpu.idle = 15%,Warning
  
  - 告警 cpu idle < 20% / es.nj.02:
      - 事件5:es.nj.02,cpu.idle = 19%,Warning
在故障详情页查看聚合关系:
  • 点击告警标题,查看告警时间线和关联事件
  • 点击事件点,查看事件上报的具体内容
聚合效果

聚合效果展示

抖动检测

当同一故障频繁触发与恢复时,系统将其标记为”抖动”状态,避免通知轰炸。 进入 协作空间详情 → 降噪配置 → 抖动检测
选项行为
关闭不检测抖动状态(默认)
仅提醒标记抖动状态,继续按策略通知
提醒后静默标记抖动状态,首次提醒后不再通知
“相同故障”指具有相同 Alert Key 的故障,通常使用上游系统推送的告警 ID 作为唯一标识。

静默策略

在维护窗口或已知问题期间,静默规则可以屏蔽特定条件的告警通知。 进入 协作空间详情 → 降噪配置 → 静默规则

静默时间

类型说明
单次静默指定时间段内生效,过期后规则保留但不再生效
周期静默 - 星期模式按每周固定时间段生效,如每周六 00:00-06:00
周期静默 - 日历模式服务日历 的工作日/休息日生效

静默条件

定义哪些告警需要被静默,支持多条件组合。
匹配项说明示例
严重程度按告警级别匹配仅静默 Info 级别
标题按告警标题关键词匹配标题包含「计划维护」
描述按告警描述内容匹配描述包含「重启」
标签按标签键值对匹配host=db-master-01
组合逻辑
  • AND:所有条件同时满足才静默
  • OR:任一条件满足即静默
详见 配置过滤条件

静默行为

行为说明
直接丢弃告警不在任何列表显示,无记录
保留标记告警在 原始告警列表 中显示并标记为”静默”,可筛选查看

快速静默

基于已发生的故障快速创建临时静默规则。 操作路径:故障详情 → 更多操作 → 快速静默
  • 规则名称默认为故障 ID + 标题
  • 生效范围为故障所属协作空间(不可更改)
  • 默认生效 24 小时,到期后自动删除
  • 条件默认为故障标签的完全匹配
快速静默

快速静默配置

同一故障重复操作快速静默时,会编辑原规则而非创建新规则。

抑制策略

当根因告警存在时,自动抑制相关的次要告警。例如:Critical 级别故障存在时,抑制同一检查项的 Warning/Info 级别故障。

配置路径

位置路径特点
协作空间协作空间详情 → 降噪配置 → 抑制规则仅对当前协作空间的告警生效
告警集成告警集成详情 → 告警处理 → 告警抑制对通过该集成接入的告警生效

抑制条件

当新告警满足条件,且 10 分钟内存在满足条件的 活跃故障(未关闭),且两者存在相同项时,新告警被抑制。
配置项说明
新的告警条件被抑制告警需满足的条件,如严重程度为 Warning/Info
活跃告警条件作为抑制源的告警需满足的条件,如严重程度为 Critical
相同项两者必须相同的属性或标签,如检查项、主机名

抑制行为

行为说明
直接丢弃告警不在任何列表显示,无记录
保留标记告警在 告警列表 中显示并标记为”抑制”,可筛选查看

配置示例

场景:当存在 Critical 级别告警时,抑制同一检查项的 Warning/Info 级别告警。
抑制规则配置

抑制规则配置示例

常见问题

不会。故障标题与触发该故障的第一条告警相同,可随时手动修改,不会随新告警变化。
  • 手工创建的故障:不会,标签列表永远为空
  • 自动触发的故障:有可能,故障标签与第一条告警保持一致,如果该告警标签变化,故障标签也会同步更新
会。告警标签总是与最新合入的事件保持一致。但如果新事件是恢复事件,告警将保持已有标签不变,仅增加之前不存在的标签。
上限为 5000 条,主要为了保证控制台渲染性能。由于后台并发处理,实际可能略超此限制。
  • 规则聚合:无上限,聚合窗口最大为 24 小时。告警触发 24 小时后不再合入新事件,新事件将产生新故障
  • 智能聚合:无上限,聚合窗口最大为 30 天。告警触发 30 天后不再合入新事件,新事件将产生新故障

延伸阅读