为什么需要降噪
| 场景 | 无降噪 | 有降噪 |
|---|---|---|
| 服务器宕机触发 100 条告警 | 收到 100 条通知,需逐条处理 | 收到 1 条故障,统一处理 |
| 网络抖动导致告警反复触发/恢复 | 通知轰炸,疲于应对 | 标记抖动状态,减少干扰 |
| 凌晨批量告警 | 被电话/短信吵醒多次 | 仅通知一次,睡眠不受影响 |
核心概念
理解降噪前,需要先了解三个核心对象的关系:| 对象 | 定义 | 来源 |
|---|---|---|
| 事件 | 监控系统的原始通知,每次触发或恢复都是一次事件 | Zabbix、Prometheus 等 |
| 告警 | 由事件自动触发,同一告警的多次事件会合入同一条告警 | Flashduty 自动创建 |
| 故障 | Flashduty 处理的主要对象,由告警触发或手动创建 | 自动触发或手动创建 |
关键理解:
- 一条告警可以包含多个事件(同一告警的触发、恢复)
- 一条故障可以包含多条告警(相似告警被聚合到一起)
- 降噪发生在「告警 → 故障」这个环节
降噪过程
当监控系统推送告警到 Flashduty On-call 时,系统会自动执行以下流程:1
接收事件
判断是否合入已有告警,否则创建新告警。
2
处理新告警
判断是否合入已有故障,否则创建新故障。
3
触发通知
新故障按分派策略通知相关人员。
4
后续告警合入
后续告警合入已有故障,不再重复通知。

告警聚合
进入 协作空间详情 → 降噪配置 进行配置。 告警聚合将多条相似告警合并为一条故障,统一分派和通知。当告警风暴来袭时,您只需处理一条故障,而非数百条重复通知。新建协作空间默认关闭告警聚合。未开启时,每条告警将创建一条独立故障。
聚合模式
Flashduty On-call 提供两种聚合模式:| 模式 | 适用场景 | 特点 |
|---|---|---|
| 智能聚合 | 快速上手,对聚合精度要求不高 | 基于机器学习分析语义相似度,无需手动配置规则 |
| 规则聚合 | 需要精确控制聚合逻辑 | 按指定维度(属性、标签)精确匹配 |
通用配置
| 配置项 | 说明 |
|---|---|
| 聚合窗口 | 仅聚合时间窗口内的告警,超出窗口的告警将触发新故障 |
| 风暴预警 | 当合入告警数达到阈值时触发预警通知,提醒加急处理 |
| 严格聚合 | 开启时,空值标签视为不同项;关闭时,空值标签视为相同项(智能聚合不支持) |
- 智能聚合
- 规则聚合
当新告警与活跃故障的内容高度相似时,自动合入故障。
1
选择聚合模式
选择 智能聚合 模式
2
指定计算字段
指定参与计算的字段(最多 10 个)

智能聚合配置
聚合效果
设置按 告警检查项 聚合后,5 条告警通知被聚合为 1 条故障:- 点击告警标题,查看告警时间线和关联事件
- 点击事件点,查看事件上报的具体内容

聚合效果展示
抖动检测
当同一故障频繁触发与恢复时,系统将其标记为”抖动”状态,避免通知轰炸。 进入 协作空间详情 → 降噪配置 → 抖动检测:| 选项 | 行为 |
|---|---|
| 关闭 | 不检测抖动状态(默认) |
| 仅提醒 | 标记抖动状态,继续按策略通知 |
| 提醒后静默 | 标记抖动状态,首次提醒后不再通知 |
静默策略
在维护窗口或已知问题期间,静默规则可以屏蔽特定条件的告警通知。 进入 协作空间详情 → 降噪配置 → 静默规则。静默时间
| 类型 | 说明 |
|---|---|
| 单次静默 | 指定时间段内生效,过期后规则保留但不再生效 |
| 周期静默 - 星期模式 | 按每周固定时间段生效,如每周六 00:00-06:00 |
| 周期静默 - 日历模式 | 按 服务日历 的工作日/休息日生效 |
静默条件
定义哪些告警需要被静默,支持多条件组合。| 匹配项 | 说明 | 示例 |
|---|---|---|
| 严重程度 | 按告警级别匹配 | 仅静默 Info 级别 |
| 标题 | 按告警标题关键词匹配 | 标题包含「计划维护」 |
| 描述 | 按告警描述内容匹配 | 描述包含「重启」 |
| 标签 | 按标签键值对匹配 | host=db-master-01 |
- AND:所有条件同时满足才静默
- OR:任一条件满足即静默
静默行为
| 行为 | 说明 |
|---|---|
| 直接丢弃 | 告警不在任何列表显示,无记录 |
| 保留标记 | 告警在 原始告警列表 中显示并标记为”静默”,可筛选查看 |
快速静默
基于已发生的故障快速创建临时静默规则。 操作路径:故障详情 → 更多操作 → 快速静默- 规则名称默认为故障 ID + 标题
- 生效范围为故障所属协作空间(不可更改)
- 默认生效 24 小时,到期后自动删除
- 条件默认为故障标签的完全匹配

快速静默配置
同一故障重复操作快速静默时,会编辑原规则而非创建新规则。
抑制策略
当根因告警存在时,自动抑制相关的次要告警。例如:Critical 级别故障存在时,抑制同一检查项的 Warning/Info 级别故障。配置路径
| 位置 | 路径 | 特点 |
|---|---|---|
| 协作空间 | 协作空间详情 → 降噪配置 → 抑制规则 | 仅对当前协作空间的告警生效 |
| 告警集成 | 告警集成详情 → 告警处理 → 告警抑制 | 对通过该集成接入的告警生效 |
抑制条件
当新告警满足条件,且 10 分钟内存在满足条件的 活跃故障(未关闭),且两者存在相同项时,新告警被抑制。| 配置项 | 说明 |
|---|---|
| 新的告警条件 | 被抑制告警需满足的条件,如严重程度为 Warning/Info |
| 活跃告警条件 | 作为抑制源的告警需满足的条件,如严重程度为 Critical |
| 相同项 | 两者必须相同的属性或标签,如检查项、主机名 |
抑制行为
| 行为 | 说明 |
|---|---|
| 直接丢弃 | 告警不在任何列表显示,无记录 |
| 保留标记 | 告警在 告警列表 中显示并标记为”抑制”,可筛选查看 |
配置示例
场景:当存在 Critical 级别告警时,抑制同一检查项的 Warning/Info 级别告警。
抑制规则配置示例
常见问题
故障标题会随新告警合入而改变吗?
故障标题会随新告警合入而改变吗?
不会。故障标题与触发该故障的第一条告警相同,可随时手动修改,不会随新告警变化。
故障标签会随新告警合入而改变吗?
故障标签会随新告警合入而改变吗?
- 手工创建的故障:不会,标签列表永远为空
- 自动触发的故障:有可能,故障标签与第一条告警保持一致,如果该告警标签变化,故障标签也会同步更新
告警标签会随新事件合入而改变吗?
告警标签会随新事件合入而改变吗?
会。告警标签总是与最新合入的事件保持一致。但如果新事件是恢复事件,告警将保持已有标签不变,仅增加之前不存在的标签。
单个故障最多聚合多少条告警?
单个故障最多聚合多少条告警?
上限为 5000 条,主要为了保证控制台渲染性能。由于后台并发处理,实际可能略超此限制。
单个告警最多关联多少条事件?
单个告警最多关联多少条事件?
- 规则聚合:无上限,聚合窗口最大为 24 小时。告警触发 24 小时后不再合入新事件,新事件将产生新故障
- 智能聚合:无上限,聚合窗口最大为 30 天。告警触发 30 天后不再合入新事件,新事件将产生新故障

