跳转到主要内容

关键特性

多维度分析

从全局和时间维度,扩展到按团队、空间、个人等维度进行查看,全方位了解团队运维效能

灵活下钻

支持从全局视图下钻到各子维度,进行深入的指标分析,快速定位问题所在

数据对比

在不同维度间进行数据对比,发现团队间的差异和改进空间

数据导出

支持将数据导出为 CSV 文件,方便进行进一步的数据分析和报告生成
分析看板界面

筛选条件

自定义筛选条件时,系统会记录选中的条件,即使刷新页面,选中的条件也会保留,但当前用户的操作并不会影响其他用户。
筛选项说明
团队选择需要查询的团队名称,支持多选,选中后会按选中的团队更新仪表盘中的数据
协作空间选择需要查询的协作空间名称,支持多选,选中后会按选中的协作空间更新仪表盘中的数据
严重程度选择需要查询的严重程度,支持多选,选中后会按选中的严重程度更新仪表盘中的数据
时间范围选择需要查询的时间范围,支持按本周、最近两周、本月、上个月以及自定义时间的维度进行查询,但最多支持查询最近 180 天 的数据
数据间隔支持天、周、月的维度进行查询,默认按小时进行查询,但查询的时间范围大于 31 天时,无法以天的维度进行预览
排序团队、协作空间和个人维度的仪表盘可以选择倒排和正排,默认只显示 TOP 10 的数据,单独放大后可以展示更多

按小时拆分

当我们需要进行 24 小时 On-call 时,为了区别不同时间段对团队成员的影响差异,我们将时间划分为三个阶段:
时间段时间范围说明
工作时间周一到周五 8am ~ 7pm团队正常工作的黄金时段
休息时间周一到周五 7pm ~ 11pm,非工作日 8am ~ 11pm团队成员的休息或娱乐时间
睡眠时间每天的 11pm ~ 8am这个时间段的打扰会严重影响团队成员的休息质量
按小时拆分示意图

指标释义

被收敛的故障不会触发通知,因为这类故障通常可以定义为可以被忽略的故障,所以所有指标的统计均不包含被收敛的故障。
指标说明
故障数量产生的故障数量,但不包括被收敛的故障
MTTA平均认领故障的耗时(认领时间减去故障发生时间为认领耗时),未产生认领动作的故障不在计算范围内
MTTR平均恢复故障的耗时(故障关闭时间减去故障发生时间为恢复耗时),个人指标中不包含 MTTR
响应比例统计响应比例,计算公式:响应比 = (认领故障数 / 故障数) × 100%
响应投入处理人员参与故障处理的耗时总和,通过计算成员在认领故障到恢复故障之间的时间差值求和,可以粗略估计成员花在故障响应中的实际时间投入
中断次数仅统计短信、语音、APP 推送三种渠道的分派通知。一个响应人员多渠道同时推送仅算一次中断,如果距离上一次通知不超过 1 分钟,不算中断
在计算平均故障恢复时间(MTTR)时,系统无法精确判断故障是否因人员干预而得以恢复。因此,在计算整体 MTTR 时,并不统计个人的 MTTR 数据。故障恢复可能涉及多种情形:
  • 自动告警触发的自动恢复
  • 人工手动关闭
  • 系统超时自动关闭
  • 同一故障有多名成员参与处理
为了确保 MTTR 的准确性,系统专注于故障从发生到解决的总时间,而不单独评估成员贡献的具体影响。
由于系统计算数据需要一定的时间,所以查询当前数据时可能会出现一小时左右的延迟。

告警 TOP

全局维度可以查看告警检查项和告警对象的 TOP 20 的数据:
维度说明建议
告警检查项按照告警检查项(来自告警的 check 标签)对告警事件进行聚合排序对频繁发生的告警检查项进行调整
告警对象按照告警对象(来自告警的 resource 标签)对告警事件进行聚合排序对频繁发生的告警对象进行优化

数据下载和导出

所有维度均支持将仪表盘以 PDF 格式下载到本地,方便进行进一步的数据分析和报告生成。
数据下载示意图

导出限制

  • 故障列表导出时,不包含 Labels 数据,如果需要更详细的数据,建议通过故障列表 API 查询
  • 数据列表的查询和导出的数据量最大是 10 万条,如果需要更多数据,建议分时间段导出

常见问题

目前分析看板中仅支持查询最近 180 天的数据,如果需要查询更久的数据,可以通过 API 查询
仪表盘的折线图最多支持 31 个点,所以查询数据的时间范围超过 31 天后,无法以天的维度查看数据。

延伸阅读