事件查看器¶
简介¶
观测云 支持您通过「事件」对异常检测库触发的事件进行实时监控、统一查询、未恢复事件统计、和数据导出。同时,系统支持快速聚合相关事件和匹配关联事件,您可快速定位异常并高效对异常数据进行分析。
未恢复事件列表¶
进入「事件」,观测云 将默认为您展示「未恢复事件列表」,您可以查看到空间内持续被触发的全部未恢复事件,及不同告警级别下未恢复事件的数据量统计、告警信息详情等。未恢复事件查询为最近 48 小时数据,支持手动刷新。
注意:若在异常检测库配置检测规则时,未设置恢复告警事件检测周期,则告警事件不会恢复,且一直会出现在「事件」-「未恢复事件列表」中。
数据状态¶
观测云 为帮助您快速识别告警事件,事件数据将依据异常检测规则设定的告警级别包括 critical(紧急)、error(错误)、warning(警告)和ok (正常) 进行分类。
查询与分析¶
在未恢复事件列表中,支持通过选择时间范围、搜索关键字,筛选等方式查询事件数据,帮助您快速在所有事件中定位到哪一时间范围、哪一功能模块、那一行为触发的事件。您可以
- 统计不同告警状态下的事件数量,包括「未恢复」、「紧急」、「错误」、「警告」、「无数据」
- 点击列表上方的告警状态,筛选出所有对应告警状态下的事件列表
- 通过列表上方的搜索和筛选栏,您可以基于标签、字段、文本(包含日志文本)进行关键词搜索、标签筛选、字段筛选、关联搜索
- 查看当前告警事件信息,包括该事件的检测维度、告警开始的时间、告警持续的时间,展开可查看最近 6 小时的window函数。
注意:在预览事件的 window 函数时,
- 异常事件影响时间段展示为虚线边框的展示效果
- 检测库规则类型为阈值、日志、应用性能指标、用户访问指标检测、安全巡检、异常进程、云拨测检测时,根据不同告警等级对应的色块可查看相关异常检测指标数据,包括紧急、错误、警告。
- 检测库规则类型为突变、区间时,根据图表“竖线”可快速识别出当前事件触发的时间点。
检测维度¶
目前事件检测维度支持主机、容器、进程、日志、链路、Profile、RUM、可用性检测、安全巡检、CI 这10个查看器的跳转,并且查看器如无相关数据,对应跳转链接灰置。支持“筛选字段值”、“反向筛选字段值”和“复制”。
- “筛选字段值”,即添加该标签至事件查看器,查看与该主机相关的全部事件数据
- “反向筛选字段值”,即添加该标签至事件查看器,查看除了该主机以外,其他主机相关的全部事件数据
- “复制”,即复制该标签内容至剪贴板
恢复事件¶
未恢复的事件是按照获取选定时间段内最后一次状态不等于 OK
的事件,查询结果会受限于时间范围,不同的时间范围的查询结果列表有可能不一致,故提供手动恢复事件的功能。
在未恢复事件列表中,鼠标移到事件,在事件右侧可以查看到“已恢复”的功能。
点击“已恢复”,事件被手动恢复到正常,同时会产生一条恢复的事件,在事件列表的该事件中可查看到对应的操作者。
事件列表¶
进入「事件」,通过切换左上角的查看器至「事件列表」,你可以查看空间内全部事件列表。观测云支持通过柱状图堆叠的方式,统计当前事件列表内,不同时间点发生的不同告警级别的事件数量。
事件查询¶
在事件列表中,观测云 支持通过选择时间范围、搜索关键字,筛选等方式查询事件数据,帮助您快速在所有事件中定位到哪一时间范围、哪一功能模块、那一行为触发的事件。您可以:
- 通过右上角的时间筛选组件,您可以筛选数据展示的时间范围
- 通过列表上方的搜索和筛选栏,您可以基于字段、文本(包含日志文本)进行关键词搜索、字段筛选、关联搜索
- 输入框支持模糊匹配相关字段
- “abc:123”形式, 回车后支持字段筛选
- 输入框输入文本,支持关键字搜索
- " abc AND cba / abc OR cba" 形式,回车后支持关联搜索
- 通过列表左侧的快捷筛选,您可以通过勾选快捷筛选的字段快速筛选数据,支持自定义添加筛选字段,更多快捷筛选可参考文档 快捷筛选 。
注意:搜索支持多个关键词搜索,采用 AND 逻辑,输入的关键词越多数据匹配的范围越精准,使用空格或者逗号隔开即可。更多搜索与筛选可参考文档 查看器检索 。
分组聚合¶
通过分组功能,观测云支持根据检测项分组聚合和统计相关事件。
数据导出¶
在事件列表中,点击「导出」可导出当前事件列表的数据到CSV、仪表板和笔记。
事件详情页¶
在异常事件列表中点击事件,就可以查看事件详情,包括基础属性、告警通知、状态&趋势、历史记录、关联事件和关联SLO。支持点击“导出事件”按钮,可选择“导出 JSON 文件”与“导出 PDF 文件”,获取当前事件所对应的所有关键数据,若在配置监控器时关联了仪表板,可点击“关联仪表板”按钮跳转到对应的仪表板。
基础属性¶
支持查看事件的检测维度、事件内容以及扩展属性。
告警通知¶
显示通知对象类型、通知对象名称、通知是否发送成功等信息。点击展开显示该告警通知对象的详细信息,支持 hover 复制。(注意:在沉默期期间,告警通知不会重复发送至相关对象。)
状态&趋势¶
支持查看事件的状态分布趋势、DQL函数和窗口函数折线图。
- 状态分布:展示选定时间范围内(默认展示最近6小时)的事件状态 (紧急、重要、警告、无数据)
- DQL查询语句:基于异常检测规则的自定义查询语句返回的实时指标数据,默认展示最近6小时的实时指标数据
- window 函数:基于异常检测规则,以选定的时间范围为窗口(记录集合),以检测频率为偏移,重新对每条记录执行统计计算,返回用于触发告警的实时异常检测指标数据。默认展示最近6小时的实时异常检测指标数据
注意:在事件详情中,观测云支持选择时间范围查看事件数据
- 当您选择的时间范围小于 ( < = ) 6小时,「状态分布」、「DQL函数」、「window函数」将展示当前时间范围的数据与指标趋势。
- 当您选择的时间范围大于 ( > ) 6小时,「状态分布」与「DQL函数」将展示当前时间范围的数据,且出现一个可调节的区间滑块(显示范围最小支持15分钟,最大支持6小时)。通过移动区间滑块,可查看与之时间范围对应的「window函数」
历史记录¶
支持查看检测对象主机、异常/恢复时间和持续时长。
关联信息¶
支持查看触发当前事件的相关信息,如查看触发事件的相关日志。此“关联信息”仅支持 4 种监控器产生的事件:日志检测、安全巡检异常检测、进程异常检测以及可用性数据检测。 注意:若日志检测包含多个表达式查询,关联信息支持多个表达式查询的 tab 切换,若有两个表达式查询 A 和 B,则在关系信息包含 A 和 B 两个 tab 可切换查看。
日志检测配置示例:
关联事件¶
支持通过筛选字段和所选取的时间组件信息,查看关联事件。
关联仪表板¶
若在监控配置了关联仪表板 ,则可以查看关联的仪表板。
关联 SLO¶
若在监控配置了 SLO ,则可以查看关联 SLO ,包括 SLO 名称、达标率、剩余额度、目标等信息。
聚合事件详情页¶
在事件列表中,基于"检测项“分组后,可点击查看「聚合事件」。在聚合事件列表,可查看基于该检测项触发的全部事件,点击聚合事件详情,即可查看对应的基础属性、状态&趋势、和关联事件。支持点击“复制事件完整内容”按钮,获取当前事件所对应的所有关键数据,若在配置监控器时关联了仪表板,可点击“关联仪表板”按钮跳转到对应的仪表板。
基础属性¶
支持查看事件的检测维度、事件内容以及扩展属性。
状态&趋势¶
支持查看事件的状态分布趋势、DQL函数和窗口函数折线图。
关联事件¶
支持通过筛选字段和所选取的时间组件信息,查看关联事件。
关联仪表板¶
支持通过选择主机名和所选取的时间组件信息,查看关联仪表板。