跳转至

监控


观测云拥有强大的异常监测能力,不仅提供了包括Docker、Elasticsearch、Host等一系列监控模板,还支持自定义监控器,配合告警通知功能,可及时发现帮助您快速发现问题、定位问题、解决问题。同时,“观测云”支持SLO(Service Level Objective)监控,精准把控服务水准和目标。

监控器

(原指“异常检测规则”)“观测云” 提供「阈值检测」、「日志检测」等多种监测方式,允许用户自定义配置检测规则和触发条件,并通过告警第一时间接收告警通知。

  • 阈值检测:基于设置的阈值对指标数据进行异常检测,当数据达到阈值时,触发告警并通知用户。
  • 日志检测:基于工作空间内的日志数据进行异常检测,多适用于 IT 监控场景下的代码异常或任务调度检测等。
  • 突变检测:基于比较两个不同时间段内同一个指标的绝对或相对(%)变化值来判断是否产生异常情况。多应用于追踪某个指标的峰值或者数据变化,当出现异常情况时可以更精准的产生事件留做记录。
  • 区间检测:基于选中的检测区间时间范围内的指标数据做异常检测,多应用于监测趋势稳定的数据/指标。
  • 离群检测:基于算法检测特定分组下检测对象的指标/统计数据是否存在离群偏差情况。
  • 安全巡检:基于工作空间内安全巡检数据进行异常检测,用于监控工作空间内系统、容器、网络等存在的漏洞、异常和风险。
  • 应用性能指标检测:基于工作空间内「应用性能监测」的指标数据,当指标到达设置的阈值范围后触发告警。
  • 用户访问指标检测:基于工作空间内「用户访问监测」的指标数据,当指标到达设置的阈值范围后触发告警。
  • 进程异常检测:用于监控工作空间内的进程数据,支持对进程数据的一个或多个字段类型设置触发告警。
  • 基础设施存活检测:用于监控基础设施的运行状态。
  • 可用性监测数据检测:基于工作空间内的云拨测数据,通过对一定时间段内拨测任务产生的指定数据量设置阈值范围后触发告警。
  • 网络数据检测:用于监控工作空间内「网络性能监测」的指标数据,通过设置阈值范围,当指标到达阈值后触发告警。

模板

(原指“内置检测库”),“观测云”内置多种开箱即用的监控模板,支持一键创建Docker、Elasticsearch、Host、Redis监控等。成功新建模板后,即自动添加对应的官方监控器至当前工作空间。详情可参考文档 模板

告警策略管理

(原指“分组”),告警策略功能支持您自定义创建有意义的监测器组合,方便告警策略管理各项监控器。

SLO

(Service Level Objective),是服务等级目标的简称,即预先设定的系统稳定性目标。“观测云”支持测试当前系统服务状态等级,对比检测对应的SLI(Service Level Indicator是测量指标,对应监控器所测量的指标)是否满足目标需要。

智能巡检

智能巡检基于观测云的智能检测算法,支持自动检测基础设施和应用程序问题,帮助用户发现 IT 系统运行过程中发生的问题,通过根因分析,快速定位异常问题原因;通过观测云的智能预测算法,帮助用户提前预见基础设施和应用程序的潜在问题,评估问题对系统运行的影响等级,更好的确定排障工作的优先级,减少排障过程的不确定性。详情可参考 智能巡检

静默管理

“静默管理”是对当前空间的全部静默规则进行管理。支持对不同的监控器、智能巡检、自建巡检、SLO、告警策略进行静默管理,使静默对象在静默时间内不向任一告警通知对象发送告警通知。详情可参考 静默管理

通知对象管理

观测云支持您通过「管理」-「通知对象管理」,设置告警事件的通知对象,包括钉钉机器人、企业微信机器人、飞书机器人、Webhook自定义、邮件组和短信组。详情可参考 通知对象管理