跳转至

SLO


概述

在云时代背景下,各大服务商均发布相关服务水平协议(SLA),保障所提供服务的质量并明确权责。“观测云” SLO监控是围绕DevOps各类指标,测试系统服务可用性是否满足目标需要,不仅可以帮助使用者监控服务商提供的服务质量,还可以保护服务商免受SLA 违规的影响。

名词解释

SLA(Service-Level Agreement):也就是服务等级协议,指的是系统服务提供者(Provider)对客户(Customer)的一个服务承诺。“观测云”支持对服务商的服务质量SLA评分,实时监测服务的达标率。

SLI(Service Level Indicator):是测量指标,指选择用于衡量系统稳定性的指标。“观测云”SLI 支持基于监控器设定一个或多个测量指标。

SLO(Service Level Objective):是“观测云”进行 SLA 评分处理的最小单元,是一个时间窗口内 SLI 累积成功数的目标。而我们又经常把 SLO 转化为错误预算,用于计算可容忍的错误数,在每一个检测周期内出现异常事件的时间将在可容错时长中扣除。(如下图:假设 SLO 检测周期为5分钟,根据叠加后,异常事件覆盖时间为3分钟,扣除额度3分钟)

新建SLO

“观测云”支持通过「监控器」的 SLO 模块,自定义创建新的 SLO 任务。

Attention

SLO配置一旦保存,SLO名称、目标、检测周期将不可更改。

字段 说明
名称 SLO任务名称。最多支持64个字符输入。
目标 SLO目标百分比(0-100%),支持选定两个目标,包括“目标”和“最低目标”,
  • 目标:当 SLO百分比 < 目标百分比,且 >= 最低目标百分比时,被认定为 不健康SLA
  • 最低目标:当 SLO百分比 < 最低目标百分比时,被认定为 *不达标 *SLA
  • SLI 衡量系统稳定性的指标。支持自定义添加一个或多个监控器作为测量指标
    异常通知对象 告警通知对象,支持空间成员、邮件组、企业微信机器人、钉钉机器人、飞书机器人、短信等通知方式,详情可参考告警设置
    通知沉默 若同一个事件不是非常紧急,但是告警通知频率高,可以通过设置通知沉默的方式减少通知频率。注意:通知沉默设置后事件会继续产生,但是通知不会再发送,产生的事件会存入事件管理
    检测频率 SLO检测频率,即以一定时间范围为周期,监测SLO任务中监控器是否出现异常事件。目前支持5分钟、10分钟两种检测频率。
    描述 描述性信息,最多支持256个字符。

    SLO列表

    在工作空间的「监控器」-「SLO」中,您可以查看现有SLO监控任务的任务达标率,目标服务水平等,还对任务进行编辑、查看相关事件、导出仪表板等。

    查询

    SLO列表支持在搜索框基于SLO名称进行搜索。

    列表字段

    字段 说明
    监控器 SLI 关联的监控器数量,即测量服务性能的指标
    考核周期 指标的衡量时间段。默认最近 7天
    达标率 在给定考核周期内满足系统无异常时间占总时长的百分比(达标率=系统无异常时间/考核周期 * 100%)
  • 当 百分比 < 目标百分比,且 >= 最低目标百分比时,被认定为不健康SLA,显示为黄色达标率
  • 最低目标:当 百分比 < 最低目标百分比时,被认定为不达标SLA,显示为红色达标率
  • 剩余额度 当前SLO还剩余的可容错时长(假设目标SLO设定为95%,即存在5%的容错率,默认最近7天为周期,即默认剩余额度=7天 *5% = 21分钟),显示为
  • 绿色:剩余的可容错时长 > = 0
  • 红色:剩余的可容错时长 > 0
  • 目标 创建SLO任务时设定的,服务可用性的目标百分比

    操作说明

    操作 说明
    编辑 “观测云”支持对已有的SLO任务进行重新编辑,不支持SLO名称、目标、检测周期的修改
    删除 “观测云”支持对已有的SLO任务进行「删除」
    注意:一旦删除SLO任务,可能会导致其关联的「仪表板」SLO数据失效
    查看相关事件 由SLO任务触发的告警事件将统一存储在对应「SLO」任务下,通过「查看相关事件」操作,可直接跳转由该SLO任务触发的全部未恢复事件
    导出到仪表板 “观测云”支持导出SLO为视图至仪表板

    SLO详情

    观测云支持通过点击SLO任务查看SLO详情,包括SLO达标率和SLI异常记录。

    字段 说明
    过去7天SLA 根据当前访问的时间获取近7天的达标率
    全年SLA 根据当前访问的时间获取今年(自然年)的达标率
    近一年SLA 根据当前访问的时间获取最近1年(自然年)的达标率
    SLI异常记录 基于当前SLO任务下的监控器所触发的异常事件

    导出至仪表板

    在SLO列表中,支持导出SLO监测任务为视图至仪表板,以帮助您在仪表板同步进行SLO监控。

    Attention

    仪表板中的SLO视图的时间范围默认与仪表板保持一致,而SLO列表默认计算最近7天SLO达标率。