跳转至

基础设施存活检测


概述

「基础设施存活检测」用于监控基础设施的运行状态,基础设施对象支持选择:主机、容器、Pod、Deployment、Node。

应用场景

监控长期存活的基础设施是否出现异常中断,支持对主机、容器、Pod、Deployment、Node 的运行状态进行监控。

规则说明

在「监控器」中,点击「+新建监控器」,选择「基础设施存活监控」,进入检测规则的配置页面。

步骤1.检测配置

1)检测频率:检测规则的执行频率,包含【5分钟/10分钟/15分钟/30分钟/1小时】,默认选中5分钟。

2)检测指标:监控的指标数据。

字段 说明
对象类型 包含【主机】【容器】【Pod】【Deployment】【Node】
筛选 下拉仅为筛选无搜索功能
默认检测对象的名称tag放在第一位
开关 只有类型为主机时存在,开启后,筛选框置灰失效

3)触发条件:设置告警级别的触发条件。

  • 信息(蓝色):正常检测结果也产生事件。
  • 满足条件触发事件无数据事件
  • 检测次数内无异常事件产生,则产生正常事件
Attention

监控器无法查询到检测对象的任何数据,数据上报可能存在异常。

步骤2.事件通知

4)事件标题:设置告警触发条件的事件名称,支持使用预置的模板变量,详情参考 模板变量

Attention

最新版本中 “监控器名称” 将由 “事件标题” 输入后同步生成。旧的监控器中可能存在 “监控器名称” 和 “事件标题” 不一致的情况,为了给您更好的使用体验,请尽快同步至最新。支持一键替换为事件标题。

5)事件内容:满足触发条件时发送的事件通知内容,支持输入markdown 格式文本信息,支持预览效果,支持使用预置的模板变量,详情参考 模板变量

Attention

不同告警通知对象支持的 markdown 语法不同,例如:企业微信不支持无序列表。

6)告警策略:监控满足触发条件后,立即发送告警消息给指定的通知对象。告警策略中包含需要通知的事件等级、通知对象、以及告警沉默周期。详情参考 告警策略

步骤3.关联

8)关联仪表板:每一个监控器都支持关联一个仪表板,即通过「关联仪表板」功能能够自定义快速跳转的仪表板(监控器关联的仪表板,支持快速跳转查看监控视图)。

示例

假设您的主机需要24小时运行,不能出现宕机,您就可以配置主机存活告警,如果连续10分钟出现无数据情况,触发告警。