本帖最后由 朱祖会 于 2025-3-3 13:54 编辑
告警平台-功能说明
日期 | 版本 | 修订人 | 修订内容 | 2024/10/15 | V1.0 | 宋卫奇 | | 2025/03/03 | V2.0 | 宋卫奇 | | | | | | 简介 通过告警平台快速暴露问题给正确的应用及平台人员,让人员尽快介入处理告警,提升故障处理效率,减少故障影响时长。本文主要对告警平台的使用进行说明。 一、告警数据概览 告警数据概览页面主要展示告警统计信息,主要包括三大部分,支持根据统计周期(默认展示当月)、报错方、租户ID、告警状态进行筛选统计。 1. 展示影响客户数量、任务卡数量以及影响时间信息
具体统计信息如下:
2. 图表展示报错波动、人员告警量等
- 报错波动:折线图展示每天的告警数量,点击数字可以展示出该日期具体的告警详情
- 人员告警量:柱状图展示收到告警数量排名前8的人员及其告警数量,点击数字可以展示出该人员具体的告警详情
- 状态率:饼图统计不同状态下的告警占比,目前有4种状态,未处理、已处理、非问题和处理中
3. 表格统计各应用或组件的告警信息,包括客户影响、告警数量、影响时间等
表格具体字段解释如下:
- 报错方:发生告警的平台组件或应用
- 客户影响:统计该报错方产生的告警影响的客户数量,点击数字可以展示具体的客户详情,如下图所示:
- 数量:统计该报错方产生的告警数量,点击数字可以展示具体的告警详情,如下图所示:
- 点击告警详情列表中具体告警还可以看到告警的发生原因、发生时间、错误码以及负责人等信息。
- 影响时间:统计该报错方产生的告警影响业务的总时间
- 平均影响时间:告警总影响时间/告警数量
- 分类:区分该报错方是平台还是应用
二、系统告警记录 各应用或平台组件产生的告警展示在告警异常管理页面的告警表格中,支持根据应用、平台等条件搜索告警,还可以在告警详情页面处理告警。 1. 异常查询
具体统计信息如下: 应用:根据所选应用查询出该应用下的告警 平台:根据所选平台组件查询出该平台组件产生的告警 pinPointid:根据输入的pinPointid查询告警 时间:根据告警产生的时间查询告警,目前支持到根据月份查询,默认查询当前月 异常码:根据输入的告警异常码查询告警 租户:根据输入的租户id查询该租户下产生的告警 是否关注:选择“是”能查询出本人收到的告警 产品线:根据选择的产品线查询出该产品线下所有产品的告警 状态:根据所选状态查询出该状态的告警,如选择状态为“未处理”则查询出所有状态为未处理的告警
2. 告警异常表格 告警表格展示具体的告警列表,支持分页查询展示,如下图所示: 表格中具体字段信息如下: 点击“操作”列中的“详情”按钮可以进入告警详情页面,在该页面可以处理告警(如重试告警,修改告警状态为已处理、非问题、处理中),还可以添加“评论”,多条“评论”按照时间顺序倒序排序,具体参见“告警平台-处理告警说明”说明文档。 三、系统错误码管理 各应用或组件的错误码可以在系统错误码管理界面进行管理,可以新增、编辑、查询错误码。当前告警策略是基于错误码的,只有录入告警平台的错误码才会进行告警,从而实现精确推送。 1.错误码新增 点击页面上的“新增”按钮,弹出新增页面,如图所示: 页面中具体字段说明如下: 告警级别:展示错误码的告警频率 目标用户:展示错误码的关注用户,目前有3种
- 平台:当前告警只发送给平台组件(针对智驱组件发出的告警)
- 应用:当前告警只发送给应用组件
- 全部:同时把告警发送给平台和应用组件(针对智驱组件发出的告警)
所属组件:展示错误码所属的组件 错误码:参照错误码四段式规范且保证唯一
2. 错误码详情 点击错误码表格中具体错误码操作列的“详情”按钮,可以弹出详情页面,如图所示: 详情页面中的具体字段说明参照“错误码新增”小节的描述。 3. 错误码编辑 点击错误码表格中具体错误码操作列的“编辑”按钮,可以弹出“编辑”页面,如图所示: 页面中的所有字段都可以修改。 4. 错误码查询 支持根据错误码所属组件、错误码、目标用户对错误码列表进行查询,支持分页。 四、告警频率管理 告警频率管理页面主要管理告警频率,即控制告警的发送周期,可以新增、编辑。 1. 告警频率详情 点击告警频率表格中具体告警频率操作列的“详情”按钮,可以弹出详情页面,如图所示: 页面中具体字段说明如下: 告警频率名称:展示告警频率名称,如紧急、严重、重要等 告警频率编码:展示告警频率的编码 告警拼接值:目前默认为“模组名+应用名+租户+错误码+公司+工厂”,同一“模组名+应用名+租户+错误码+公司+工厂”下的告警按照下面的告警频率类型进行告警 类型:目前包括4种,不限制、固定间隔、固定时间累计、不发送
- 不限制:每次收到告警都发送给负责人
- 固定间隔:每隔多少小时进行发送
- 固定时间累计:多少小时内出现多少次再进行发送
- 不发送:收到告警都不发送给负责人
2. 告警频率新增 点击“新增”按钮弹出新增告警频率页面,如图所示: 页面中的具体字段描述参见上一小节“告警频率详情”描述。 3. 告警频率编辑 点击告警频率表格中具体告警频率操作列的“编辑”按钮,可以弹出“编辑”页面,如图所示: 除了告警拼接值字段,其他字段都可以修改。 五、系统开关设置 告警平台的一些全局配置在系统开关设置界面进行管理,包括全局邮件发送以及应用邮件发送开关。支持编辑、搜索等操作。 全局邮件发送开关主要控制全局告警邮件是否发送,如果关闭,则所有告警邮件都不能发送。 应用邮件发送开关主要控制应用告警邮件是否发送,如果关闭,则所有发送给应用组件的告警都不能发送。 1. 系统开关详情 点击系统开关表格中具体系统开关操作列的“详情”按钮,可以弹出详情页面,如图所示: 页面中具体字段说明如下: 名称:系统开关名称 编码:系统开关编码 设定值:开关设定的值 状态:系统开关是否有效,开表示有效,关表示无效 描述信息:系统开关描述信息
2. 系统开关编辑 点击系统开关表格中具体开关操作列的“编辑”按钮,可以弹出“编辑”页面,如图所示: 所有字段都可以编辑。 3. 系统开关搜索 支持根据系统开关名称、编码、状态进行查找,如图所示:
六、应用组件管理 应用组件管理界面主要管理平台组件和应用的,只有录入的平台组件和应用才会接收到告警信息。支持新增、编辑、搜索等操作。 1. 应用组件详情 点击应用组件表格中具体组件操作列的“详情”按钮,可以弹出详情页面,如图所示: 页面中具体字段说明如下: 名称:组件名称 编码:组件编码,与中间件appId保持一致 分类:标识组件属于平台还是应用 绑定人员:该组件告警发送人员 通知类型:通过邮件还是其他方式发送告警,目前仅支持邮件 状态:组件是否启用,状态为开才能接收告警,状态为关,不能接收告警 全异步超时时间:支持各组件自己设置全异步超时时间,不设置的话默认为esp的全异步超时时间(35分钟)
2. 应用组件新增 页面中的具体字段描述参见上一小节“应用组件详情”描述。 3. 应用组件编辑 点击应用组件表格中具体组件操作列的“编辑”按钮,可以弹出“编辑”页面,如图所示: 所有字段都可以编辑。 4. 应用组件查询 支持根据名称、编码、分类(是应用还是平台组件)进行查找,如图所示: |