智能运维
目录
智能运维
智能运维
AIOps(Artificial Intelligence for IT Operations) 即智能运维,其目标是给予已有的运维数据(日志,监控信息,应用信息等),通过机器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力及稳定性。
KPI:Key Performance Indicators
SRT:search response time
HSRT: High SRT (搜索时间大于一秒的搜索)
已定义的智能运维科研问题
针对历史事件
- 瓶颈分析
- 热点分析
- KPI聚类
- KPI关联关系挖掘
- 异常事件关联关系挖掘
- 全链路模块调用链分析
- 故障传播关系图构建
针对当前事件
- 异常检测
- 异常定位
- 异常报警聚合
- 快速止损
- 故障根因分析
针对未来事件
- 故障预测
- 容量预测
- 趋势预测
- 热点分析
案例
故障预测
问题描述
- 对于发生轻微异常的组件,需要预测在未来一段时间内是否会发生故障。
输入
- KPI数据
- 告警
输出
- 是否会发生故障
- 1:会发生故障
- 0:不会发生故障
- 是否会发生故障
转换为机器学习问题(监督学习)
问题定义
- 二分类问题
关键步骤
- 样本构造(历史样本集)
- 特征构造
- 分类算法(随机森林)
故障定界(异常定位)
问题描述
- 需要判断是哪一个设备故障导致的异常
输入
- KPI数据
- 网络拓扑
输出
- 故障位置
转换为机器学习问题(非监督学习)
问题定义
- 聚类问题
关键步骤
- 样本构造(历史样本集)
- 特征构造
- 聚类算法(层次聚类)
异常事件关联关系挖掘(告警关联)
问题描述
- 对网络每天产生的大量告警进行关联,把属于同一个故障的告警压缩为一组
输入
- 告警
- 网络拓扑
输出
- 告警组
转换为数据挖掘问题
问题定义
- 序列频繁项集挖掘问题
关键步骤
告警预处理
- 清除重复告警
- 清除闪断告警
告警空间关联
告警时间分组
频繁项集挖掘
挖掘出频繁项集后,有专家人工确认有关联的故障规则