运维管理体系

JAY.LIN 收录于系统架构总体架构工程架构

2024-12-30 约 2938 字预计阅读 6 分钟

https://bing.ee123.net/img/rand?artid=127190625

运维管理体系

P1 运维职业发展

运维学习和发展的一个线路

搭建服务(部署并运行起来)
用好服务（监控、管理、优化）
自动化（服务之间的关联和协同工作）
产品涉及（如何设计一套监控系统）

云计算的竞争力的核心是运维

网络，系统、数据库 + 云计算、自动化运维、web架构

服务管理、项目管理、测试、业务

备案种类

产品即服务

专注于某一个领域专家（如：负载均衡）

58 shenjian 架构师之路

安全宝百度加速乐腾讯蓝鲸监控

P2 运维知识体系

赵舜东

运维工作内容的分类

监控运维：（7*24小时值班、故障处理）

安全运维：（整体的安全方案、规范、漏洞监测、安全防护)

应用运维：（项目上线、服务部署、业务部署、版本管理、灰度发布、应用监控）

系统运维：（架构层面的：分布式缓存、分布式文件系统、日志收集、环境规划-测试开发生产、架构设计、性能优化）

基础服务运维：（包含运维开发）（内部DNS、负载均衡、系统级别监控、资产管理、运维平台）

基础设施运维：（系统初始化、网络维护）

机房运维：（负责设备上下架、巡检、保修、硬件监控）

阿里:

SLB :LVS+Tengine（Nginx）

ECS :KVM

云解决方案架构师

P3-P7 运维自动化 P3 自动化运维发展-标准化

1 运维标准化

物理设备层面

务器标签化(结合IP地址更准确判断识别)、负责人、设备采购详情、设备摆放标准（负载均衡高可用分机柜放）。
网络划分、远程控制卡、网卡端口
服务器机型、硬盘、内存统一。跟进业务分类（CPU,内存，IO，网卡，电源，raid）
资产命名规范、编号规范
监控标准：日志、温度、cpu

操作系统层面

操作系统版本
系统初始化（DNS\NTP\内核参数调优、rsyslog、主机名规范）
基础Agent配置（Zabbix Agent、Logstash Agent、Saltstack minion）
系统监控标准（CUP、内存、硬盘、网络、进程）

应用服务层面

web服务器选型（Apache、Nginx）
进程启动用户、端口监听规范(apache 8080, nginx 8081)、日志收集规范（日志类型：访问日志、错误日志、运行日志）
配置管理（配置文件规范、脚本规范）
架构规范（Nginx+Keepalived、LVS+Keepalived）
部署规范（位置、包命名等）

运维操作方面

机房巡检(周期、内容、保修流程)
业务部署流程（先测试、后生产、回滚）
故障处理流程（紧急处理、故障升级、重大故障管理）
工作日志标准（如果编写工作日志-工作日志如何来写）
业务上线流程（项目发起、设备环境准备、部署Nginx、解析域名、测试、加监控）
业务下线流程（谁发起、数据如何处理）
运维安全规范（密码复杂度、更改周期、VPN使用规范、服务器登录规范）

运维标准化（规范化、流程化、文档化）目标：文档化

P4 自动化运维发展-工具化

工具化：

1 shell脚本（功能行脚本【流程性】：系统初始化、备份、部署等；检测性的脚本、报表性的脚本）

2 开源工具：Zabbix、ELKStack、Saltstack、 Cobbler

目标：

1 促进标准化的实施

2 将重复的操作简单化

3将多次操作流程化

4 减少认为操作低效和故障

痛点：

ssh登录服务器执行，可能出现操作错误
多个脚本有执行顺序，容易调用出错
权限不好管理、日志没法统计（很多脚本日志都没有写）
无法避免手工操作

例子：对某台数据库从库进行版本升级。

要进行评估：

停机的影响，比如3点晚上会有定时任务连接该数据库做报表数据统计。

凌晨3点所有crontab 任务
这些crontab 要有哪些需要连接该数据库
哪些可以停，哪些不能停（不能停的要修改连接到主库），哪些需要后补
这些后补的脚本哪个业务、谁加的、什么时候加的。

P5 自动化运维发展-web化

运维平台

例子：Job管理平台

1 做成web界面

2 权限管理

3 日志记录

4 弱化流程

5 不用ssh 到服务器，减少人为失误，web ssh

P6 自动化运维发展-服务化

服务化（API化）

DNS web管理 bind-DLZ dns-api

负载均衡web管理 slb-api

Job管理平台 job-api

监控Web管理 Zabbix zabbix-api

操作系统安装平台 cobbler-api

部署平台 deploy-api

配置管理平台 saltstack-api

自动化测试平台 test-api

1 调用cobbler-api 安装操作系统

2 调用saltstack-api 进行系统初始化

3 调用dns-api 解析主机名

4 调用zabbix-api进行该新上线机器加监控

5 调用saltstack-api 进行软件部署（Ngnix+php）

6 调用deploy-api 将当前代码部署在服务器上

7 调用test-api 测试当前服务是否正常

8 调用slb-api 将该节点加入集群

P7 自动化运维发展-智能化

智能化的自动扩容、缩容、服务降级、故障自愈

自动扩容

1 决策：

qps > 1000
并持续5分钟
不是攻击
资源充足

4.1) 资源池子充足

4.2) 网络带宽充足

4.3) 公有云账户余额充足

当前节点后端服务支撑量是否超过阈值，如果超后端先扩容（如依赖数据库，考虑数据库是否扛得住）

6）当前自动化扩容队列是否有其它扩容任务

其它业务相关

2 openstack 创建虚拟机

3 Saltstack 配置环境 — 加监控

4 部署系统部署当前代码

5 测试服务是否可用

6 加入集群

6 扩容完成通知

P8 基于ITIL的运维管理体系

技术：运维知识体系

管理：

1 服务管理ITIL

2 项目管理PMP

P9 ITIL 服务员运营-服务台

ITIL V3 将理论分成了5部分：

1）服务战略（Service Stragegy）

2）服务设计（Service Design）

3）服务转换（Service Translation）

4）服务运营（Service Operation）

5）持续服务改进（Continual Service Improvement）

ITIL V2

ITIL V3

智能

服务战略：战略生产、需求管理、服务组合管理、财务管理

服务设计：供应商管理、服务目录管理、信息安全管理、IT服务持续性管理、容量管理、可用性管理、服务级别管理（SLA）

服务转换：知识管理、评估、服务检验与测试、转换规划与支持、发布与部署管理、服务资产与配置管理(CMDB)、变更管理

服务运营：IT运营管理、应用管理、技术管理、请求实现、事件管理、访问管理、问题管理、事故管理、服务台

服务持续改进

SLA 服务级别协议 service level agreement

OLA 运营级别协议 Operation level agreement

CSF 关键成功因素 Critical Success Factor

KPI 关键绩效指标 Key Performance Indicator

月报

服务台：路由器、监视器、单一联系点、客服窗口、广播台、过滤器

故障职能升级

IT运维事件管理：

运营服务-故障管理

目标：快速恢复

分级：影响度 + 紧急度

运营服务-问题管理

目标：预防问题的产生及由此产生故障，消除重复出现故障，并对不能预防的故障尽量降低对其业务的影响。

故障管理和问题管理的区别

根本目标：尽快恢复 |查明根源，彻底解决

手段：应急措施或者代替方案 |永久性解决方案

关注点：速度 |质量（彻底性）

耗时：短 |长

优先级：根据影响度和紧急度，侧重紧急度|根据影响度和紧急度，侧重影响度

面向用户：需面向用户 |不面向用户

分类：可使用相同分类

问题管理的输入和输出：

输入：

故障的历史记录

问题识别和确认规则

问题记录单模板

IT基础架构、IT服务监控数据和报表

IT服务绩效与SLA差距分析报告

输出：

问题的根本原因

替代解决方案

永久性解决方案

变更请求（RFCs）（开发修改代码）

问题分类汇总报表

ITSM工具架构：

自动化运维平台：自动化安装、自动化配置、自动化部署、数据备份管理、系统集中管理
多维监控平台（zabbix）：网络监控、业务监控、流量分析、性能监控、预警报警
IT服务管理：事件管理、问题管理、变更管理、SLA管理、资产管理、可用性管理