运维总监如何高效提高IT运维的效率
运维总监如何高效提高IT运维的效率?
员工大多数情况下以邮件或线下方式提出大量的服务请求,或者干脆找到自己熟悉的运维人员口头寻求帮助,久而久之,会进入一种怪圈,即每个运维工程师每天都会接收来自不同地方的大量服务请求,一整天都会十分地忙碌,但公司的同事却始终对运维部门所提供的服务不满意,认为自己的请求解决太慢,领导也对运维部门不满意,认为看不到工作的成果与工作量的度量展现,反而会听到大量对运维部门效率低下的抱怨。
出现这种怪圈的时候,证明公司的运维管理已经开始面对巨大的挑战,此时的运维部门负责人甚至公司的CIO就要考虑如何考核IT人员工作量、提升IT问题处理效率,是时候开始重新规划运维部门的运作方式了。
01. 业务战略决定IT战略
首先需要认识到一点,企业的业务战略会决定IT战略,而IT战略会决定我们运维部门的最核心职能,如果不跳出怪圈,我们的运维部门就会背离企业的IT战略,从而不能服务于更高级别的企业战略,拖累企业的发展。
从这位咨询者的问题描述来看,该运维部门的核心职能主要有两点:一是保证公司IT业务系统的稳定性与连续性(运维的核心),二是保证有能力对公司各部门提供相应IT服务(大量桌面运维)。
想做到以上两点,不妨利用业界通用的OASR模型,先梳理清楚我们拥有的运维对象(Objects)、每天所需进行的运维活动(Activities)、由这些活动衍生出来哪些典型的运维场景(Scenes)、以及完成这些场景所需的运维角色(Roles)应具备什么样的能力。
就本运维部门来看,所负责的运维对象主要有基础架构、桌面端、各类账号资源等,每天进行的运维活动就是对承载业务系统的IT资源进行维护,包括基础资源的分配、应用系统的监控、部署等,同时承接大量的诸如账户开通、资产申请、桌面配置等桌面运维所涉及的活动。
可以将上述活动归结为资源运维场景、桌面运维场景这两大类,而涉及到的角色就僧我们的四个运维工程师,他们一定要具备相应能力才能完成自己部门的核心职能。
一个好的运维部门规划应该最大化的针对自身情况和人员能力做相应的调整,而不应该一股脑照搬一些运维理论或者为了提升而专门用自身运维团队去匹配某些固定场景、流程的运维工具。
因此,根据OASR模型对运维工作所做的梳理,可以提供三点最主要的改进点,分别是:
组织保障:只有部门内部分工明确、能力到位,才能有效处置各类服务请求。
流程管控:需要将所有服务请求收敛到统一入口,建立服务台机制,从零线到三线流程规范,制定相应SLA来保证服务质量,这样才能将混乱的服务请求管理转变为高效的请求处置,同时因为有了统一的入口,也能度量相应的运维人员工作量,提高领导的满意度。
技术支撑:需要有相应的工具来辅助有限的工程师来完成上面梳理出来的两大运维场景:资源运维与桌面运维。下面将对这三点展开说明。
1)组织保障
从该公司来看,因组织架构简单,只对人员做分工即可。这里推荐使用职能型的组织分工,各成员专注于自己的工作与任务,有如下几种分工方式做参考:
- 1桌面+2基础架构(服务器)+1数据库DBA
- 1桌面+2基础架构(服务器、数据库)+1网络/安全
如果桌面运维请求量特别多的话还可以变为两名桌面运维,2桌面,1基础架构/数据库,1网络/安全。这样的分工可以在满足内部运维场景的同时,让各工程师有机会合理安排自己工作的优先级,并且在自己的专业领域内不断深耕,更高质量地完成自己的运维工作,提高用户对于其工作的满意度。
由此引出在合理分工保证员工各司其职的同时,出于持续经验的考量,企业还应建立相应的职级与人才培养机制,初期可设立两到三级(工程师、高级工程师、专家)的岗位职级,同时定期对其专业领域的工作做相应技术培训,确保其能力有一定冗余,能够支撑企业业务发展和扩张带来的更大更复杂的IT运维挑战。
2)流程管控
同样地,基于业界最佳实践ITIL体系,我们要找到最适合企业现状的调整策略,规划活动蓝图,形成适合自己内部情况的部门流程管理规划。就本例来说,当务之急是收敛服务入口、做出服务承诺(SLA)、度量运维工作。
建立统一的服务台门户,让用户可以从服务台处统一提单,服务目录的设计方式可以根据两大运维场景进行拓展,同时规定每种服务的响应与处理时间。
可以让桌面运维的工程师负责一线和部分二线的服务请求,剩余的人作为二线处置人员,兼有一些三线专家的能力,最重要的是,服务台一定要对所有服务请求做到闭环跟踪,在保证服务满意度的同时,方便后续进行度量计算来评估工作质量,如:是否满足SLA的指标要求,以及针对故障的MTTA、MTTR等。
值得一提的是,由于企业中经常会遇到大量相似的IT问题,因此知识库的建设必不可少,用户如果可以有相应的技术文章作为参考,可以自己处置大量常见的IT问题,这样可以释放部分桌面运维人力到其他更需要专业技术的运维工作中去,对此我们称之为零线服务。
3)技术支撑
为了满足资源运维与桌面运维两大场景,以及针对公司的运维流程管控,除人员能力外,我们一定要有相应的技术工具去支撑这些运维工作。
首先我们需要有灵活的流程工具去匹配流程管控的对应功能要求,需要具备的功能主要有:
- 可灵活编排的流程引擎;
- 满足从零线知识库到三线专家的功能及流程配置;
- 针对各项服务的度量指标。
其次,针对运维人员相对较少,却需要管理整个企业的IT资源的情况,我们需要有具备自动化能力的一体化平台去帮助工程师简化操作难度,完成日常的资源运维场景,该平台需具备如下能力:
- 统一的配置管理能力,辅助运维人员盘点运维IT对象;
- 全面的可观测能力,帮助运维人员做到实时感知,快速闭环的处理告警事件;
- 自动化能力,批量处理,提高运维效率,并将固定处置流程积累到平台中,成为企业的知识财产,更好地体现运维工作的价值。
有了上述三点方法,还需要运维工具的支撑才能顺利落地执行。
宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信–工作台–添加应用,搜索“IT服务”,排名第一的就是,或添加顾问: )。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长