程序运维对接要素
目录
程序运维对接要素
文章目录
一、配置
1、对接文档
- 1)程序同学和运维同学对接的时候,不要想当然的认为运维都会做好的,口头上说的是很容易忘记的,一定要有对接文档,并且详细写清楚;
- 2)有对接文档以后,无论是平时遇到问题的处理、运维对接人的更替都是有好处的;
- 推荐 :腾讯共享文档
2、反复提醒确认
- 1)和运维对接的时候也发现,他们会照着我们给的做,至于内部实现,他们很少会关心,而且也没办法关心,毕竟是黑盒,对于程序来说不要过度依赖于运维,你才是主角;
- 2)有时候要把事情给他们说清楚,说了四五遍,最后可能还是记不住,所以最好的办法就是文档整理出来放在那里,并且反复提醒确认;
3、让运维弄清原理
*1)就像我们学习东西一样,有些东西弄清楚原理可能一辈子都不会忘记,但是如果只是死记硬背,可能几天就忘了;
- 2)所以不要偷懒,原理能说清楚也可以花点时间和他们说说;
4、配置的双重确认
- 1)配置文件配好了,为了保险,实际实现人都上外网的机器看下配置(服务器程序一般都会给权限,不给权限的话,服务器主程序一定要确认好),有没有按照你预想的来,确保万无一失;
5、防止误操作
- 1)为了防止程序上外网环境看日志时造成的突然关闭服务器的情况,尽量让运维能够提供下载日志的 ftp;
- 2)Windows 下的服务器,登陆时候不要登陆到有程序的会话上去;
6、时间节点控制
1)交付最终包的时间
- 1)项目组把控好给运维同学最终发布包的时间,如果要到半夜,确定好一定在XX时间以后,让运维休息够,运维可以定好闹钟,叫不醒的话电话、微信、QQ、钉钉一起上;
2)更新维护的时间
- 运维更新维护的时间 一般 是确定的,不确定因素有以下两个:
- i)配置对接的时候没有交接清楚,导致配置出错;
- ii)内网出现没有测试完全的点,外网更新完毕后发现问题;
第 i 种情况,还是要按照规范,把配置都和运维交代清楚;
第 ii 种情况,负责维护的人需要全局把控时间节点,将所有的问题都列出来,并且要有能力判断优先级,哪些问题必须解决,哪些问题可以开服后解决;一般如果是无状态的服务器,修改后可以随时重启的, 并且影响返回较小的,可以不占用开服时间,开服后继续解决;
二、监控
1、先发制人
- 1)在玩家之前发现问题的最好办法,就是运用运维的监控;
2、如何实施
- 1)程序这边负责写日志,运维监控日志关键字,如果出现严重问题的关键字打电话、告警、微信、钉钉等等;
- 2)如果次要问题的关键字出现,省掉打电话这一步;
3、监控对接文档
- 程序这边负责把自己做到的功能需要监控的,都填在共享文档里 。
三、关键字总结
共享文档
实现原理
提醒确认
二次检查
时间管理
监控告警