Openstack日常运维
目录
Openstack日常运维
运维工作内容
- 参与设计、审核、优化公司IT系统基础设施以及各应用系统的体系架构。
- 全面负责公司运维项目的系统升级、扩容需求与资源落实,配合开发需求,测试、调整运维平台;
- 负责网络以及交换机、路由器、服务器的网络设置、维护和优化、网络安全的监控、系统性能管理和优化、网络性能管理和优化;
- 建立面向开发部门,业务部门的服务流程和服务标准;
- 负责IT运维相关流程的规划、设计、推行、实施和持续改进;
- 负责设计并部署相关应用平台(包括操作系统和基础服务组件、自动化部署配置工具),并提出平台的实施、运行报告;
- 负责配合开发搭建测试平台,协助开发涉及、推行、实施和持续改进;
- 负责相关故障、疑难问题排查处理,编制汇总故障、问题,定期提交汇总报告;
- 负责云产品服务产品监控和应急反应,以确保云服务产品7*24小时的持续运行能力;
- 负责日常系统维护巡检工作及监控,提供IT软硬件方面的服务和支持,保证系统的稳定。
维护与诊断
控制节点
- 采用高可用部署
- 计划内停机尽量采用非高峰使用停机
- 计划外停机,提供备用机替换或利用编写好的安装配置脚本重新部署新机上
- 实时监测服务进程,进程宕机后利用自动脚本重启服务
- pstree -a
计算节点
- 计划内停机前,将宿主机内的虚拟机进行迁移,维护完成后恢复虚机
- 检查服务进程 ps aux | grep nova-compute
- 通过日志文件/var/log/nova/nova-compute检查恢复问题虚拟机
- 利用qemu-nbd命令挂载虚拟机磁盘到本地设备,检查修复失败的虚拟机
- 利用nova volume-detach 和nova volume-attach重新挂载卷存储
- 使用共享存储的虚拟机实在无法启动,可以新建虚拟机挂在其他宿主节点
- 可以利用恢复/var/lib/nova/instances恢复虚拟机
- pstree -a
检查网卡状态
ip -a
检查连通性
ping
检查网络
tcpdump
检查DHCP
Nova console-log
ps aux | grep dnsmasq
tcpdump
标准化修复与例行检查