目录

2024-11-30-系统运维工具KSysAK让运维回归简单

系统运维工具KSysAK——让运维回归简单

系统运维工具KSysAK——让运维回归简单

1.基本信息

1.1概述

系统异常定位分析工具KSysAK是云峦操作系统研发及运维人员总结开发及运维经验,设计和研发的多个运维工具的集合, 可以覆盖系统的日常监控、线上问题诊断和系统故障修复等常见运维场景

工具的整体设计上,力图让运维工作回归简单,让系统运维人员不需要深入了解内核就能找出问题的所在。

https://i-blog.csdnimg.cn/blog_migrate/cbfbac98f410bda6132985957dbe410f.png

系统运维工具按功能划分可分为监控和诊断模式:

  • 系统监控:针对各种系统资源(CPU、内存、网络、文件 IO、内核管理结构等)提供更精细化的资源监控,帮助业务运维实现细粒度的运维调度,高效运用资源。
  • 系统诊断:诊断的典型问题如负载异常、网络抖动、内存泄漏、IO毛刺、性能瓶颈、应用异常等,针对性的提供工具,同时尽量减少工具的专业性,让用户更易使用和解读。

而为了实现以上功能,并能够为用户提供简单易用操作界面,系统运维工具KSysAK提供了多个子工具,着重解决不同场景下的监控数据的采集、统计及数据诊断。

1.2环境详解

IP地址:100.2.93.133

架构:x86_64

类型:虚拟机

操作系统版本:KOS5.8-sp1

内核版本:4.19.91-27.4.7.kos5.x86_64

KSysAK版本:1.3.0

用户名:root

密码:123456a?

1.3工具

分类工具名称备注
内存泄露memleaktest_page_leak.ko模拟page泄露的工具
test_slab_leak.ko模拟slab泄露的工具
test_vmalloc_leak.ko模拟vmalloc 泄露的工具
延迟抖动runlatencytestrunlatency模拟进程运行延迟情况

Linux内核内存泄漏检测

内核内存泄漏是指在Linux系统中,由于代码中的错误或缺陷,分配给内核的内存未能被正确释放而导致的问题。这可能会导致系统性能下降,最终耗尽系统的可用内存,甚至导致系统崩溃。下面我将介绍一些在Linux系统中检测和解决内核内存泄漏的方法:

Linux内核内存分配有几种不同的机制,其中包括slab、page和vmalloc。

ksysak memleak内存泄露检测工具,包含以下几个步骤:

  1. 集成到项目中 :将ksysak memleak的内存泄漏检测代码集成到需要检测的项目中。这通常涉及将检测代码插入到项目的适当位置,以确保能够准确追踪内存分配和释放情况。
  2. 编译和运行项目 :使用适当的编译选项编译项目,并确保项目成功编译。然后运行项目,让其正常执行一系列操作,包括内存的申请和释放。
  3. 收集内存泄漏数据 :在项目运行期间,ksysak memleak将记录内存分配和释放的详细信息。这些数据包括每次内存分配的调用堆栈、分配大小、分配位置等。收集这些数据用于后续的内存泄漏分析。
  4. 分析内存泄漏数据 :使用ksysak memleak提供的分析工具,对收集到的内存泄漏数据进行分析。这可以帮助识别潜在的内存泄漏源头、内存泄漏的大小以及泄漏发生的位置。通过这些信息,开发人员可以准确地定位问题并采取相应的修复措施。
  5. 修复内存泄漏 :一旦通过分析工具确定了内存泄漏的位置和原因,开发人员就可以修复这些问题。修复可能涉及修改代码以确保正确释放内存、修复内存管理逻辑的错误等。在修复后,可以重新运行项目并使用ksysak memleak进行验证,确保内存泄漏问题已得到解决。

需要注意的是,ksysak memleak是一种基于宏调用的内存泄漏检测工具,它可能会对项目性能产生一定的影响。因此,在使用ksysak memleak进行内存泄漏检测时,建议仅在开发和调试阶段使用, 并在完成内存泄漏修复后将其从项目中移除 ,以确保项目的性能和稳定性不受影响。

2.1 page内存泄露检测

执行ksysak memleak -t page -i 80启动检测page内存泄露程序,运行80s(若来不及执行检测程序则可以延长时间)

https://i-blog.csdnimg.cn/blog_migrate/1161aff30757111f13ea598e41f462e7.png

https://i-blog.csdnimg.cn/blog_migrate/cfe955bca9840390f728cd6af1f5ef6e.png

https://i-blog.csdnimg.cn/blog_migrate/77e9afeb30741d744d06739d75c58f32.png

2.2 slab内存泄露检测

执行 slabtop 命令以查看当前系统的 Slab 使用情况

执行 cat /proc/slabinfo 命令,获取更详细的 Slab 缓存信息。

使用perf工具跟踪内核中的 Slab 分配和释放操作

执行ksysak memleak -t slab -i 80检测启动slab内存泄露检测程序,运行80s(若来不及执行检测程序则可以延长时间)

https://i-blog.csdnimg.cn/blog_migrate/facd32a2f1a796931e119159132a5f91.png

https://i-blog.csdnimg.cn/blog_migrate/f6fede7269b51d045484bb24c2f3f19d.png

https://i-blog.csdnimg.cn/blog_migrate/69e0d1d503f3c5619c21f91128b4aab7.png

OS 异常分析

OS异常分析是操作系统中的一种重要技术,用于处理在程序运行过程中发生的异常情况。当程序执行时遇到某些无法处理的错误或特殊情况时,操作系统会通过异常处理机制来响应,以保护系统的稳定性和安全性。

3.1系统巡查

执行#ksysak ossre_client -d 可扫描日志文件查看系统运行过程中的所有异常信息。

https://i-blog.csdnimg.cn/blog_migrate/386f0c83182125a8a71bc4b2cf2f39c2.png

等等异常信息

检测系统中延迟抖动

服务器操作系统运行过程中,对应用运行的干扰源可能会很多,但干扰不一定会对业务造成影响,所以至少需要包含这些干扰源的频率和运行时间,来评估是否是关键因素。

至少需要包括以下干扰源的统计:

  • 设备硬件中断 如果在业务运行过程中,某一类中断频率过高或者集中到某个 cpu,或者单次运行过长,那么都可能会影响到业务的性能,可以对中断进行打散绑定等操作观察效果。
  • 系统定时中断 系统定时器过多,也可能会对业务的唤醒造成延迟,通常可以分析业务进程是否有大量的使用高精度定时器。
  • 软中断 可能是网络流量是否有突发增加等。

Runlatency 作为系统运维工具KSysAK的一个子工具,用于诊断系统中可能影响应用运行延迟抖动的地方并输出延迟因素。其内核中监控影响进程调度的延时因素(关中断、长时间不调度、运行队列长)。可监控整个系统或单个进程的中断和调度信息,监控的数据包括:

进程/线程调度延迟,比如运行队列挤压、排队时间过长以及高优先级应用抢占或本身调度策略设置不合理。

中断和软中断响应不及时,业务运行过程会依赖于中断和软中断执行过程,包括网络收发包、IO 读写等。因此可以分析关中断时长来判断中断的响应时间。

内核态执行过长:包括系统本身存在的瓶颈以及内核里其他资源竞争等情况。

4.1检测系统中延迟抖动

执行系统延迟抖动模拟程序 testrunlatency.python (在/root)

https://i-blog.csdnimg.cn/blog_migrate/635d876c74ac594c92c391061b135fa2.png

执行ksysak runlatency -e 启动延迟抖动监控

https://i-blog.csdnimg.cn/blog_migrate/db4bab5de19c0e190b9b67d62b39fce4.png

执行 ksysak runlatency -r ./out , 将监控数据输出到out目录下

https://i-blog.csdnimg.cn/blog_migrate/29a5e54c576ce04499abcbab6a859863.png

执行ksysak runlatency -d 关闭监控

https://i-blog.csdnimg.cn/blog_migrate/eea1467bb0fc794002ac371b27aeff69.png

查看out目录下的输出结果如下:

https://i-blog.csdnimg.cn/blog_migrate/cb45c8445c8d536212170999d1af0533.png

nosch, hard, soft 类型的延迟信息,所属CPU,进程id,延时时间, 命令行,堆栈信息等。

使用curl用于测试Web应用的响应和时间,较小的延迟时间通常表示系统或服务能够更快地响应用户的请求

https://i-blog.csdnimg.cn/blog_migrate/c894ae97818cfbab4af286b1376f4d2a.png

产品总结

KSysAK是一款多个运维工具集合的“结晶”,它可以大大提高运维人员的工作效率,其主要功能是 系统的日常监控、线上问题的诊断和系统故障修复 ,对于系统的检测非常的详细,该产品的主要特点是覆盖面广,使用不受限,这大大体现了产品的实用和广泛性,让运维工作回归简单,让系统运维人员不需要深入了解内核就能找出问题的所在,非常方便!

总体来说,不管是对用户个人还是在岗的工作人员,这款工具一当之无愧的,但是在某些方面还是可以再优化的,例如:

  • 可以增强定制化 :工具应该允许用户更细粒度地定制模拟泄漏的场景。比如,用户应该能够指定泄漏的大小、速度、以及泄漏发生的位置。
  • 详细的报告 :工具应该生成详细且易于理解的报告,以帮助用户识别和解决内存泄漏问题。报告应该包括泄漏的大小、位置、以及可能的解决方案。
  • 实时检测和警报 :工具应该能实时监测内存泄露,并在发现潜在问题时向用户发出警报,这样有助于在问题严重前及时解决问题。

还可以做一个可视化界面,对于很多用户来说,命令行可能不爱看,或者说有点复杂,一个直观的用户界面将有助于用户更方便地使用这些工具。

最后,为了确保这些工具的有效性和准确性,建议定期进行质量测试和验证。这样可以确保它们在不同场景和配置下都能可靠地工作。

68747470733a2f2f62:6c6f672e6373646e2e6e65742f71715f35333834373835392f:61727469636c652f64657461696c732f313334383032363231