目录

阿里云操作系统控制台体验与测评

【阿里云】操作系统控制台——体验与测评

引言

什么是操作系统控制台?

操作系统管理平台提供了操作系统相关的管理功能,包括运维管理、操作系统智能助手、扩展组件管理、订阅等功能,支持通过API、SDK、CLI等管理方式。致力于提供卓越的操作系统能力,提升操作系统的使用效率,并为用户带来全新的操作系统体验。

为什么选择操作系统控制台?

便捷易用:通过可视化页面管理操作系统,降低使用复杂度。

高效:通过可视化页面进行操作,可有效分析问题,无需依赖众多工具。

专业:可替代操作系统专业人员,分析问题并提供专业指导意见。

这里是:

需求介绍

现如今。随着对灵活、高效计算资源需求的增长,云服务器 ECS 已成为现代企业和开发者不可或缺的工具。它通过弹性配置和资源自动调整功能,能够帮助用户应对业务高峰、优化成本,并为开发环境提供支持。然而,单纯的云服务器管理可能仍需依赖专业工具来实现更高效的运维管理。这时,一款强大的操作系统控制台便显得尤为重要。它不仅提供了强大的管理、监控和诊断功能,还能在实际操作中帮助用户优化系统性能,确保业务稳定运行。因此,操作系统控制台在提升服务器管理效率、保障业务顺畅运行方面起到了至关重要的作用。

操作系统使用实例

  • 地域限制

    本功能目前仅支持中国内地与中国香港。

  • 操作系统限制

    https://i-blog.csdnimg.cn/direct/f86c997e50fb48f191eda8aa18b1d564.png

  • 前提条件

    如果您使用RAM用户,请确保阿里云账号(主账号)已将系统策略AliyunECSReadOnlyAccess和AliyunSysomFullAccess授予RAM用户。具体操作,请参见为RAM用户授权。

    已开通控制台权限。

    首次登录操作系统控制台时,单击开通服务以开通控制台服务。

    目标ECS实例已安装SysOM。具体操作,请参见安装组件。

上面是官方的前提条件提示,接下来我们一一进行实现

开通云服务器ECS

对于新用户,我们可以体验免费的云服务器ECS

https://i-blog.csdnimg.cn/direct/59776a41fd554cadb528e1f4b9785084.png

点击立即试用即可

https://i-blog.csdnimg.cn/direct/fe3f31444f354910a918bcc66d0d6a49.png

这里选择Alibaba Cloud Linux 3

https://i-blog.csdnimg.cn/direct/c28ec4a6d4234e118c43fd558819bdb0.png

RAM用户授权

我们跟着上面的使用条件一步一步来

首先RAM用户授权

https://i-blog.csdnimg.cn/direct/d3a5b5be8c954cef909be9cbb1ae2360.png

这里按照要求,我们选中这两个权限策略

https://i-blog.csdnimg.cn/direct/76030c32aa2445568ae7a5b5baa1cec1.png

添加之后,我们要记得点击启动控制台登录

https://i-blog.csdnimg.cn/direct/00e12588b7954b9898cfea300103a0da.png

阿里云操作系统开通

接下来我们就可以使用操作系统控制台了–

https://i-blog.csdnimg.cn/direct/0fde8fb224e54c1591047826915e4c3d.png

点击创建角色即可

https://i-blog.csdnimg.cn/direct/e0a372c23a464f26991c4a2479f599ec.png

组件安装

接下来点击组件管理

https://i-blog.csdnimg.cn/direct/51ed15a581ea462a917becabdc70db65.png

记住这里的地区要和ECS云服务器一致,要不然识别不到

https://i-blog.csdnimg.cn/direct/455442fd7d824960b76292db0e293910.png

接下来等待即可

https://i-blog.csdnimg.cn/direct/ad7ff6956db24ebe9680d60c0bbbe81e.png

等待片刻后执行成功

https://i-blog.csdnimg.cn/direct/e150a45b2060439f9f47de1c367c48fc.png

功能体验

下面就是整体是系统概览界面

这里指的就是主机健康,主要监测的是主机的CPU、内存、磁盘和网络的资源利用情况等,最终得到一下综合的监控分数

https://i-blog.csdnimg.cn/direct/931270e46dd248a38c484866fb3ac88d.png

我们也可以查看单个节点的健康情况,上面的集群概览,毕竟我们只有一台主机

https://i-blog.csdnimg.cn/direct/f95a6f8b71b44932926e71e34f83c74d.png

https://i-blog.csdnimg.cn/direct/c3bdf64ffe2540b7b1b66fc1cbfc9cb5.png

系统诊断

这里针对类型有五个类别,对应还有两个不同的诊断项

https://i-blog.csdnimg.cn/direct/af6e7447726742648ea309d15aacd5fc.png

我们随机选择一组,进行诊断,下面是报告的部分详细内容,一共包含几个类别

  • 基础信息
  • 诊断结论
  • 诊断建议
  • 诊断详情

从诊断报告来看,内容还是十分详细的。对比内存、内核态内存、用户态内存中具体的占比情况,方便用户清晰的观察,另外使用的是扇形图也更加的直观明了

https://i-blog.csdnimg.cn/direct/5c7e07efdd6b4220bfae9f4b72905b16.png

系统检测

从导航栏来看目前支持观测的有三个,分别是进程热点追踪、热点对比分析和AI Infra观测


我们测试一下进程热点追踪,选择一下对应ID等,进行分析,下面是具体的分析结果~

分析结果

idle进程(0)

idle:0进程的热点调用栈显示了CPU在空闲状态下的调度和负载均衡活动。热点原因:系统在多核间进行负载均衡时,频繁检查和迁移任务导致。场景:当系统负载不均或有大量短时任务时出现。优化建议:首先,使用sysom平台的livetrace工具诊断CPU占用情况。其次,检查应用是否能优化任务分配,减少跨CPU迁移。最后,调整内核参数如/proc/sys/kernel/sched_migration_cost_ns以延长迁移判断时间,降低不必要的调度开销。

https://i-blog.csdnimg.cn/direct/5c6e9a4f52c442628086043714c55bd7.png

下面的关系热点图也可以进入全屏,非常直观的为用户展示,同时可以在右上角切换排列方式

https://i-blog.csdnimg.cn/direct/09257728f4c84305ba7f4824a3b4de5b.png

热点对比分析

我们用过对比

https://i-blog.csdnimg.cn/direct/1510ac6b3ff0447bb6d64f76bdd71cee.png

分析结果如下:

tuned进程(636)

通过调用栈分析,热点原因可能是select系统调用导致的长时间等待。select用于监听文件描述符的变化,当大量或复杂条件未满足时,会导致进程挂起,增加CPU调度开销。

场景:应用可能在高并发下频繁使用select监控多个文件描述符,或超时设置不合理。

优化建议:

使用更高效的I/O多路复用机制如epoll。

减少单次select监控的文件描述符数量。

调整超时参数,避免过长等待。

建议用户通过SysOM平台的livetrace工具进一步诊断CPU占用情况,定位具体瓶颈。

ilogtail进程(1577)

通过调用栈分析,热点主要集中在系统调用返回用户模式和信号处理部分。这表明ilogtail:1577进程频繁进行系统调用或遭遇大量信号中断。

可能原因及场景

应用可能在高频率执行I/O操作、创建/销毁线程或进程,亦或是频繁触发信号处理机制,如定时器信号。

优化建议

检查并减少不必要的系统调用。

优化I/O操作,考虑批量处理。

调整信号处理逻辑,降低信号触发频率。

使用sysom平台的livetrace工具进一步定位具体函数耗时情况,针对性优化代码。

以上调整可有效缓解热点问题。


从分析结果来看,详细的分析了进程的场景、优化建议等内容,还是十分详细客观的

智能助手

在组件管理我们安装即可

但是目前平台仅能实现对实例智能助手的安装、更新和卸载,然而并不能实现在控制台就可以访问

感兴趣的可以参考下面两篇大佬的文章

https://i-blog.csdnimg.cn/direct/d8897b38f4cb4a30a65af05768a6fce8.png

获得的帮助与提升

对于经常利用云服务的客户,这无疑是一款十分强大的系统,健康系统作为一大亮点,是最好的,不光用户能够更高效地管理和监控云服务器实例的健康状态。系统提供了详细的监控数据和诊断报告,帮助用户迅速发现并解决潜在的问题。例如,CPU、内存、磁盘和网络资源的使用情况可以实时显示,用户可以直接查看这些数据并根据诊断报告采取相应的优化措施。借助智能助手,操作系统控制台进一步简化了管理流程,使得无经验的用户也能轻松上手,极大地提高了操作效率。同时,系统的进程热点追踪和对比分析功能,让用户能够精确定位性能瓶颈,并提供优化建议,有效提升了资源的利用率和系统的稳定性。但是同样对于我个人而言有一点小小的建议。

建议

  • 诊断报告等类似可以选择提供下载,对于有这方面需求的人员会不会更好一点呢
  • 最后的智能助手是否可以更加便捷的让用户使用,这样对于学生党或者小白是比较友好的