diff --git a/SUMMARY.md b/SUMMARY.md index 3bceadd52ea71ae4d2882de7a00a201e1a1d12e8..002ec08cb8d82b69d68009b400d027743a2e9c66 100644 --- a/SUMMARY.md +++ b/SUMMARY.md @@ -7,6 +7,7 @@ * [跨云-边-端的只读文件系统 EROFS](./cloud_native/erofs.md) * [数据库/JAVA等高性能场景中的内存优化](./cloud_native/hugetext.md) * [跨处理器节点内存访问优化](./cloud_native/duptext.md) + * [敏捷开发场景下的调度器热升级SDK](./cloud_native/plugsched.md) * [一云多芯硬件生态](./multi_arch/README.md) * [Intel SPR平台支持](./multi_arch/intel_spr_support.md) * [龙蜥 Arm 生态支持](./multi_arch/arm_support.md) diff --git a/cloud_native/plugsched.md b/cloud_native/plugsched.md new file mode 100644 index 0000000000000000000000000000000000000000..40296cf7936693620ac4c7580ee4245dac34f893 --- /dev/null +++ b/cloud_native/plugsched.md @@ -0,0 +1,27 @@ +# 敏捷开发场景下的调度器热升级SDK + +tags: 云原生场景, Anolis8 + +## 背景概述 + +不同的应用程序,通常需要不同的调度策略来优化性能。而内核发布周期很长,升级内核的成本通常较高,优化无法快速规模化部署。并且针对特定应用的调度器优化,常常造成其他场景的性能回退,发生问题也难以回滚。通过传统热修复技术,可以在不升级内核的情况下,实现内核局部更新和优化,针对性提升一些应用的性能。但传统技术无法实现整个子系统升级,不支持大型调度特性,停机时间长。而调度器热升级技术解决了以上问题。 + +## 技术方案 + +调度器热升级 SDK 通过模块化、数据重建、热替换等技术,实现调度器研发、测试、上线、维护的敏捷化和定制化。其中,模块化技术自动地从内核中解耦出调度器模块代码,面向内核开发者提供敏捷开发的 SDK ;热替换技术使得管理员可在毫秒级 downtime 内部署;数据重建技术将数据状态从升级前的调度器迁移到升级后的调度器。通过这些技术,可以实现定制化调度器,从而解决不同应用和负载需要不同调度器的问题,并实现生产可用。相关论文「Efficient Scheduler Live Update for Linux Kernel with Modularization 」已经发表在体系结构顶会 ASPLOS '23 上。软件架构如下图所示: + +![图 调度器热升级技术架构](../materials/imgs/cloud_native/plugsched/overview.jpg) + +方案兼容多架构、内核版本。已测试通过的包括 AArch64、x86-64 架构,4.19、5.10系列内核。对 3.10 系列内核提供有限支持。方案同时支持各种调度器特性,经测试验证通过的包括以下:微型调度器、物理核调度器(Core Scheduling)、删除限流功能(CFS bandwidth control)、龙蜥 CPU 混部特性等、上游 Linux 社区的各种 bugfix。 + +## 应用场景及性能收益 + +调度器热升级 SDK 适合于下面几种场景,这些场景均已得到验证。 + +- 架构上有针对特殊硬件、应用、负载来定制化调度器的需求。 +- 管理员不能切换内核,或周期很长;或由于社区运作停止内核版发布和维护。 +- 内核开发者需要敏捷且可回滚地开发测试上线调度器。 + +某云 Serverless 服务,通过调度器热升级 SDK,将 Linux 上游物理核调度器特性,以及基于之上自研的算力稳定技术,安装到龙蜥 4.19 内核老系统上。最后通过这一优化,他们的客户实例减少了约 10% 的 P99 延迟,并降低了性能的抖动,还大幅降低了启动时间。验证了调度器热升级方便支持大型特性以及扩展研发的能力。 + +某互联网金融服务公司,利用调度器热升级 SDK,敏捷地将他们自研的调度器优化安装到他们的核心业务中。包括了 Linux CFS 调度器和龙蜥内核的 CPU 资源隔离技术的优化。稳定减少了 5% 的 CPU 资源浪费,同时降低业务 rt。上线过程中,在 40,000 线程的环境中,停机时间小于 12 ms。最终优化效果得到运维人员的认可,调度器热升级 SDK 的易用性也得到研发人员的认可,希望继续使用调度器热升级 SDK 进行系统优化。 diff --git a/materials/imgs/cloud_native/plugsched/overview.jpg b/materials/imgs/cloud_native/plugsched/overview.jpg new file mode 100644 index 0000000000000000000000000000000000000000..f2a644cd7718989a88e0bcc3102210924dd1e246 Binary files /dev/null and b/materials/imgs/cloud_native/plugsched/overview.jpg differ