KAI-Scheduler vs HAMi:Kubernetes GPU 共享的两条路(软隔离 vs 硬隔离)
从工程视角拆解 KAI-Scheduler 的 Reservation Pod 机制,以及 HAMi 的硬隔离路径;对比两者在调度表达、隔离保障、落地成本与适用场景上的差异,并给出可组合的协同思路。
分类 GPU 下的文章。
从工程视角拆解 KAI-Scheduler 的 Reservation Pod 机制,以及 HAMi 的硬隔离路径;对比两者在调度表达、隔离保障、落地成本与适用场景上的差异,并给出可组合的协同思路。
从工程实践出发,解析 hetGPU 系统如何实现 GPU 二进制的跨平台兼容,支持运行时 JIT、SIMT vs MIMD、内存模型、状态捕获与跨 GPU 迁移等。
围绕 gpu-manager 的启动流程、设备拦截、拓扑感知与分配机制,系统解析 Kubernetes 下 GPU 虚拟化的工程化路径。