系统梳理 GPU overprovisioning 的常见实现路径,包括调度超配、时间切片、显存限制、MIG、vGPU、队列回填与准入治理,并分析各自的收益、风险与适用边界。
CFN Cloud
聚焦 Kubernetes、云原生与平台工程的实战经验与可落地指南。
热门主题
精选阅读
如果第一次进入这个站,可以先从这里开始读。
从成本结构、交付速度、性能确定性、运维负担与团队能力出发,分析创业公司在 Serverless GPU 与 Dedicated GPU 之间该如何做阶段性选择。
深度剖析 Linux glibc (ptmalloc2) 的堆内存分配、回收策略,解密 Arena、Chunk、Bins(Fast, Small, Large, Unsorted) 数据结构,并延伸讲解 Use-After-Free 等经典漏洞原理视角。
从体积、架构、安全性到适用场景,系统对比 OpenClaw、ZeroClaw、PicoClaw、Nanobot 与 IronClaw 这 5 款 AI Agent 框架。
从工程视角拆解 KAI-Scheduler 的 Reservation Pod 机制,以及 HAMi 的硬隔离路径;对比两者在调度表达、隔离保障、落地成本与适用场景上的差异,并给出可组合的协同思路。
从工程实践出发,解析 hetGPU 系统如何实现 GPU 二进制的跨平台兼容,支持运行时 JIT、SIMT vs MIMD、内存模型、状态捕获与跨 GPU 迁移等。
专题阅读路径
从基础理解开始,一路看到落地实践、权衡与排障细节。
近期文章
来自主归档区的新笔记、指南和长文。
Kubernetes 上运行有状态应用:存储、身份与运维要点
从数据库和消息系统等场景出发,理解 Kubernetes 上有状态应用的部署方式、风险点与运维重点。
Kubernetes 部署 MySQL:StatefulSet、存储与服务访问
从单实例 MySQL 的角度讲清 Kubernetes 上数据库部署的基本做法,包括 StatefulSet、持久卷和 Service 访问。
Kubernetes 声明式配置:apply、漂移与对账机制
从 desired state 出发理解 Kubernetes 声明式配置,讲清 apply、配置漂移与持续对账在实际运维中的意义。
Kubernetes 金丝雀发布:更安全的灰度上线策略
理解 Kubernetes 中常见的金丝雀发布思路、流量验证方法与回滚策略,降低发布风险。
Kubernetes Service 详解:ClusterIP、NodePort、LoadBalancer 与 DNS
系统理解 Service 如何为 Pod 提供稳定访问入口,并掌握 ClusterIP、NodePort、LoadBalancer 的区别与排障方法。
Kubernetes Namespace 详解:资源隔离、作用域与团队边界
搞懂 Namespace 在 Kubernetes 中如何组织资源、隔离环境、配合配额与权限控制支持多团队协作。
Kubernetes Pod 详解:生命周期、调度与排障基础
从容器编排视角理解 Pod 的本质、生命周期、重启机制与常见排障命令,打牢 Kubernetes 基础。
Kubernetes Deployment 与 ReplicaSet:滚动更新和声明式发布
搞懂 Deployment 与 ReplicaSet 的关系、滚动更新流程,以及发布失败时应如何定位和回滚。
安装 Minikube 并启动本地集群:给自己配把实战微冲
别去折腾复杂的生产级 K8s 搭建了。用 Minikube 在笔电里瞬间拉起一个真实可破的本地演练沙盒。
K3s 入门:轻量级 Kubernetes 的安装、场景与实践
理解 K3s 与标准 Kubernetes 的差异,快速完成安装,并用它搭建轻量实验或边缘计算环境。
Kubernetes 入门:它解决什么问题,又不解决什么
从产品与工程视角理解 Kubernetes 的价值边界,搞懂它为什么适合现代服务部署、扩缩容与持续运维。
Kubernetes 架构入门:控制平面、节点与对账循环
从 API Server、Scheduler、Controller Manager 到 kubelet,系统理解 Kubernetes 控制平面、工作节点与对账机制。
Kubernetes 学习路线图:一套从入门到实战的 Quick Start 指南
按正确顺序学习 Kubernetes:先概念、再工作负载、再网络存储与排障,避免知识点碎片化。
Kubernetes 基础:一切皆为对象
把 Pod、Deployment 和 Service 大白话化,搞懂 Kubernetes 的底层设计哲学与 YAML 规范。