系统梳理 GPU overprovisioning 的常见实现路径,包括调度超配、时间切片、显存限制、MIG、vGPU、队列回填与准入治理,并分析各自的收益、风险与适用边界。
CFN Cloud
聚焦 Kubernetes、云原生与平台工程的实战经验与可落地指南。
热门主题
精选阅读
如果第一次进入这个站,可以先从这里开始读。
从成本结构、交付速度、性能确定性、运维负担与团队能力出发,分析创业公司在 Serverless GPU 与 Dedicated GPU 之间该如何做阶段性选择。
深度剖析 Linux glibc (ptmalloc2) 的堆内存分配、回收策略,解密 Arena、Chunk、Bins(Fast, Small, Large, Unsorted) 数据结构,并延伸讲解 Use-After-Free 等经典漏洞原理视角。
从体积、架构、安全性到适用场景,系统对比 OpenClaw、ZeroClaw、PicoClaw、Nanobot 与 IronClaw 这 5 款 AI Agent 框架。
从工程视角拆解 KAI-Scheduler 的 Reservation Pod 机制,以及 HAMi 的硬隔离路径;对比两者在调度表达、隔离保障、落地成本与适用场景上的差异,并给出可组合的协同思路。
从工程实践出发,解析 hetGPU 系统如何实现 GPU 二进制的跨平台兼容,支持运行时 JIT、SIMT vs MIMD、内存模型、状态捕获与跨 GPU 迁移等。
专题阅读路径
从基础理解开始,一路看到落地实践、权衡与排障细节。
近期文章
来自主归档区的新笔记、指南和长文。
GPU Overprovisioning 怎么做:从超卖、共享到隔离的解决方案
系统梳理 GPU overprovisioning 的常见实现路径,包括调度超配、时间切片、显存限制、MIG、vGPU、队列回填与准入治理,并分析各自的收益、风险与适用边界。
创业公司怎么选:Serverless GPU vs Dedicated GPU
从成本结构、交付速度、性能确定性、运维负担与团队能力出发,分析创业公司在 Serverless GPU 与 Dedicated GPU 之间该如何做阶段性选择。
Linux 堆内存管理深入分析:基础机制到核心漏洞利用
深度剖析 Linux glibc (ptmalloc2) 的堆内存分配、回收策略,解密 Arena、Chunk、Bins(Fast, Small, Large, Unsorted) 数据结构,并延伸讲解 Use-After-Free 等经典漏洞原理视角。
OpenClaw、ZeroClaw、PicoClaw 怎么选:5 款 AI Agent 框架对比
从体积、架构、安全性到适用场景,系统对比 OpenClaw、ZeroClaw、PicoClaw、Nanobot 与 IronClaw 这 5 款 AI Agent 框架。
KAI-Scheduler vs HAMi:Kubernetes GPU 共享的两条路(软隔离 vs 硬隔离)
从工程视角拆解 KAI-Scheduler 的 Reservation Pod 机制,以及 HAMi 的硬隔离路径;对比两者在调度表达、隔离保障、落地成本与适用场景上的差异,并给出可组合的协同思路。
hetGPU:打破 GPU 二进制壁垒的探索
从工程实践出发,解析 hetGPU 系统如何实现 GPU 二进制的跨平台兼容,支持运行时 JIT、SIMT vs MIMD、内存模型、状态捕获与跨 GPU 迁移等。
Kubernetes vs Docker vs OpenStack:别把工具放在一个维度里比
用几个真实场景把三者边界讲清楚:Docker 负责装箱和运行,Kubernetes 负责编排和稳定运行,OpenStack 负责把硬件变成可自助申请的云资源池。
从 gpu-manager 启动流程看 Kubernetes GPU 虚拟化的工程路径
围绕 gpu-manager 的启动流程、设备拦截、拓扑感知与分配机制,系统解析 Kubernetes 下 GPU 虚拟化的工程化路径。
Linux CGroup 提权解析:从 V1 泥潭到 V2 的架构演进
抛开枯燥的内核术语,从一线排障的视角,系统梳理 CGroup 的核心细节、控制器的底层逻辑,以及生产环境中的避坑指南。
Linux 函数调用与栈帧机制
从汇编与调试视角拆解函数调用过程、栈帧布局、参数传递、返回地址与 ABI 约定。
ELF 文件简介:从 Section 到 Segment
用结构、示例与工具把 ELF 的类型、布局、重定位和动态链接串起来。
Kubernetes 生产排障 Playbook:Pending、CrashLoopBackOff 与流量故障
用可复用的流程诊断 Pending、CrashLoopBackOff、流量不通、DNS/网络和节点问题,把 Kubernetes 排障从拍脑袋变成可验证。
Kubernetes 探针最佳实践:存活、就绪与启动检查怎么配
从真实故障出发理解 Liveness、Readiness 和 Startup Probe 的职责边界,避免误探测导致重启和流量异常。
Kubernetes Tips:扩缩容不抖(HPA + VPA + Cluster Autoscaler)
把 requests 写对、HPA 行为调稳、VPA 做推荐、CA 能补容量,让扩缩容可预测而不是“抽风”。
Kubernetes NetworkPolicy 实战:默认拒绝、DNS 放行与安全上线
一步步上线 Kubernetes NetworkPolicy:先做默认拒绝,再放行 DNS 和关键依赖,避免策略一上就把业务打挂。
Kubernetes RBAC 最小权限实践:角色设计、绑定与风险收敛
从生产安全角度讲清 Kubernetes RBAC 最小权限设计,减少过宽授权、滥用 cluster-admin 和误绑风险。
Kubernetes Tips:用 Ephemeral Containers 排障(不污染生产镜像)
在不把 curl/dig/tcpdump 打进生产镜像的前提下,安全地进入 Pod 排查 DNS/网络/依赖问题。
Kubernetes Tips:用 PDB + Surge/Unavailable 做更稳的发布
把 Deployment 滚动升级参数与 PodDisruptionBudget 配合起来,降低发布与节点维护带来的可用性风险。
Kubernetes Tips:Requests & Limits(别踩坑版)
把 CPU/内存 requests 与 limits 讲清楚:调度、限流、OOMKilled、QoS、HPA/VPA 与容量规划。
Kubernetes 探针详解:Liveness、Readiness 与 Startup Probe
从原理到实践理解 Kubernetes 三类探针,避免误配置导致重启风暴、流量误摘除和启动失败。
用 Helm 在 Kubernetes 部署 MySQL 集群:上手与权衡
通过 Helm 快速部署 MySQL 集群,同时理解 Chart 默认值、持久化、网络与生产环境中的关键权衡。
kubectl port-forward 详解:安全调试 Kubernetes 服务
讲清 kubectl port-forward 的工作原理、适用调试场景,以及它和 Service、Ingress 的区别。
Kubernetes 上的 MySQL 主从复制:拓扑、存储与故障处理
理解 MySQL 主从复制在 Kubernetes 中的部署结构、存储要求、故障模式与关键运维检查点。
Kubernetes Headless Service 详解:DNS、Pod 身份与有状态服务
理解 Headless Service 为什么适合 StatefulSet、数据库和服务发现,以及它与普通 Service 的关键差异。
Kubernetes StorageClass 详解:动态供给、默认类与存储策略
理解 StorageClass 如何驱动动态供给,默认 StorageClass 有什么影响,以及如何选择合适的存储策略。
Kubernetes StatefulSet 详解:稳定身份、有序发布与持久存储
讲清 StatefulSet 为什么适合数据库和中间件,以及稳定网络标识、有序伸缩和持久存储的实际意义。
Kubernetes PV 与 PVC:持久化存储基础入门
理解 PersistentVolume 与 PersistentVolumeClaim 的绑定关系、生命周期以及 Kubernetes 存储排障思路。
临时卷(Ephemeral Volume)
临时卷与 Pod 生命周期绑定,适合缓存与中间文件。
Kubernetes ConfigMap 与 Secret:配置管理和敏感信息实践
讲清 ConfigMap 与 Secret 的使用边界、挂载方式与安全注意事项,减少配置漂移和敏感信息泄露风险。
Kubernetes Volume 基础:临时卷、持久卷与数据生命周期
从 emptyDir 到持久卷,理解 Kubernetes 常见 Volume 类型、数据是否持久,以及不同场景下的选型方式。