Cloud Future New Life

CFN Cloud

聚焦 Kubernetes、GPU 与 AI 基础设施的实战指南，并配套可直接使用的工程工具。

实用工具

边学习边使用工具

把 Kubernetes 与 AI 基础设施文章里的方法，落到可以直接操作的检查工具里。

YAML 差异审阅上线前对比 Kubernetes 清单差异。 NetworkPolicy 编辑器可视化设计入站和出站规则。

按主题浏览

精选阅读

第一次访问可以先看这些 Kubernetes、GPU 与 AI 基础设施精选内容。

2026-06-02

Linux 栈溢出保护：Canary、NX、ASLR、PIE 和 RELRO

Linux 栈溢出保护机制的问题拆解——canary、NX、ASLR、PIE、RELRO 如何工作，能挡住什么、挡不住什么，以及开启它们会搞坏什么。

阅读文章

2026-06-02

Linux 内存分配：brk、mmap 和 malloc 到内核的路径

拆开看 malloc 背后的系统调用——brk/sbrk 用于堆增长、mmap 用于大分配和线程 arena，以及内核侧的内存数据结构。

2026-06-02

Linux 动态链接：GOT、PLT、延迟绑定和 dlopen

拆开看 Linux 如何在运行时动态链接共享库——PIC、GOT、PLT、延迟绑定、gdb 追踪，以及 -fPIC 的真实代价。

2026-03-12

GPU Overprovisioning：超卖、共享、隔离和回滚边界

按场景拆开 GPU overprovisioning 的常见实现路径，包括调度超配、时间切片、显存限制、MIG、vGPU、队列回填与准入治理，并分析各自的收益、风险与适用边界。

2026-03-12

创业公司 GPU 选型：Serverless、Dedicated 和阶段性取舍

从成本结构、交付速度、性能确定性、运维负担与团队能力出发，分析创业公司在 Serverless GPU 与 Dedicated GPU 之间该如何做阶段性选择。

2026-03-05

Linux 堆内存管理：Arena、Chunk、Bin 和 Tcache

拆开看 Linux glibc (ptmalloc2) 堆内存管理——从 Arena、Chunk、Bin 到 Tcache，以及每层数据结构如何成为攻击面。

按主题阅读

专题导读

可以先看基础内容，再继续看运维和排障相关主题。

Kubernetes

围绕 Kubernetes 整理的连续阅读路径。

Kubernetes、Docker 和 OpenStack：边界、职责和选型 Kubernetes Ephemeral Containers：线上调试入口和权限边界 Kubernetes RBAC 最小权限：角色、绑定和风险收敛 Kubernetes NetworkPolicy：默认拒绝、DNS 放行和安全上线

System

围绕 System 整理的连续阅读路径。

Linux 栈溢出保护：Canary、NX、ASLR、PIE 和 RELRO Linux 内存分配：brk、mmap 和 malloc 到内核的路径 Linux 动态链接：GOT、PLT、延迟绑定和 dlopen Linux 堆内存管理：Arena、Chunk、Bin 和 Tcache

GPU

围绕 GPU 整理的连续阅读路径。

GPU Overprovisioning：超卖、共享、隔离和回滚边界创业公司 GPU 选型：Serverless、Dedicated 和阶段性取舍 KAI-Scheduler vs HAMi：Kubernetes GPU 共享的软隔离和硬隔离 hetGPU：跨厂商 GPU 二进制兼容的工程边界

近期文章

来自主归档区的新笔记、指南和长文。

2026-06-02 · 111 次浏览

Linux 栈溢出保护：Canary、NX、ASLR、PIE 和 RELRO

Linux 栈溢出保护机制的问题拆解——canary、NX、ASLR、PIE、RELRO 如何工作，能挡住什么、挡不住什么，以及开启它们会搞坏什么。

阅读这篇 →

2026-06-02 · 162 次浏览

Linux 内存分配：brk、mmap 和 malloc 到内核的路径

拆开看 malloc 背后的系统调用——brk/sbrk 用于堆增长、mmap 用于大分配和线程 arena，以及内核侧的内存数据结构。

阅读 →

2026-06-02 · 123 次浏览

Linux 动态链接：GOT、PLT、延迟绑定和 dlopen

拆开看 Linux 如何在运行时动态链接共享库——PIC、GOT、PLT、延迟绑定、gdb 追踪，以及 -fPIC 的真实代价。

阅读 →

2026-03-12 · 228 次浏览

GPU Overprovisioning：超卖、共享、隔离和回滚边界

阅读 →

2026-03-12 · 166 次浏览

创业公司 GPU 选型：Serverless、Dedicated 和阶段性取舍

从成本结构、交付速度、性能确定性、运维负担与团队能力出发，分析创业公司在 Serverless GPU 与 Dedicated GPU 之间该如何做阶段性选择。

阅读 →

2026-03-05 · 242 次浏览

Linux 堆内存管理：Arena、Chunk、Bin 和 Tcache

拆开看 Linux glibc (ptmalloc2) 堆内存管理——从 Arena、Chunk、Bin 到 Tcache，以及每层数据结构如何成为攻击面。

阅读 →

2026-02-26 · 481 次浏览

OpenClaw、ZeroClaw、PicoClaw：5 个 Agent 框架怎么选

从体积、架构、安全性到适用场景，按场景对比 OpenClaw、ZeroClaw、PicoClaw、Nanobot 与 IronClaw 这 5 款 AI Agent 框架。

阅读 →

2026-01-26 · 304 次浏览

KAI-Scheduler vs HAMi：Kubernetes GPU 共享的软隔离和硬隔离

按工程落地方式拆解 KAI-Scheduler 的 Reservation Pod 机制，以及 HAMi 的硬隔离路径；对比两者在调度表达、隔离保障、落地成本与适用场景上的差异，并给出可组合的协同思路。

阅读 →

2026-01-20 · 221 次浏览

Kubernetes、Docker 和 OpenStack：边界、职责和选型

用几个真实场景把三者边界讲清楚：Docker 负责装箱和运行，Kubernetes 负责编排和稳定运行，OpenStack 负责把硬件变成可自助申请的云资源池。

阅读 →

2026-01-20 · 255 次浏览

hetGPU：跨厂商 GPU 二进制兼容的工程边界

从工程实践看 hetGPU 系统如何实现 GPU 二进制的跨平台兼容，支持运行时 JIT、SIMT vs MIMD、内存模型、状态捕获与跨 GPU 迁移等。

阅读 →

2026-01-12 · 312 次浏览

Linux CGroup：V1、V2、CPU 节流和 OOM 行为

从实战排障视角梳理 Linux cgroup——V1 多层级的问题、V2 统一模型的改进，以及 CPU 节流、OOM 行为、生产调试的真实坑点。

阅读 →

2026-01-12 · 327 次浏览

gpu-manager 启动链路：Kubernetes GPU 虚拟化怎么落地

围绕 gpu-manager 的启动流程、设备拦截、拓扑感知与分配机制，系统解析 Kubernetes 下 GPU 虚拟化的工程化路径。

阅读 →

2026-01-09 · 265 次浏览

ELF 文件：Section、Segment、重定位和动态链接

用结构、示例与工具把 ELF 的类型、布局、重定位和动态链接串起来。

阅读 →

2026-01-09 · 271 次浏览

Linux 函数调用：栈帧、参数传递和 backtrace

从汇编与调试视角拆解函数调用过程、栈帧布局、参数传递、返回地址与 ABI 约定。

阅读 →

2025-12-29 · 276 次浏览

Kubernetes Ephemeral Containers：线上调试入口和权限边界

在不把 curl/dig/tcpdump 打进生产镜像的前提下，安全地进入 Pod 排查 DNS/网络/依赖问题。

阅读 →

2025-12-29 · 265 次浏览

Kubernetes RBAC 最小权限：角色、绑定和风险收敛

从生产安全角度讲清 Kubernetes RBAC 最小权限设计，减少过宽授权、滥用 cluster-admin 和误绑风险。

阅读 →

2025-12-29 · 275 次浏览

Kubernetes NetworkPolicy：默认拒绝、DNS 放行和安全上线

一步步上线 Kubernetes NetworkPolicy：先做默认拒绝，再放行 DNS 和关键依赖，避免策略一上就把业务打挂。

阅读 →

2025-12-29 · 264 次浏览

Kubernetes 自动扩缩容：HPA、VPA 和 Cluster Autoscaler 的边界

把 requests 写对、HPA 行为调稳、VPA 做推荐、CA 能补容量，让扩缩容可预测而不是“抽风”。

阅读 →

2025-12-29 · 236 次浏览

Kubernetes Requests 与 Limits：调度、限流和 OOM 边界

把 CPU/内存 requests 与 limits 讲清楚：调度、限流、OOMKilled、QoS、HPA/VPA 与容量规划。

阅读 →

2025-12-29 · 250 次浏览

Kubernetes 排障 Playbook：Pending、CrashLoopBackOff 和流量故障

用可复用的流程诊断 Pending、CrashLoopBackOff、流量不通、DNS/网络和节点问题，把 Kubernetes 排障从拍脑袋变成可验证。

阅读 →

2025-12-29 · 310 次浏览

Kubernetes 发布保护：PDB、Surge 和 Unavailable 怎么配

把 Deployment 滚动升级参数与 PodDisruptionBudget 配合起来，降低发布与节点维护带来的可用性风险。

阅读 →

2025-12-29 · 276 次浏览

Kubernetes 探针：存活、就绪、启动和故障信号

从真实故障出发理解 Liveness、Readiness 和 Startup Probe 的职责边界，避免误探测导致重启和流量异常。

阅读 →

2025-10-15 · 301 次浏览

Kubernetes 探针：Liveness、Readiness 和启动保护

从原理到实践理解 Kubernetes 三类探针，避免误配置导致重启风暴、流量误摘除和启动失败。

阅读 →

2025-10-14 · 339 次浏览

用 Helm 部署 MySQL 集群：Chart 默认值和运维边界

通过 Helm 快速部署 MySQL 集群，同时理解 Chart 默认值、持久化、网络与生产环境中的关键权衡。

阅读 →

2025-10-13 · 270 次浏览

kubectl port-forward：本地调试、隧道边界和误判

讲清 kubectl port-forward 的工作原理、适用调试场景，以及它和 Service、Ingress 的区别。

阅读 →

2025-10-12 · 252 次浏览

Kubernetes MySQL 主从复制：拓扑、数据和故障切换

理解 MySQL 主从复制在 Kubernetes 中的部署结构、存储要求、故障模式与关键运维检查点。

阅读 →

2025-10-11 · 265 次浏览

Kubernetes Headless Service：副本身份、DNS 和有状态应用

理解 Headless Service 为什么适合 StatefulSet、数据库和服务发现，以及它与普通 Service 的关键差异。

阅读 →

2025-10-10 · 263 次浏览

Kubernetes StatefulSet：稳定身份、有序发布和持久存储

讲清 StatefulSet 为什么适合数据库和中间件，以及稳定网络标识、有序伸缩和持久存储的实际意义。

阅读 →

2025-10-10 · 248 次浏览

Kubernetes StorageClass：动态供给、默认类和存储边界

理解 StorageClass 如何驱动动态供给，默认 StorageClass 有什么影响，以及如何选择合适的存储策略。

阅读 →

2025-10-09 · 263 次浏览

Kubernetes PV 与 PVC：绑定、回收和存储排障

理解 PersistentVolume 与 PersistentVolumeClaim 的绑定关系、生命周期以及 Kubernetes 存储排障思路。

阅读 →

1 / 2 下一页 →

CFN Cloud

边学习边使用工具

热门主题

精选阅读

专题导读

近期文章