📚 一、技术知识主线:从算力租赁到 HAMi 原理
1. 算力租赁市场
- 主流平台分类:国内主流云(阿里云/腾讯云/华为云)、垂直AI平台(AutoDL/无问芯穹)、国际专业平台(Lambda Labs/CoreWeave)、共享算力平台(Vast.ai)
- 核心价值:通过 GPU 虚拟化技术,把昂贵的高端显卡“切碎”按需出租,降低成本
2. GPU 虚拟化
- 定义:把一张物理 GPU 切割成多个更小的虚拟 GPU(vGPU),分给多个任务使用
- 两种技术路线:
- 硬件辅助虚拟化:厂商官方支持(如 NVIDIA vGPU),性能好但需授权
- 软件虚拟化/API转发:通过劫持 CUDA 调用实现,成本低但性能开销稍大
- 核心价值:提升 GPU 利用率(从 <30% 到 80%+),降低算力成本
3. HAMi 是什么
- 定位:CNCF Sandbox 项目,开源的云原生 GPU 虚拟化中间件
- 三大核心能力:
- 共享与切分:一张物理卡切成多份 vGPU
- 隔离与调度:精确限制显存和算力,防止任务互相干扰
- 统一纳管:像管理 NVIDIA GPU 一样管理昇腾、海光等多种国产芯片
- 技术原理:三个组件协同工作
- HAMi 调度器 (Scheduler):智能决策,把任务分配到最合适的 GPU 卡
- 设备插件 (Device Plugin):资源上报、环境注入
- HAMi-Core:通过 LD_PRELOAD 劫持 CUDA API,强制执行显存和算力限制
4. 与 HAMi 类似的项目
- Volcano vGPU(华为,维护较少)、Orion vGPU(腾讯,维护较少)、vgpu_unlock(消费级显卡“破解工具”,仅限实验)、KAI Scheduler(专注调度策略,可与 HAMi 配合)
- 结论:HAMi 是目前 CNCF 唯一仍在持续迭代的综合方案
5. CNCF 与 Kubernetes 社区的关系
- CNCF:云原生生态的“运营方”(品牌、KubeCon、认证、治理)
- K8s 社区:技术创新的“发动机”(SIG 机制、OWNERS 文件、民主化决策)
- 特殊关系:不是 CNCF 创造了 K8s,而是 K8s 催生了 CNCF
- 权力划分:技术决策归社区,外围事务归 CNCF
6. 类似 CNCF 的开源组织
- Apache 软件基金会:大数据技术的摇篮(Hadoop、Spark、Kafka)
- Linux 基金会:开源“巨无霸”,CNCF 是其子基金会
- 开放原子开源基金会:中国的国家级开源基金会(OpenHarmony、openEuler)
🚀 二、职业发展主线:如何成为 HAMi 创始人这样的人
1. HAMi 创始人张潇是谁
- 云原生及异构算力虚拟化专家,曾在第四范式负责一体机项目
- 上海密瓜智能科技有限公司 创始人兼 CEO,HAMi 作者
- 商业化路径:开源项目 → CNCF Sandbox → 成立公司 → 种子轮 500 万 → 天使轮数千万
2. HAMi 的商业化故事
- 孵化期:在 DaoCloud 道客内部孵化,验证商业模式
- 融资节奏:2025.1 成立公司 → 2025.3 种子轮 500 万 → 2026.1 天使轮数千万
- 三大战略:企业级产品、开源社区、商业化变现
- 核心洞察:开源是护城河,商业是放大器
3. 成为 HAMi 创始人这样的人的路线图
阶段一:积累期(1-3年)
- 深耕垂直领域(GPU 虚拟化/异构算力),积累实战经验
- 写博客记录学习过程,建立个人品牌
- 加入相关开源社区,从 good-first-issue 开始
阶段二:爆发期(1-2年)
- 找到真实痛点,启动自己的开源项目 MVP
- 选择合适的开源协议(推荐 MIT 或 Apache 2.0)
阶段三:放大期(1-3年)
- 把社区当核心资产,建立贡献者阶梯
- 申请 CNCF Sandbox,获得全球背书
- 从 KCD 开始演讲,再到 KubeCon
阶段四:商业化期(1-2年)
- 选择商业模式(Open Core、托管服务、技术支持)
- 融资节奏:先有用户和社区,再融资
4. 新可能:AI 时代的加速路径
- 案例:金融背景的杨天润,一行代码没写,仅用 AI 辅助进入了 OpenClaw 贡献者前 30 名
- 方法论:把 AI 当“大师”而不是工具,组建“AI 军团”(PM Agent + CTO Agent + CMO Agent)
🎤 三、实践落地:如何使用 HAMi + 如何登上演讲舞台
1. HAMi 的使用方法
安装部署(推荐 Helm):
1
2
helm repo add hami-charts https://project-hami.github.io/HAMi/
helm install hami hami-charts/hami --set scheduler.kubeScheduler.imageTag=<K8s版本> -n kube-system
提交任务(Pod YAML):
1
2
3
4
5
resources:
limits:
nvidia.com/gpu: 1 # 1个vGPU
nvidia.com/gpumem: 3000 # 3000MiB显存
nvidia.com/gpucores: 30 # 30%算力
2. 去 KCD/KubeCon 演讲的路径
| 平台 | 难度 | 适合人群 | 核心要求 |
|---|---|---|---|
| KCD | ⭐⭐ 较低 | 所有社区成员,包括新手用户 | 真实的使用经验、实践案例 |
| KubeCon | ⭐⭐⭐⭐ 较高 | Maintainer、Ambassador、资深专家 | 深度技术内容 + 社区影响力 |
你的进阶路线:
- 近期:使用 HAMi,写博客记录经验
- 第一次:关注 KCD,提交闪电演讲(10分钟)
- 长期:持续贡献 → 成为 Reviewer → 冲击 KubeCon
📖 四、你的专属学习路线图
第一阶段:通用技术基础(6-9个月)
| 技术领域 | 核心内容 | 重要性 |
|---|---|---|
| Linux 操作系统 | 文件系统、进程管理、网络、Shell | ⭐⭐⭐⭐⭐ |
| Kubernetes | Pod、Service、调度器、设备插件 | ⭐⭐⭐⭐⭐ |
| 容器技术 | Docker、容器运行时 | ⭐⭐⭐⭐⭐ |
| Go 语言 | HAMi 主语言 | ⭐⭐⭐⭐⭐ |
| CI/CD | GitHub Actions | ⭐⭐⭐⭐ |
| 可观测性 | Prometheus + Grafana | ⭐⭐⭐⭐ |
第二阶段:专业领域深入(3-6个月)
| 核心技术 | 学习重点 |
|---|---|
| GPU 虚拟化 | NVIDIA vGPU/MIG、CUDA API、HAMi-core 原理 |
| 异构计算 | 国产芯片(昇腾、海光)编程模型 |
| K8s 调度扩展 | 调度框架、设备插件机制 |
第三阶段:社区参与与领导(持续)
- 从
good-first-issue开始提交 PR - 成为 Member(5 个 PR 或 5 个 PR 审核)
- 成为 Reviewer(负责特定模块)
- 成为 Maintainer(战略决策 + 社区领导)
💎 五、核心洞见总结
-
技术层面:GPU 虚拟化是 AI 基础设施的核心环节,市场千亿美元级,年增长 20%+,窗口期仍在
-
职业层面:张潇不是一天变成的,他在第四范式的积累 + HAMi 的开源爆发 + 融资商业化,每一步都有迹可循
-
行动层面:你现在就可以开始——跑通 HAMi → 写博客 → 提交 PR → 投 KCD CFP
-
核心理念:项目才是真正的名片。张潇能站在 KubeCon 的舞台上,不是因为他是“张潇”,而是因为他做了 HAMi。