DeepSeek更新DeepGEMM:Mega MoE融合算子+FP4支持,底层算力再突破
📅 2026年4月20日📰 GitHub⏱️ 阅读时间 11 分钟
🔥 底层算力的「隐形革命」。DeepSeek发布了DeepGEMM开源以来最大规模的更新——Mega MoE融合算子让通信和计算重叠执行,FP4支持将权重内存减半,PDL消除GPU空闲时间。当所有人盯着模型排行榜时,真正决定成本的底层计算正在被重写。
核心数据
- ⭐ GitHub Stars:6,700+
- 🍴 Forks:897
- 📄 许可证:MIT
- 🏭 支持架构:SM90 / SM100(Hopper /下一代)
- 🧮 精度支持:FP8、FP4、BF16
四大核心技术突破
1️⃣ Mega MoE 融合算子
- 🔄 通信-计算重叠执行
- ⚡ 异步通信,消除GPU空闲
- 🧩 多个MoE操作融合为单一内核
- 📈 整体吞吐量显著提升
2️⃣ FP4 精度支持
- 🔢 FP8xFP4 混合精度矩阵乘法
- 📋 FP4索引器(V3.2 MQA)
- 💾 权重内存占用减半
- ⚖️ 精度与速度的极致平衡
3️⃣ PDL 程序化依赖启动
- 🚀 操作完成立即启动下一个
- 🚫 无需显式同步点
- 💪 SM利用率大幅提升
- 🎯 SM90+架构特性
4️⃣ JIT 编译加速
- 📦 安装无需CUDA编译
- ⏱️ 首次使用自动编译
- 💾 后续运行缓存结果
- ⚡ 编译速度显著提升
Mega MoE:通信与计算的重叠革命
传统MoE vs Mega MoE
支持的计算功能
| 功能 | 精度 | 说明 |
|---|---|---|
| 密集GEMM | FP8/FP4/BF16 | 标准矩阵乘法 |
| 分组GEMM(连续) | FP8/BF16 | 连续内存布局 |
| 分组GEMM(掩码) | FP8/BF16 | 掩码布局分组计算 |
| V3.2 MQA内核 | FP4 | 多查询注意力索引器 |
| Mega MoE | FP8/BF16 | 🆕 融合专家混合层 |
为什么底层算力很重要?
💰
训练成本
更高效的GEMM = 更少的GPU小时 = 更低的训练账单
⚡
推理速度
MoE融合算子直接减少用户等待时间
🏗️
模型规模
FP4支持使得万亿参数模型成为可能
DeepSeek的开源策略
📅 开源时间线
- • 2025年2月:开源DeepGEMM FP8内核
- • 2026年4月:Mega MoE + FP4重大更新
- • Stars从0增长到6.7k
🎯 战略定位
- • 「开源底层、服务上层」策略
- • 与NVIDIA CUDA生态互补
- • 为中国AI芯片提供独立计算库
硬件要求
| 需求 | 规格 |
|---|---|
| GPU | NVIDIA SM90(H100/H200)或SM100 |
| Python | 3.8+ |
| CUDA | SM90: 12.3+(推荐12.9+)/ SM100: 12.9+ |
| PyTorch | 2.1+ |
| CUTLASS | 4.0+ |
📌 为什么这很重要?
大模型的竞争不仅在上面——谁的模型更聪明,也在下面——谁的算力更便宜。DeepGEMM的Mega MoE和FP4更新,直接降低了MoE模型的训练和推理成本。当DeepSeek持续开源底层计算库,它不只是在发布代码,更是在重新定义AI基础设施的成本基准线。