新闻技术突破

DeepSeek更新DeepGEMM:Mega MoE融合算子+FP4支持,底层算力再突破

📅 2026年4月20日📰 GitHub⏱️ 阅读时间 11 分钟

🔥 底层算力的「隐形革命」。DeepSeek发布了DeepGEMM开源以来最大规模的更新——Mega MoE融合算子让通信和计算重叠执行,FP4支持将权重内存减半,PDL消除GPU空闲时间。当所有人盯着模型排行榜时,真正决定成本的底层计算正在被重写。

核心数据

  • ⭐ GitHub Stars:6,700+
  • 🍴 Forks:897
  • 📄 许可证:MIT
  • 🏭 支持架构:SM90 / SM100(Hopper /下一代)
  • 🧮 精度支持:FP8、FP4、BF16
四大核心技术突破
1️⃣ Mega MoE 融合算子
  • 🔄 通信-计算重叠执行
  • ⚡ 异步通信,消除GPU空闲
  • 🧩 多个MoE操作融合为单一内核
  • 📈 整体吞吐量显著提升
2️⃣ FP4 精度支持
  • 🔢 FP8xFP4 混合精度矩阵乘法
  • 📋 FP4索引器(V3.2 MQA)
  • 💾 权重内存占用减半
  • ⚖️ 精度与速度的极致平衡
3️⃣ PDL 程序化依赖启动
  • 🚀 操作完成立即启动下一个
  • 🚫 无需显式同步点
  • 💪 SM利用率大幅提升
  • 🎯 SM90+架构特性
4️⃣ JIT 编译加速
  • 📦 安装无需CUDA编译
  • ⏱️ 首次使用自动编译
  • 💾 后续运行缓存结果
  • ⚡ 编译速度显著提升
Mega MoE:通信与计算的重叠革命
传统MoE vs Mega MoE
传统MoE实现计算等待通信…计算等待通信…GPU大量空闲 📉Mega MoE计算通信通信计算重叠 📈
支持的计算功能
功能精度说明
密集GEMMFP8/FP4/BF16标准矩阵乘法
分组GEMM(连续)FP8/BF16连续内存布局
分组GEMM(掩码)FP8/BF16掩码布局分组计算
V3.2 MQA内核FP4多查询注意力索引器
Mega MoEFP8/BF16🆕 融合专家混合层
为什么底层算力很重要?
💰

训练成本

更高效的GEMM = 更少的GPU小时 = 更低的训练账单

推理速度

MoE融合算子直接减少用户等待时间

🏗️

模型规模

FP4支持使得万亿参数模型成为可能

DeepSeek的开源策略
📅 开源时间线
  • • 2025年2月:开源DeepGEMM FP8内核
  • • 2026年4月:Mega MoE + FP4重大更新
  • • Stars从0增长到6.7k
🎯 战略定位
  • • 「开源底层、服务上层」策略
  • • 与NVIDIA CUDA生态互补
  • • 为中国AI芯片提供独立计算库
硬件要求
需求规格
GPUNVIDIA SM90(H100/H200)或SM100
Python3.8+
CUDASM90: 12.3+(推荐12.9+)/ SM100: 12.9+
PyTorch2.1+
CUTLASS4.0+

📌 为什么这很重要?
大模型的竞争不仅在上面——谁的模型更聪明,也在下面——谁的算力更便宜。DeepGEMM的Mega MoE和FP4更新,直接降低了MoE模型的训练和推理成本。当DeepSeek持续开源底层计算库,它不只是在发布代码,更是在重新定义AI基础设施的成本基准线。