今天,DeepSeek又开源了一款DeepGEMM,目前Star数已经是3.2k。这款开源库正掀起矩阵计算的效率革命。开源首日即登GitHub热榜,开发者评价:这是GPU编程的《道德经》——大道至简,衍化至繁 。
DeepGEMM是什么
DeepGEMM 是一个用于高效执行 FP8 矩阵乘法(GEMM)的库,支持细粒度缩放(fine-grained scaling)。它专为 NVIDIA Hopper 架构的张量核心设计,支持常规和混合专家模型(MoE)的分组 GEMM。该库使用 CUDA 编写,安装时无需编译,所有内核在运行时通过轻量级的即时编译(JIT)模块动态编译。
DeepGEMM优势
-
大道至简
仅仅用300行核心代码就在NVIDIA Hopper架构上实现了1350+ TFLOPS的恐怖算力,更以2.7倍加速比碾压传统优化库。
-
FP8精度革命
动态调整FP8数值范围,在保证精度的同时将内存占用压缩75%。
-
即时编译(JIT)
根据矩阵形状、硬件特性实时生成最优指令。
-
轻依赖
无需复杂环境配置,真正实现即插即用,让算力调优变得非常简单。
应用场景
自动驾驶:激光雷达点云处理帧率突破120 FPS,实时障碍物响应延迟压缩至8ms 。
医疗影像:TB级基因数据解析效率提升40%,癌症筛查周期从3周缩短至2天 。
开源地址
https://github.com/deepseek-ai/DeepGEMM