新浪科技讯 2月26日上昼音问,DeepSeek开源周(OpenSourceWeek)第三日,在晓示开源MLA解码核FlashMLA以及DeepEP两款代码库后欧洲杯体育,DeepSeek本日再次晓示盛开了DeepGEMM代码库。
据DeepSeek方面先容,DeepGEMM是专为简易高效的FP8通用矩阵乘法(GEMMs)而筹算,它同期撑合手普通的和众人羼杂(MoE)分组的GEMM运算。该库使用CUDA编写,在装配经由中无需编译,通过在运转时使用轻量级即时编译模块来编译通盘内核。
当今,DeepGEMM仅撑合手英伟达Hopper架构运算,为处置FP8张量中枢累加不精确的问题,它接收了CUDA中枢的两级累加(提高)技巧。该代码库筹算特地简易,唯有一个中枢内核函数,代码量约为300行。
包袱裁剪:尉旖涵 欧洲杯体育