DeepGEMM是一个专注于为FP8高效通用矩阵乘法(GEMM)库,支持普通及混合专家(MoE)分组的矩阵计算需求,可动态优化资源分配以提升算力效率。 该库基于CUDA开发,采用轻量级即时编译(JIT)模块,在运行时动态编译内核,无需预先编译安装。
最近更新: 10个月前an advanced series of large Mixture-of-Experts (MoE) Vision-Language Models that significantly improves upon its predecessor, DeepSeek-VL
最近更新: 11个月前