6854763 mindspore 1604325217
16
MindSpore的vLLM插件,支持基于vLLM框架部署MindSpore模型的推理服务。
Python
1天前
12 mirrors 1578989292
10
vLLM 是一个快速且易于使用的 LLM 推理和服务库
Python
6天前
14713870 metax maca 1740555567
9
Fast and efficient attention method exploration and implementation.
1个月前
12 mirrors 1578989292
8
BentoML 是 AI 应用程序开发人员的平台,提供工具和基础架构来简化整个 AI 产品开发生命周期
Python
6天前
12 mirrors 1578989292
5
‌KTransformers‌是由清华大学的KVCache.AI团队与趋境科技联合发布的开源项目
Python
6天前
12 mirrors 1578989292
5
FlashMLA 是针对 Hopper GPU 优化的高效 MLA 解码内核,由 DeepSeek 开源,专为处理可变长度序列而设计,目前已投入生产环境
C/C++
6天前
12 mirrors 1578989292
3
DeepEP 是专为 Mixture-of-Experts (MoE) 和 expert parallelism (EP) 定制的通信库
C/C++
6天前
12 mirrors 1578989292
2
SGLang 是一个针对大语言模型和视觉语言模型的快速服务框架
Python
6天前
12 mirrors 1578989292
2
DeepGEMM 是一个专为简洁高效的 FP8 通用矩阵乘法(GEMM)设计的库
Python
6天前

搜索帮助