5635863 ascend 1586517030
1.3K
昇腾LLM分布式训练框架
Python
5小时前
12 mirrors 1578989292
61
DeepSeek-V3 是一个强大的 Mixture-of-Experts (MoE) 语言模型,它拥有671B个总参数,每个 token 有37B个激活参数
Python
6天前

搜索帮助