5635863 ascend 1586517030
1.3K
昇腾LLM分布式训练框架
Python
16小时前
12 mirrors 1578989292
63
DeepSeek-V3 是一个强大的 Mixture-of-Experts (MoE) 语言模型,它拥有671B个总参数,每个 token 有37B个激活参数
Python
1天前

搜索帮助