From b45f00ea001569faed0bbca26a2d0181181ed053 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E8=8E=AB=E9=80=B8=E8=81=AA?= Date: Mon, 20 May 2024 16:08:33 +0800 Subject: [PATCH] GPT-2 readme modification --- PyTorch/built-in/nlp/GPT-2_for_PyTorch/README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/PyTorch/built-in/nlp/GPT-2_for_PyTorch/README.md b/PyTorch/built-in/nlp/GPT-2_for_PyTorch/README.md index dc82a49eac..aa65653cf4 100644 --- a/PyTorch/built-in/nlp/GPT-2_for_PyTorch/README.md +++ b/PyTorch/built-in/nlp/GPT-2_for_PyTorch/README.md @@ -11,7 +11,7 @@ ## 简述 -Megatron 和 DeepSpeed 是两个很重要的预训练框架。Megatron 是英伟达做的超大规模预训练模型框架,主要是利用 tensor parallel 做性能优化以及 mode parallel。DeepSpeed 是微软团队做的深度学习加速框架。这两个团队合作构造出 Megatron-DeepSpeed 框架,相当于是把两个框架的特点结合在一起,并用它训练一个 530B 的模型。 +Generative Pre-trained Transformer 2(GPT-2) 是OpenAI发布的一个用于自然语言处理(NLP)的大型语言模型,也是其基础GPT模型系列中的第二个。GPT-2在800个网页的数据集上进行了预训练。它于2019年2月部分发布,随后于2019年11月5日全面发布了含有15亿个参数的模型。 - 参考实现: @@ -46,6 +46,7 @@ Megatron 和 DeepSpeed 是两个很重要的预训练框架。Megatron 是英伟 | Torch_Version | 三方库依赖版本 | | :--------: | :----------------------------------------------------------: | + | PyTorch 2.1.0 | - | | PyTorch 1.8 | - | | PyTorch 1.11 | - | -- Gitee