From 71a87ca3515773131ca3dc412eef4b4dd7817e18 Mon Sep 17 00:00:00 2001 From: yuhan Date: Mon, 7 Jul 2025 19:55:56 +0800 Subject: [PATCH] modify docs errors --- .../model_infer/ms_infer/llm_inference_overview.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/tutorials/source_zh_cn/model_infer/ms_infer/llm_inference_overview.md b/tutorials/source_zh_cn/model_infer/ms_infer/llm_inference_overview.md index 9b0c23d090..fa3ba40bc5 100644 --- a/tutorials/source_zh_cn/model_infer/ms_infer/llm_inference_overview.md +++ b/tutorials/source_zh_cn/model_infer/ms_infer/llm_inference_overview.md @@ -80,7 +80,7 @@ MindSpore大语言模型为了能够实现最优的性价比,针对大语言 - **全量推理**:用户输入的第一轮迭代,此时用户给出的长度为N的语句,N的长度和内容都无法预测,需要计算全部key和value的值,成为全量推理。 - - **增量推理**:完成第一轮迭代计算后,前一轮迭代语句的key和value值已经换存在KVCache中,此时只需要额外计算最近一个token对应的key和value值,并与缓存的结果拼接起来计算注意力分数,成为增量推理。 + - **增量推理**:完成第一轮迭代计算后,前一轮迭代语句的key和value值已经缓存在KVCache中,此时只需要额外计算最近一个token对应的key和value值,并与缓存的结果拼接起来计算注意力分数,成为增量推理。 - **Attention优化**:大语言模型网络结构最主要的计算是对于Attention的计算,由于当前主流模型的Attention的size比较大(通常4K或以上),模型推理的整个过程性能强依赖于Attention计算的性能,因此当前有很多研究在关注如何优化Attention计算性能,其中比较主流的包括Flash Attention和Page Attention技术。 @@ -238,7 +238,7 @@ model = AutoModel.from_config(config) --dst_checkpoint="/path/to/llama2_7b_2p_dir/" --dst_strategy="/path/to/llama2_7b_2p_strategy_dir/" ``` - 其中,src_checkpoint是源ckpt文件路径,由于例子中是全量切分,所以不需要传源策略文件,但是路径一定要指定到ckpt文件路径,不能指定到目录;dst_checkpoint是切分结果的目标目录路径,切分完成后,会生成rank_0盒rank_1两个子目录,分别存放不同卡的权重ckpt文件;dst_strategy是前一步生成的策略文件路径。 + 其中,src_checkpoint是源ckpt文件路径,由于例子中是全量切分,所以不需要传源策略文件,但是路径一定要指定到ckpt文件路径,不能指定到目录;dst_checkpoint是切分结果的目标目录路径,切分完成后,会生成rank_0和rank_1两个子目录,分别存放不同卡的权重ckpt文件;dst_strategy是前一步生成的策略文件路径。 - **模型适配**:MindSpore大语言模型多卡运行时,通常使用模型并行,因此原始模型需要根据卡数进行切分,如[1024,4096]和[4096, 2048]矩阵乘法,可以切分成2个[1024,4096]和[4096, 1024]的矩阵乘法。而不同的切分可能带来不同的并行计算性能,MindFormers模型提供了MindSpore大语言模型验证较为优秀的切分方案,并使用MindSpore的并行框架进行了切分,下面为模型中部分切分代码: -- Gitee