300I Duo运行QwQ32B报错

一、问题现象（附报错日志上下文）：
运行原始版本报如下错误：
![输入图片说明](https://foruda.gitee.com/images/1742202987607175667/bbc46015_11657652.png "屏幕截图")

运行W8A8量化版本通过torchrum/mindieserver可以启动，但回答异常：
2025-03-17 16:46:41,060 [INFO] [pid: 4128] logging.py-180: Question[0]: Tell me a joke.
2025-03-17 16:46:41,060 [INFO] [pid: 4128] logging.py-180: Answer[0]: ????监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面监听页面
2025-03-17 16:46:41,060 [INFO] [pid: 4128] logging.py-180: Generate[0] token num: (0, 128)

二、软件版本:
-- CANN 版本: 8.0.0 
-- torch版本
mindietorch                 1.0rc3+torch2.1.0.abi0
torch                       2.1.0
torch-npu                   2.1.0.post8.dev20241015
torchvision                 0.16.0
--操作系统版本 Ubuntu 20.04(5.4.0-125-generic)
--Docker容器：官方镜像：1.0.0-300I-Duo-py311-openeuler24.03-lts

三、测试步骤：
1，从modelscope社区下载QwQ-32B权重
2, torchrun运行QwQ-32B和QwQ-32B（原始权重）
export ASDOPS_LOG_LEVEL=ERROR, export ASDOPS_LOG_TO_STDOUT=1
/usr/local/python3.11.10/bin/torchrun --nproc_per_node 4 --master_port 20038 -m examples.run_pa \
  --model_path /SE/fbldata/model/Qwen2-0.5B-Instruct --input_texts "Tell me a joke." \
  --max_input_length 256 \
  --max_output_length 128 \
  --max_batch_size 1\
  --is_chat_model 
3，torchrun运行QwQ-32B和QwQ-32B(W8A8量化版)
	/usr/local/python3.11.10/bin/torchrun --nproc_per_node 4 --master_port 20038 -m examples.run_pa \
  --model_path <QwQ-32B权重路径> --input_texts "Tell me a joke." \
  --max_input_length 256 \
  --max_output_length 128 \
  --max_batch_size 1\
  --is_chat_model
量化方法：cd atl-llm && bash examples/models/qwen/convert_quant_weight.sh -src <QwQ-32B权重路径> -dst <QwQ-32B_量化权重保存路径> -type qwen_w8a8

四、日志信息:
  参见问题截图
  
  补充说明：Qwen2.5 32b原始版本也报和QwQ32B相同错误，但按上述量化后运行回答正常。
  服务器有2张300I Duo NPU， 单张显存24*2， 总共48*2=96G显存。

Ascend/ModelZoo-PyTorch

内容风险标识

评论 (0)

Ascend/ModelZoo-PyTorch .gitee-modal { width: 500px !important; }

内容风险标识