# GRPO_InternLM **Repository Path**: JeffDingAI/GRPO_InternLM ## Basic Information - **Project Name**: GRPO_InternLM - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-01-03 - **Last Updated**: 2026-01-03 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 书生大模型强化学习 RL 实践 ## 创建conda环境 ```bash conda create -n gpro_lab python=3.10 -y conda activate gpro_lab ``` ## 安装依赖 ### 安装Pytorch ```bash pip install torch==2.7.1 torchvision torch-npu==2.7.1.dev20250724 --pre --extra-index-url https://mirrors.huaweicloud.com/ascend/repos/pypi ``` ### 安装LMDeploy ```bash git clone https://gh.llkk.cc/https://github.com/InternLM/lmdeploy.git cd lmdeploy git checkout tags/v0.10.2 -b v0.10.2 pip install -r requirements_ascend.txt LMDEPLOY_TARGET_DEVICE=ascend pip install -e . ``` ### 安装其他依赖 ``` pip install math_verify ``` ## 安装VLLM-Ascend ### 安装依赖 ```bash pip install triton ``` ### 安装VLLM ```bash git clone --depth 1 --branch v0.11.0rc3 https://gh.llkk.cc/https://github.com/vllm-project/vllm cd vllm VLLM_TARGET_DEVICE=empty pip install -v -e . ``` ### 安装VLLM-Ascend ```bash pip install vllm-ascend==v0.11.0rc0 ``` ## 设置昇腾相关环境变量 ```bash source /usr/local/Ascend/ascend-toolkit/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh ``` ## 安装MS-Swift ```bash pip install ms-swift==3.12 ``` ## GRPO ### 数据集下载 数据集Modelscope地址:[https://www.modelscope.cn/datasets/AI-ModelScope/gsm8k](https://www.modelscope.cn/datasets/AI-ModelScope/gsm8k) ```bash pip install modelscope modelscope download --dataset AI-ModelScope/gsm8k --local_dir #保存地址 ``` ### 数据集处理 ```bash python data_pre.py ``` ## Eval 评测 使用vllm进行评测,Temperature 设置为0,测试脚本eval.py ```bash python eval.py \ --model_path #模型地址 \ --data_path #数据集地址 \ --output_path #输出文件地址 \ --batch_size 32 \ --max_tokens 1024 ``` ## 模型训练 ```bash bash train.sh ``` ## 合并模型 ```bash swift export --adapter "模型地址" --merge_lora True # 范例 swift export --adapter grpo_out/v3-20260103-042914/checkpoint-500/ --merge_lora True ``` ## eval合并后的模型 ```bash python eval.py \ --model_path #合并后的模型地址 \ --data_path #数据集地址 \ --output_path #结果输出地址 \ --batch_size 32 \ --max_tokens 1024 ```