# LLMs-Generalization-Test **Repository Path**: mirrors_Qihoo360/LLMs-Generalization-Test ## Basic Information - **Project Name**: LLMs-Generalization-Test - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-09-20 - **Last Updated**: 2025-10-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 大语言模型在选项长度、问题类型和无关名词替换方面的泛化能力欠佳

语言:English

## 项目概述 本仓库收录了论文 *Large Language Models Badly Generalize across Option Length, Problem Types, and Irrelevant Noun Replacements*(已被 EMNLP 2025 接收)的全部代码、数据处理脚本与评测流程。对应的论文全文请参见:[链接](https://arxiv.org/abs/2502.12459)。 ## 仓库结构 - `option_length/` — 面向 MMLU 和 ARC 基准的选项长度扰动评测管线。 - `question_type/` — 将多选题重写为其他题型(如判断题)的工具脚本。 - `irrelvant_nouns/` — 针对 GSM8K 的无关名词替换压力测试及其数据与评测脚本。 ## 快速开始 1. 建议使用 Conda 创建独立环境。 2. 以 editable 方式安装仓库中自带的评测框架 `lm-evaluation-harness`。 3. 根据各子目录 README 中的额外依赖说明完成安装,再执行下文的实验步骤。 ```bash conda create -n lm_eval python=3.12 -y conda activate lm_eval pip install -e ./lm-evaluation-harness ``` ## 实验说明 ### 选项长度压力测试 位于 `option_length/`。可运行 `paraphrase/mmlu.py` 与 `paraphrase/arc.py` 生成改写数据集,或直接从Google Drive([链接](https://drive.google.com/file/d/15uxO5d8bJLFUV_1VFAsulH9H1DU9NySo/view?usp=sharing)) 下载打包好的 `datasets.tar.gz`。通过 `option_length/scripts/` 下的脚本(`eval_mmlu.sh`、`eval_arc.sh`、`eval_mmlu_vary.sh`)执行评测,结果将保存至 `option_length/results/`。 ### 问题类型转换 `question_type/` 目录提供将 MMLU 多选题转换为判断题等形式的脚本。如需重新生成数据,请在该目录下执行 `python make_bq.py`。 ### 无关名词替换 `irrelvant_nouns/` 目录包含不同语义偏移程度的 GSM8K 名词替换数据。可运行 `bash run_evaluate.sh` 完成全部评测。`irrelvant_nouns/preprocess_data/` 下提供了数据生成脚本,通常无需重新执行。 ## 结果速览 以下表格展示了在选项长度扰动条件下(MMLU / ARC)的代表性结果,完整日志可在 `option_length/results/` 中查看。 | Benchmark | Model | Origin | RL | WL | |-----------|----------------|--------|------|------| | **MMLU** | Qwen2.5 1.5B | 60.3 | 89.0 | 36.3 | | | Qwen2.5 7B | 73.7 | 90.1 | 55.6 | | | Qwen2.5 72B | 85.4 | 94.1 | 75.6 | | | LLaMa3.1 8B | 65.5 | 85.6 | 53.6 | | | LLaMa3.1 70B | 78.8 | 93.6 | 70.6 | | | GPT4o mini | 76.5 | 87.2 | 70.6 | | | GPT4o | 85.2 | 89.7 | 83.3 | | **ARC-C** | Qwen2.5 1.5B | 77.3 | 88.9 | 68.1 | | | Qwen2.5 7B | 90.0 | 94.3 | 84.0 | | | Qwen2.5 72B | 95.8 | 97.2 | 94.4 | | | LLaMa3.1 8B | 78.1 | 85.2 | 74.7 | | | LLaMa3.1 70B | 91.8 | 96.3 | 90.8 | | | GPT4o mini | 91.8 | 95.1 | 91.4 | | | GPT4o | 96.5 | 97.1 | 95.5 | Origin:指原始的 MMLU 和 ARC-C 基准; RL:指将正确选项加长; WL:指将错误选项加长 ## 引用 如果本项目对您的研究有帮助,请在引用中注明如下条目。 ```bibtex @inproceedings{paperpitfall2025, title = {Large Language Models Badly Generalize across Option Length, Problem Types, and Irrelevant Noun Replacements}, author = {Guangxiang Zhao, Saier Hu, Xiaoqi Jian, Jinzhu Wu, Yuhan Wu, Change Jia, Lin Sun, Xiangzheng Zhang}, booktitle = {Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing}, year = {2025}, url = {https://arxiv.org/abs/2502.12459} } ``` ## 联系方式 如有疑问或合作意向,请在仓库提交 Issue,或通过论文中的邮箱与作者取得联系。 ## 致谢 本仓库基于 [EleutherAI 的 lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness) 构建,使用 v0.4.3 版本。