# Code-Reasoner **Repository Path**: ScienceOne-AI/Code-Reasoner ## Basic Information - **Project Name**: Code-Reasoner - **Description**: Multimodal Physics Agent with Code Enhancement: 2nd place in ICML 2025 AI4MATH Challenge - **Primary Language**: HTML - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-08-26 - **Last Updated**: 2025-08-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 🧑‍🔬✨ Code-Reasoner:通过代码增强多模态物理智能体 ICML 2025 AI4MATH 挑战赛 [Track 2: Physics Reasoning with Diagrams and Expressions (SeePhys)](https://www.codabench.org/competitions/7925/#/pages-tab) 第二名 ## 📖 简介 > **More inference tokens are all you need** 我们的目标是将 pass@k 的准确率压缩到 pass@1。从优化的角度来看,自回归模型主要学习匹配 token 模式,而不是理解底层物理规律。给予模型更多推理 token 可以扩展其猜测空间,从而提升 pass@1 的准确率。 ## 🗝️ 主要结论 - 针对输入图片生成描述性代码,是提升推理任务上下文 token 的有效方式。我们尝试了 LaTeX、matplotlib 和 HTML 代码。实验证明基于 Canvas 的 HTML 效果最佳。 - 对模糊图片进行超分辨率处理,有助于生成更好的绘图代码。 - 多数投票是一种简单有效的方式,可以提升推理 token 的利用率。 ## 😅 未成功的尝试 - **交互式多步验证**:类似 [ReAct](https://arxiv.org/abs/2210.03629) 的交互式多步验证并未带来提升。模型在 CoT(思维链)中本身就有自我修正能力,显式加入 ReAct 只会导致重复确认,无法修正真正的错误(如误解题意或公式应用错误)。ReAct 也无法修正代码生成中的绘图错误。 - **复杂任务指令**:增加约束或提升题目难度反而导致效果变差。强大的推理模型在面对直接、简单的问题时表现最佳。 - **加权多模型投票**:根据开发集表现对模型加权并未泛化——在子集上提升 10% 的胜率无法迁移到整体。 - **少样本输出格式模板**:对输出格式一致性没有帮助。 ## 🧭 尚未探索的方向 - 将问题求解转为化为代码生成任务,利用代码执行进行计算或证明验证。 - 集成搜索 API,检索相似问题或解题路径作为额外上下文。 ## 📦 关于本仓库 - SeePhys 的便捷起点,支持主流模型后端(Deepseek、Doubao、OpenAI、Gemini、Claude)一键切换。 - 结构清晰模块化——提示词、智能体流程、模型调用全部解耦,便于快速迭代。 - 全面日志记录,便于错误分析和调试。 ## 🚀 快速开始 1. 在 `config.yml` 中添加你的模型 API key。 2. 运行 `main.py`。 > 我们在 `results` 文件夹中提供了所有图片的 HTML 代码,以减小仓库体积。 ## 📚 引用 ```bibtex @misc{jiahao2025codephysics, author = {Jiahao Zhao and Nan Xu and Liwei Dong}, title = {Multimodal Physics Agent with Code Enhancement}, year = {2025}, url = {https://github.com/ScienceOne-AI/Code-Reasoner} } ```