# MindSporeAI_2024 **Repository Path**: JeffDingAI/MindSporeAI_2024 ## Basic Information - **Project Name**: MindSporeAI_2024 - **Description**: MindSporeAI_2024 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-09-30 - **Last Updated**: 2025-02-28 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 昇腾AI创新大赛-昇思MindSpore模型开发挑战赛 ## 赛事介绍 昇腾AI创新大赛是面向AI开发者打造的顶级赛事,旨在鼓励产业开发者基于昇腾AI技术和产品,探索模型算法、算子、加速库等融合创新和性能优化,加速AI与行业融合,促进开发者能力提升。 昇思MindSpore模型开发挑战赛作为昇腾AI创新大赛系列赛事之一,旨在培养昇思MindSpore和昇腾AI云服务开发者,鼓励开发者基于昇思MindSpore和昇腾AI云服务进行模型&算法创新与实践,并丰富国内模型生态。 ## 模型微调赛题 【第一阶段赛题介绍】 本赛题要求基于开源中英文混合数学运算数据集,跑通baseline,并对MindFormers中LLama3-8b模型进行微调(LoRA或其他微调算法)。微调后的模型在原有能力不丢失的前提下(需保持在原能力的90%及以上),回答数学运算准确率相对baseline有提升,按照低参比例及准确率进行综合排名,评选出20个优秀团队,获得入围奖。 1. 模型原有能力以其在SQUAD数据集上的阅读理解能力为准,评价标准为F1 Score和Em Score,要求微调后两项评价指标需要给定阈值以上方可算作有效作品,如何进行原有能力评估,以及F1 Score和Em Score的参考阈值,请参考指导手册。 2. 运算准确率评价标准:模型基于测试数据集(不公开,与训练数据集格式相同,为数道中英文数学运算题)进行推理,生成数学运算结果,如计算结果(数值)与正确答案相同,则视为本题正确,最终统计在测试数据集上回答正确的题目数量占比。 运算准确率 = 正确运算题目数/测试集总题目数 3. 低参比例:低参比例为微调参数量在总参数量的占比,选手在提交作品时需提供低参比例的计算结果,如何进行低参比例详见下方-低参比例运算。 低参比例 = 参与微调的参数量/模型总参数量 4. 低参比例和运算准确率综合排名:低参比例越低越好,运算准确率越高越好,按照如下加权进行运算。 (100%-低参比例)*0.3+运算准确率*0.7 5. 本题目共提供80万条中英文混合题目作为训练数据集,选手可根据自己的实际情况调整数据集规模,建议综合在微调及推理时长、算力需求、维持模型原有能力、模型运算准备率提升等多方面因素进行训练数据集规模的评估。 【第二阶段赛题介绍】 本赛题要求基于中英文选择题数据集,跑通baseline,并对MindFormers中InternLM-7B模型进行微调(LoRA或其他微调算法)。微调后的模型在原有能力不丢失的前提下(需保持在原能力的90%及以上),回答数学运算准确率相对baseline有提升,按照低参比例及准确率进行综合排名,评选出1个金奖2个银奖3个铜奖。 1. 模型原有能力以其在SQUAD数据集上的阅读理解能力为准,评价标准为F1 Score和Em Score,要求微调后两项评价指标需要给定阈值以上方可算作有效作品,如何进行原有能力评估,以及F1 Score和Em Score的参考阈值,请参考指导手册。 2. 单选题准确率评价标准:模型基于测试数据集(不公开,与训练数据集格式相同,为数道单选题)进行推理,生成回答结果,最终统计在测试数据集上回答正确的题目数量占比: 准确率 = 正确答案题目数 / 测试集总题目数 注:baseline的准确率为40%,请以此为参考进行微调。 3. 低参比例:低参比例为微调参数量在总参数量的占比,选手在提交作品时需提供低参比例的计算结果,如何进行低参比例详见下方-低参比例运算。 低参比例 = 参与微调的参数量/模型总参数量 4. 低参比例和运算准确率综合排名:低参比例越低越好,运算准确率越高越好,按照如下加权进行运算: (100%-低参比例 * 10)* 0.3 + 运算准确率 * 0.7 5. 本题目共提供2.7+万条中英文混合题目作为训练数据集,选手可根据自己的实际情况调整数据集规模,建议综合在微调及推理时长、算力需求、维持模型原有能力、模型运算准备率提升等多方面因素进行训练数据集规模的评估。 ## 推理调优赛题 【第一阶段赛题介绍】 基于给定数据集及后处理方法(Greedy Search),跑通baseline,并对MindFormers中LLaMA2-7b模型进行推理调优,调优算法不限,在精度无损下(对比输出logits的误差,千分之五以内),推理性能相比baseline有提升,推理时间越短排名越靠前,评选20个优秀团队,获得入围奖。推理时间指数据集里所有的prompt全部推理结束所需要的时间。 1. 精度无损:此评价方法以对比推理单个token的logits为准,要求偏差在千分之五以内的作品方可视为有效作品,请选手提供指定tokens的logits,并保存为npy文件。如何获取logits及保存npy文件请参考操作指导手册。 2. 推理总时间:因上述保存logits文件会增加额外耗时,所以建议选手运行两次:一次保存logits文件,一次不进行保存文件操作,仅作推理,推理总时间以后者为准,如何进行两次运行的配置,请参考操作指导手册。 3. 选手提交作品后,审核老师会检查代码是否包含前处理-推理-后处理全流程,且选手并没有通过,如事先保存推理结果文件,然后直接读取文件进行推理等不正当方式缩短推理时间,一经发现有不正当手段即刻取消参赛资格。 【第二阶段赛题介绍】 基于给定数据集及后处理方法(Greedy Search),跑通baseline,并对MindFormers中LLaMA2-7b模型进行推理调优,调优算法不限,在精度无损下,推理性能相比baseline有提升,推理总时间越短越好。推理时间指数据集里所有的prompt全部推理结束所需要的时间。 1. 精度无损:此评价方法以对比推理单个token的logits为准,要求偏差在千分之五以内的作品方可视为有效作品,请选手提供指定tokens的logits,并保存为npy文件。如何获取logits及保存npy文件请参考操作指导手册。 2. 推理总时间:因上述保存logits文件会增加额外耗时,所以建议选手运行两次:一次保存logits文件,一次不进行保存文件操作,仅作推理,推理总时间以后者为准,如何进行两次运行的配置,请参考第一阶段操作指导手册。