# ai tester **Repository Path**: lainyu/ai-tester ## Basic Information - **Project Name**: ai tester - **Description**: 这是一个基于Streamlit开发的AI问答测试工具。该工具提供了自动化测试和手动测试两种方式来评估AI模型的性能。 目前还在开发中。。。。 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-04-16 - **Last Updated**: 2025-06-10 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # AI 测试工具 这是一个基于Streamlit开发的AI问答测试工具。该工具提供了自动化测试和手动测试两种方式来评估AI模型的性能。 目前还在开发中。。。。 ## 功能特点 - 直观的用户界面 - 侧边栏项目记录 - 支持自动化测试 - 支持手动测试 - 测试结果实时展示 ## 使用说明 在开始前请注意阅读主页说明。 该测试框架非常简陋🥴,没有数据管理,所以一旦刷新页面,数据就会丢失。 ### 主界面 ![](assets/main_window.PNG) ### 新建项目 #### 自动测试 - 建立一个新项目,选择自动测试 ![](assets/auto-test1.png) - 在显示的自动测试表单中,可以下载测试数据模板。上传的文件需要和模板一致。 ![](assets/auto-test2.PNG) - 这是一个测试文件样例,其中problem question和expected answer是必须填写的,其他可保持为空值。 其中,Accuracy, Relevance, Coherence, Toxicity是用于打分的参考维度权重。 Tags标签用于做分析报告。 ![](assets/auto-template-file.PNG) - 我们可以进行测试,使用chatgpt 4o mini做测评师, 因为3.5偶尔输出Json失败。对我们dify的工作流回答进行评价。下图中,测试接口,api key和用户标识可以到dify workflow中暴露的api文档中找到。 ![](assets/auto-test-args.PNG) - 下图中可以看到自动测试的dify工作流回答,以及测评师给的分数和结果。由于api可能有限制,所以每一次测评后会暂停5秒继续下一个问题。 ![](assets/auto-test-res.PNG) - 点击查看分析报告,可以看到平均分以及各个分数的分布图,也可以根据标签定义分数分布。经过测试,标签点击有时候会出问题,多点几下就好了。 ![](assets/auto-test-score1.PNG) ![](assets/auto-test-score2.PNG) ![](assets/auto-test-score3.PNG) - 点击下载为你需要的格式,目前可提供excel, csv, json。 ![](assets/download.PNG) #### 手动测试 手动测试也差不多,只是没有AI测评师的评分。我们可以直接输入问题和答案,点击测试后会显示dify的回答,我们给出评分和评分理由,以及标签。