# chinese-llm-benchmark **Repository Path**: a-i-c-zhangtian/chinese-llm-benchmark ## Basic Information - **Project Name**: chinese-llm-benchmark - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-04-09 - **Last Updated**: 2024-04-09 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # CLiB中文大模型能力评测榜单(持续更新) - 目前已囊括74个大模型,覆盖chatgpt、gpt4、谷歌bard、百度文心一言、阿里通义千问、讯飞星火、360智脑、商汤senseChat、微软new-bing、minimax等商用模型, 以及百川、qwen、belle、chatglm6b、tigerbot、ziya、openbuddy、Phoenix、linly、MOSS、AquilaChat、vicuna、wizardLM、书生internLM、llama2-chat等开源大模型。 - 模型来源涉及国内外大厂、大模型创业公司、高校研究机构。 - 支持多维度能力评测,包括分类能力、信息抽取能力、阅读理解能力、表格问答能力。 - 不仅提供能力评分排行榜,也提供所有模型的原始输出结果!有兴趣的朋友可以自己打分、自己排行! ## 目录 - [🔄最近更新](#最近更新) - [⚓TODO](#todo) - [📝大模型基本信息](#大模型基本信息) - [📊排行榜](#-排行榜) - [综合能力排行榜](#1综合能力排行榜) - 10B以下开源大模型排行榜 - 10B~20B开源大模型排行榜 - 20B以上开源大模型排行榜 - [分类能力排行榜](#2分类能力排行榜) - [信息抽取能力排行榜](#3信息抽取能力排行榜) - [阅读理解能力排行榜](#4阅读理解能力排行榜) - [数据分析排行榜](#5数据分析排行榜) - [🌐各项能力评分](#🌐各项能力评分) - [⚖️原始评测数据](#⚖️原始评测数据) - [为什么做榜单?](#为什么做榜单) ## 最近更新 - [2024/3/20] 发布v1.15版本评测榜单 - 模型更新:gpt3.5更新至最新版本 - 新增8个大模型:gpt-4-turbo、讯飞星火v3.5、MiniCPM-2B-dpo、miniCPM-2B-sft、AquilaChat2-70B-Expr、月之暗面kimichat、谷歌gemma-7b-it、谷歌gemma-2b-it - 排行榜删除陈旧的模型(比如Baichuan2-53B、chatglm-130b-v1、tulu-30b、belle-llama-13b-2m、belle-llama-13b-ext、openbuddy-llama-30b-v7.1、vicuna-33b等) - [2024/2/28] 发布v1.14版本评测榜单 - 新增11个大模型:deepseek-llm-67b-chat、baichuan3、internlm2-chat-20b、internlm2-chat-7b、openbuddy-mixtral-7bx8-v17.1以及qwen1.5系列的6个模型 - 排行榜删除陈旧的模型(比如chatglm2-6b、AquilaChat-7B等) - [2024/1/29] 发布v1.13版本评测榜单 - 模型更新:微软new-bing、文心4.0更新至24年1月版本 - 新增6个大模型:qwen-max、GLM4、BlueLM-7B-Chat、openbuddy-zephyr-7b-v14.1、openbuddy-deepseek-67b-v15.2、XVERSE-65B-Chat - 排行榜删除陈旧的模型(比如phoenix-inst-chat-7b、BELLE-on-Open-Datasets等) - [2023/12/10] 发布v1.12版本评测榜单 - 新增7个大模型:Yi-34B-Chat、tigerbot-13b-chat-v4、openbuddy-openllama-3b-v10、Qwen-1_8B-Chat、Yi-6B-Chat、Qwen-72B-Chat、chatglm-turbo - 新增开源模型细分排行榜:10B以下模型排行榜、10B~20B模型排行榜、20B以上模型排行榜 - [2023/11/22] 发布v1.11版本评测榜单 - 新增4个大模型:openbuddy-mistral-7b-v13.1、Qwen-7B-Chat、Baichuan2-7B-Chat、tigerbot-70b-chat-v3 - 将数据分析能力计入综合得分 - [2023/11/5] 发布v1.10版本评测榜单 - 新增6个大模型: - 3个商用模型:文心4.0、谷歌bard、讯飞星火v3 - 3个开源模型:aquilachat2-34b、ziya2-13b-chat、chatglm3-6b - 排行榜删除陈旧的模型(比如第一代chatglm-6b、MOSS等) - [2023/10/11] 发布v1.9版本评测榜单 - 新增7个大模型: - 3个商用模型:阿里通义千问v1.0.7、豆包、Baichuan2-53B - 4个开源模型:Baichuan2-13B-Chat、internlm-chat-20b、qwen-14b-chat、tigerbot-70b-chat-v2 - [2023/9/13] 发布v1.8版本评测榜单 - 新增7个大模型: - 2个商用模型:chatglm-std、chatglm-pro - 5个开源模型:openbuddy-llama-30b-v7.1、openbuddy-llama-65b-v8、openbuddy-llama2-70b-v10.1、xverse-13b-chat、Baichuan-13B-Chat-v2 - [2023/8/29] 发布v1.7版本评测榜单 - 新增2个商用大模型:讯飞星火v2.0、Baichuan-53B - 表格问答(数据分析)能力排行榜:新增21个模型参与排行。 - [2023/8/13] 发布v1.6版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.6) - 新增4个大模型: - 2个商用模型:商汤senseChat、微软new-bing - 2个基于LLaMA2的开源中文模型:BELLE-Llama2-13B-chat-0.4M、Linly-Chinese-LLaMA2-13B - [2023/7/26] 发布v1.5版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.5) - 新增7个大模型:gpt4、文心一言v2.2、vicuna-33b、wizardlm-13b、Ziya-LLaMA-13B-v1.1、InternLM-Chat-7B、Llama-2-70b-chat - [2023/7/18] 发布v1.4版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.4) - 新增3个大模型:tulu-30b、chatglm2-6b、Baichuan-13B-Chat - [2023/7/2] 发布v1.3版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.3) - 新增3个大模型:360智脑、MOSS-003-SFT、AquilaChat-7B - 讯飞星火更新为最新的v1.5模型 - [2023/6/17] 发布v1.2版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.2) - 新增2个大模型:tigetbot-7b官网、linly-chatflow-13b - 说明做评测榜单的初衷 - [2023/6/10] 发布v1.1版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.1) - 新增3个大模型:minimax、guanaco、Phoenix-7b - 新增表格问答评测维度,作为阅读理解能力的细分项 - [2023/6/4] 发布v1版本评测榜单,[link](https://github.com/jeinlee1991/chinese-llm-benchmark/releases/tag/v1.0) ## TODO - 将更多大模型加入评测:Claude、falcon等等 - 增加开源大模型的授权协议,注明能否商用 - 引入更多维度的评测:数学能力、代码能力、开放域问答、多轮对话、头脑风暴、翻译…… - 评测维度更细分,比如信息抽取可以细分时间实体抽取能力、地址实体抽取能力…… - 海纳百川,整合各类评测榜单,扩充细分领域榜单(比如教育领域、医疗领域) - 加入更多评测数据,使得评测得分越来越有说服力 ## 大模型基本信息 详见 [中文大模型资源汇总(商用及开源)](https://github.com/jeinlee1991/chinese-llm-benchmark/blob/main/LLM-info.md) ## 📊 排行榜 ### 1、综合能力排行榜 综合能力得分为分类能力、信息抽取能力、阅读理解能力、数据分析能力四者得分的平均值。  | 类别 | 大模型 | 总分 | 排名 | |-----|------------------------------|------|----| |商用|gpt4|96.1|1| |商用|微软new-bing|93.0|2| |商用|gpt-4-turbo(new)|92.8|3| |商用|GLM4|92.3|4| |商用|文心4.0|91.4|5| |商用|讯飞星火v3.5(new)|88.9|6| |商用|阿里qwen-max|88.7|7| |商用|月之暗面kimichat(new)|87.6|8| |开源|Qwen1.5-14B-Chat|87.3|9| |开源|Qwen-72B-Chat|87.3|10| |开源|Qwen1.5-72B-Chat|87.1|11| |商用|gpt-3.5-turbo|87.0|12| |开源|internlm2-chat-20b|86.8|13| |开源|AquilaChat2-70B-Expr(new)|86.8|14| |开源|deepseek-llm-67b-chat|86.7|15| |商用|文心一言v2.2|86.5|16| |开源|tigerbot-70b-chat-v2|86.5|17| |开源|openbuddy-deepseek-67b|86.2|18| |商用|baichuan3|86.1|19| |商用|讯飞星火v3|85.8|20| |开源|XVERSE-65B-Chat|85.0|21| |商用|谷歌bard|84.1|22| |开源|tigerbot-70b-chat-v3|83.5|23| |开源|openbuddy-llama2-70b-v10.1|83.2|24| |开源|tigerbot-13b-chat-v4|83.0|25| |商用|chatglm-turbo|83.0|26| |开源|Yi-34B-Chat|82.9|27| |开源|aquilachat2-34b|82.5|28| |商用|商汤senseChat|81.9|29| |开源|openbuddy-mixtral-7bx8-v17.1|81.8|30| |开源|internlm2-chat-7b|80.6|31| |开源|BELLE-Llama2-13B-chat-0.4M|79.8|32| |商用|字节跳动豆包|79.5|33| |开源|qwen-14b-chat|79.4|34| |开源|Baichuan2-13B-Chat|79.4|35| |开源|Baichuan2-7B-Chat|79.1|36| |商用|阿里通义千问|79.0|37| |开源|BlueLM-7B-Chat|77.8|38| |开源|openbuddy-zephyr-7b|77.8|39| |开源|openbuddy-llama-65b-v8|76.8|40| |开源|xverse-13b-chat|76.6|41| |商用|chatglm-std|76.0|42| |商用|chatglm-pro|75.8|43| |开源|Qwen1.5-7B-Chat|75.7|44| |商用|讯飞星火v1.5|75.5|45| |开源|谷歌gemma-7b-it(new)|75.3|46| |开源|openbuddy-mistral-7b-v13.1|75.1|47| |商用|360智脑|74.3|48| |开源|MiniCPM-2B-dpo(new)|74.0|49| |开源|Llama-2-70b-chat|73.6|50| |开源|Qwen-7B-Chat|73.5|51| |商用|讯飞星火v2.0|72.8|52| |开源|Baichuan-13B-Chat-v2|72.7|53| |开源|chatglm3-6b|72.2|54| |开源|Qwen1.5-4B-Chat|70.6|55| |开源|miniCPM-2B-sft(new)|68.7|56| |开源|Yi-6B-Chat|68.7|57| |开源|Linly-Chinese-LLaMA2-13B|67.3|58| |开源|ziya2-13b-chat|67.3|59| |开源|Qwen-1_8B-Chat|66.4|60| |商用|minimax|66.3|61| |开源|openbuddy-openllama-3b-v10|56.5|62| |开源|谷歌gemma-2b-it(new)|54.8|63| |开源|Qwen1.5-1.8B-Chat|53.9|64| |开源|Qwen1.5-0.5B-Chat|44.7|65| #### (1) 10B以下大模型排行榜 | 类别 | 大模型 | 分类能力 | 信息抽取能力 | 阅读理解能力 | 表格问答 | 总分 | 排名 | |----|----------------------------|------|--------|--------|------|------|----| |开源|internlm2-chat-7b|86|81|72.7|82.7|80.6|1| |开源|Baichuan2-7B-Chat|88|76|83.3|69.0|79.1|2| |开源|BlueLM-7B-Chat|82|83|74.0|72.0|77.8|3| |开源|openbuddy-zephyr-7b|82|83|74.0|72.0|77.8|4| |开源|Qwen1.5-7B-Chat|80|76|76.0|70.7|75.7|5| |开源|谷歌gemma-7b-it(new)|72|79|74.0|76.0|75.3|6| |开源|openbuddy-mistral-7b-v13.1|79|72|73.3|76.0|75.1|7| |开源|MiniCPM-2B-dpo(new)|79|77|74.0|66.0|74.0|8| |开源|Qwen-7B-Chat|89|72|74.0|59.0|73.5|9| |开源|chatglm3-6b|82|68|78.7|60.0|72.2|10| |开源|Qwen1.5-4B-Chat|75|65|79.3|63.0|70.6|11| |开源|miniCPM-2B-sft(new)|72|72|77.3|53.3|68.7|12| |开源|Yi-6B-Chat|73|71|66.0|64.7|68.7|13| |开源|Qwen-1_8B-Chat|73|66|75.3|51.3|66.4|14| |开源|openbuddy-openllama-3b-v10|64|60|61.3|40.7|56.5|15| |开源|谷歌gemma-2b-it(new)|56|60|60.0|43.3|54.8|16| |开源|Qwen1.5-1.8B-Chat|57|58|52.7|48.0|53.9|17| |开源|Qwen1.5-0.5B-Chat|44|40|60.0|34.7|44.7|18| #### (2) 10B~20B大模型排行榜 | 类别 | 大模型 | 分类能力 | 信息抽取能力 | 阅读理解能力 | 表格问答 | 总分 | 排名 | |----|----------------------------|------|--------|--------|------|------|----| |开源|Qwen1.5-14B-Chat|89|79|90.7|90.7|87.3|1| |开源|internlm2-chat-20b|93|80|86.0|88.0|86.8|2| |开源|tigerbot-13b-chat-v4|85|82|80.0|85.0|83.0|3| |开源|BELLE-Llama2-13B-chat-0.4M|90|74|76.0|79.0|79.8|4| |开源|qwen-14b-chat|84|72|84.7|77.0|79.4|5| |开源|Baichuan2-13B-Chat|83|83|74.7|77.0|79.4|6| |开源|xverse-13b-chat|86|72|81.3|67.0|76.6|7| |开源|Baichuan-13B-Chat-v2|82|69|72.7|67.0|72.7|8| |开源|Linly-Chinese-LLaMA2-13B|78|67|67.3|57.0|67.3|9| |开源|ziya2-13b-chat|76|54|71.3|68.0|67.3|10| #### (3) 30B以上大模型排行榜 | 类别 | 大模型 | 分类能力 | 信息抽取能力 | 阅读理解能力 | 表格问答 | 总分 | 排名 | |----|------------------------------|------|--------|--------|------|------|----| |开源|Qwen-72B-Chat|89|80|92.7|87.3|87.3|1| |开源|Qwen1.5-72B-Chat|89|84|88.0|87.3|87.1|2| |开源|AquilaChat2-70B-Expr(new)|82|84|92.0|89.3|86.8|3| |开源|deepseek-llm-67b-chat|87|81|86.7|92.0|86.7|4| |开源|tigerbot-70b-chat-v2|97|84|80.0|85.0|86.5|5| |开源|openbuddy-deepseek-67b|86|89|84.7|85.0|86.2|6| |开源|XVERSE-65B-Chat|83|84|84.0|89.0|85.0|7| |开源|tigerbot-70b-chat-v3|94|85|84.0|71.0|83.5|8| |开源|openbuddy-llama2-70b-v10.1|86|84|86.7|76.0|83.2|9| |开源|Yi-34B-Chat|88|82|84.7|77.0|82.9|10| |开源|aquilachat2-34b|77|82|88.0|83.0|82.5|11| |开源|openbuddy-mixtral-7bx8-v17.1|86|73|86.0|82.0|81.8|12| |开源|openbuddy-llama-65b-v8|68|84|79.3|76.0|76.8|13| |开源|Llama-2-70b-chat|86|66|73.3|69.0|73.6|14| ### 2、分类能力排行榜  | 类别| 大模型 | 分类能力 | 排名 | |---|-----------------------------|------|----| |开源|tigerbot-70b-chat-v2|97|1| |商用|微软new-bing|95|2| |商用|gpt4|94|3| |开源|tigerbot-70b-chat-v3|94|4| |开源|internlm2-chat-20b|93|5| |商用|月之暗面kimichat(new)|92|6| |商用|gpt-4-turbo(new)|91|7| |开源|BELLE-Llama2-13B-chat-0.4M|90|8| |商用|文心一言v2.2|90|9| |开源|Qwen-7B-Chat|89|10| |开源|Qwen1.5-14B-Chat|89|11| |开源|Qwen1.5-72B-Chat|89|12| |开源|Qwen-72B-Chat|89|13| |开源|Yi-34B-Chat|88|14| |开源|Baichuan2-7B-Chat|88|15| |商用|文心4.0|88|16| |开源|deepseek-llm-67b-chat|87|17| |商用|讯飞星火v3.5(new)|87|18| |商用|讯飞星火v3|87|19| |开源|internlm2-chat-7b|86|20| |商用|GLM4|86|21| |开源|openbuddy-mixtral-7bx8-v17.1|86|22| |开源|xverse-13b-chat|86|23| |开源|openbuddy-llama2-70b-v10.1|86|24| |商用|360智脑|86|25| |商用|baichuan3|86|26| |商用|chatglm-turbo|86|27| |开源|Llama-2-70b-chat|86|28| |商用|阿里qwen-max|86|29| |开源|openbuddy-deepseek-67b|86|30| |商用|谷歌bard|86|31| |开源|tigerbot-13b-chat-v4|85|32| |商用|chatglm-pro|84|33| |商用|chatglm-std|84|34| |开源|qwen-14b-chat|84|35| |开源|Baichuan2-13B-Chat|83|36| |开源|XVERSE-65B-Chat|83|37| |开源|Baichuan-13B-Chat-v2|82|38| |开源|BlueLM-7B-Chat|82|39| |开源|AquilaChat2-70B-Expr(new)|82|40| |商用|商汤senseChat|82|41| |开源|openbuddy-zephyr-7b|82|42| |开源|chatglm3-6b|82|43| |商用|gpt-3.5-turbo|81|44| |商用|阿里通义千问|81|45| |开源|Qwen1.5-7B-Chat|80|46| |开源|MiniCPM-2B-dpo(new)|79|47| |开源|openbuddy-mistral-7b-v13.1|79|48| |商用|字节跳动豆包|79|49| |开源|Linly-Chinese-LLaMA2-13B|78|50| |开源|aquilachat2-34b|77|51| |商用|讯飞星火v1.5|76|52| |开源|ziya2-13b-chat|76|53| |开源|Qwen1.5-4B-Chat|75|54| |开源|Yi-6B-Chat|73|55| |开源|Qwen-1_8B-Chat|73|56| |开源|谷歌gemma-7b-it(new)|72|57| |开源|miniCPM-2B-sft(new)|72|58| |商用|讯飞星火v2.0|72|59| |开源|openbuddy-llama-65b-v8|68|60| |商用|minimax|68|61| |开源|openbuddy-openllama-3b-v10|64|62| |开源|Qwen1.5-1.8B-Chat|57|63| |开源|谷歌gemma-2b-it(new)|56|64| |开源|Qwen1.5-0.5B-Chat|44|65| ### 3、信息抽取能力排行榜  | 类别| 大模型 | 信息抽取能力 | 排名 | |---|-----------------------------|--------|----| |商用|gpt4|94|1| |商用|讯飞星火v3.5(new)|92|2| |商用|GLM4|90|3| |商用|gpt-4-turbo(new)|90|4| |商用|文心4.0|89|5| |开源|openbuddy-deepseek-67b|89|6| |商用|谷歌bard|88|7| |商用|文心一言v2.2|87|8| |商用|月之暗面kimichat(new)|85|9| |商用|商汤senseChat|85|10| |开源|tigerbot-70b-chat-v3|85|11| |开源|tigerbot-70b-chat-v2|84|12| |开源|Qwen1.5-72B-Chat|84|13| |开源|openbuddy-llama2-70b-v10.1|84|14| |开源|openbuddy-llama-65b-v8|84|15| |开源|AquilaChat2-70B-Expr(new)|84|16| |开源|XVERSE-65B-Chat|84|17| |商用|微软new-bing|83|18| |商用|baichuan3|83|19| |开源|Baichuan2-13B-Chat|83|20| |开源|openbuddy-zephyr-7b|83|21| |开源|BlueLM-7B-Chat|83|22| |商用|gpt-3.5-turbo|83|23| |商用|讯飞星火v3|82|24| |开源|aquilachat2-34b|82|25| |开源|tigerbot-13b-chat-v4|82|26| |商用|阿里qwen-max|82|27| |开源|Yi-34B-Chat|82|28| |开源|deepseek-llm-67b-chat|81|29| |开源|internlm2-chat-7b|81|30| |商用|阿里通义千问|81|31| |商用|讯飞星火v1.5|81|32| |开源|internlm2-chat-20b|80|33| |开源|Qwen-72B-Chat|80|34| |开源|Qwen1.5-14B-Chat|79|35| |开源|谷歌gemma-7b-it(new)|79|36| |商用|字节跳动豆包|77|37| |开源|MiniCPM-2B-dpo(new)|77|38| |开源|Baichuan2-7B-Chat|76|39| |开源|Qwen1.5-7B-Chat|76|40| |商用|讯飞星火v2.0|75|41| |商用|chatglm-turbo|75|42| |开源|BELLE-Llama2-13B-chat-0.4M|74|43| |开源|openbuddy-mixtral-7bx8-v17.1|73|44| |开源|Qwen-7B-Chat|72|45| |开源|miniCPM-2B-sft(new)|72|46| |开源|qwen-14b-chat|72|47| |开源|xverse-13b-chat|72|48| |开源|openbuddy-mistral-7b-v13.1|72|49| |开源|Yi-6B-Chat|71|50| |商用|chatglm-std|71|51| |商用|360智脑|71|52| |商用|chatglm-pro|70|53| |开源|Baichuan-13B-Chat-v2|69|54| |开源|chatglm3-6b|68|55| |开源|Linly-Chinese-LLaMA2-13B|67|56| |开源|Qwen-1_8B-Chat|66|57| |开源|Llama-2-70b-chat|66|58| |开源|Qwen1.5-4B-Chat|65|59| |商用|minimax|61|60| |开源|openbuddy-openllama-3b-v10|60|61| |开源|谷歌gemma-2b-it(new)|60|62| |开源|Qwen1.5-1.8B-Chat|58|63| |开源|ziya2-13b-chat|54|64| |开源|Qwen1.5-0.5B-Chat|40|65| ### 4、阅读理解能力排行榜 阅读理解能力是一种符合能力,考查针对给定信息的理解能力。 依据给定信息的种类,可以细分为:文章问答、表格问答、对话问答……  | 类别 | 大模型 | 阅读理解能力 | 排名 | |-----|------------------------------|---------|----| |商用|gpt4|99.3|1| |商用|GLM4|97.3|2| |商用|阿里qwen-max|95.3|3| |商用|文心4.0|94.7|4| |商用|gpt-4-turbo(new)|94.0|5| |商用|微软new-bing|94.0|6| |开源|Qwen-72B-Chat|92.7|7| |商用|gpt-3.5-turbo|92.7|8| |开源|AquilaChat2-70B-Expr(new)|92.0|9| |商用|baichuan3|90.7|10| |开源|Qwen1.5-14B-Chat|90.7|11| |商用|chatglm-turbo|90.0|12| |商用|讯飞星火v3.5(new)|89.3|13| |开源|aquilachat2-34b|88.0|14| |商用|讯飞星火v3|88.0|15| |商用|文心一言v2.2|88.0|16| |开源|Qwen1.5-72B-Chat|88.0|17| |开源|openbuddy-llama2-70b-v10.1|86.7|18| |开源|deepseek-llm-67b-chat|86.7|19| |开源|openbuddy-mixtral-7bx8-v17.1|86.0|20| |开源|internlm2-chat-20b|86.0|21| |商用|谷歌bard|85.3|22| |开源|Yi-34B-Chat|84.7|23| |开源|openbuddy-deepseek-67b|84.7|24| |开源|qwen-14b-chat|84.7|25| |开源|tigerbot-70b-chat-v3|84.0|26| |开源|XVERSE-65B-Chat|84.0|27| |商用|月之暗面kimichat(new)|84.0|28| |开源|Baichuan2-7B-Chat|83.3|29| |商用|商汤senseChat|82.7|30| |开源|xverse-13b-chat|81.3|31| |商用|阿里通义千问|81.0|32| |商用|字节跳动豆包|80.0|33| |开源|tigerbot-70b-chat-v2|80.0|34| |开源|tigerbot-13b-chat-v4|80.0|35| |商用|讯飞星火v2.0|79.3|36| |开源|openbuddy-llama-65b-v8|79.3|37| |开源|Qwen1.5-4B-Chat|79.3|38| |开源|chatglm3-6b|78.7|39| |开源|miniCPM-2B-sft(new)|77.3|40| |商用|chatglm-std|76.0|41| |商用|chatglm-pro|76.0|42| |商用|讯飞星火v1.5|76.0|43| |开源|Qwen1.5-7B-Chat|76.0|44| |开源|BELLE-Llama2-13B-chat-0.4M|76.0|45| |开源|Qwen-1_8B-Chat|75.3|46| |开源|Baichuan2-13B-Chat|74.7|47| |开源|Qwen-7B-Chat|74.0|48| |开源|MiniCPM-2B-dpo(new)|74.0|49| |开源|BlueLM-7B-Chat|74.0|50| |开源|谷歌gemma-7b-it(new)|74.0|51| |商用|360智脑|74.0|52| |开源|openbuddy-zephyr-7b|74.0|53| |开源|Llama-2-70b-chat|73.3|54| |开源|openbuddy-mistral-7b-v13.1|73.3|55| |商用|minimax|73.3|56| |开源|internlm2-chat-7b|72.7|57| |开源|Baichuan-13B-Chat-v2|72.7|58| |开源|ziya2-13b-chat|71.3|59| |开源|Linly-Chinese-LLaMA2-13B|67.3|60| |开源|Yi-6B-Chat|66.0|61| |开源|openbuddy-openllama-3b-v10|61.3|62| |开源|谷歌gemma-2b-it(new)|60.0|63| |开源|Qwen1.5-0.5B-Chat|60.0|64| |开源|Qwen1.5-1.8B-Chat|52.7|65| ### 5、数据分析排行榜 暂不计入综合能力评分。 专门考查大模型对表格的理解分析能力,常用于数据分析。  | 类别 | 大模型 | 数据分析能力 | 排名 | |-----|------------------------------|---------|----| |商用|微软new-bing|100.0|1| |商用|gpt4|97.0|2| |商用|gpt-4-turbo(new)|96.0|3| |商用|GLM4|96.0|4| |商用|文心4.0|94.0|5| |开源|deepseek-llm-67b-chat|92.0|6| |商用|gpt-3.5-turbo|91.3|7| |商用|阿里qwen-max|91.3|8| |开源|Qwen1.5-14B-Chat|90.7|9| |开源|AquilaChat2-70B-Expr(new)|89.3|10| |商用|月之暗面kimichat(new)|89.3|11| |开源|XVERSE-65B-Chat|89.0|12| |开源|internlm2-chat-20b|88.0|13| |商用|讯飞星火v3.5(new)|87.3|14| |开源|Qwen1.5-72B-Chat|87.3|15| |开源|Qwen-72B-Chat|87.3|16| |商用|讯飞星火v3|86.0|17| |开源|tigerbot-13b-chat-v4|85.0|18| |开源|tigerbot-70b-chat-v2|85.0|19| |开源|openbuddy-deepseek-67b|85.0|20| |商用|baichuan3|84.7|21| |开源|aquilachat2-34b|83.0|22| |开源|internlm2-chat-7b|82.7|23| |商用|字节跳动豆包|82.0|24| |开源|openbuddy-mixtral-7bx8-v17.1|82.0|25| |商用|文心一言v2.2|81.0|26| |商用|chatglm-turbo|81.0|27| |开源|BELLE-Llama2-13B-chat-0.4M|79.0|28| |商用|商汤senseChat|78.0|29| |开源|Yi-34B-Chat|77.0|30| |商用|谷歌bard|77.0|31| |开源|qwen-14b-chat|77.0|32| |开源|Baichuan2-13B-Chat|77.0|33| |开源|openbuddy-llama-65b-v8|76.0|34| |开源|谷歌gemma-7b-it(new)|76.0|35| |开源|openbuddy-mistral-7b-v13.1|76.0|36| |开源|openbuddy-llama2-70b-v10.1|76.0|37| |商用|阿里通义千问|73.0|38| |商用|chatglm-pro|73.0|39| |商用|chatglm-std|73.0|40| |开源|BlueLM-7B-Chat|72.0|41| |开源|openbuddy-zephyr-7b|72.0|42| |开源|tigerbot-70b-chat-v3|71.0|43| |开源|Qwen1.5-7B-Chat|70.7|44| |开源|Llama-2-70b-chat|69.0|45| |开源|Baichuan2-7B-Chat|69.0|46| |商用|讯飞星火v1.5|69.0|47| |开源|ziya2-13b-chat|68.0|48| |开源|xverse-13b-chat|67.0|49| |开源|Baichuan-13B-Chat-v2|67.0|50| |商用|360智脑|66.0|51| |开源|MiniCPM-2B-dpo(new)|66.0|52| |商用|讯飞星火v2.0|65.0|53| |开源|Yi-6B-Chat|64.7|54| |开源|Qwen1.5-4B-Chat|63.0|55| |商用|minimax|63.0|56| |开源|chatglm3-6b|60.0|57| |开源|Qwen-7B-Chat|59.0|58| |开源|Linly-Chinese-LLaMA2-13B|57.0|59| |开源|miniCPM-2B-sft(new)|53.3|60| |开源|Qwen-1_8B-Chat|51.3|61| |开源|Qwen1.5-1.8B-Chat|48.0|62| |开源|谷歌gemma-2b-it(new)|43.3|63| |开源|openbuddy-openllama-3b-v10|40.7|64| |开源|Qwen1.5-0.5B-Chat|34.7|65| ## 🌐各项能力评分 评分方法:从各个维度给大模型打分,每个维度都对应一个评测数据集,包含若干道题。 每道题依据大模型回复质量给1~5分,将评测集内所有题的得分累加并归一化为100分制,即作为最终得分。 | 类别 | 大模型 | 分类能力 | 信息抽取能力 | 阅读理解能力 | 数据分析能力 | 综合能力 | |----|------------------------------|------|--------|--------|--------|------| |商用|gpt4|94|94|99.3|97.0|96.1|1| |商用|微软new-bing|95|83|94.0|100.0|93.0|2| |商用|gpt-4-turbo(new)|91|90|94.0|96.0|92.8|3| |商用|GLM4|86|90|97.3|96.0|92.3|4| |商用|文心4.0|88|89|94.7|94.0|91.4|5| |商用|讯飞星火v3.5(new)|87|92|89.3|87.3|88.9|6| |商用|阿里qwen-max|86|82|95.3|91.3|88.7|7| |商用|月之暗面kimichat(new)|92|85|84.0|89.3|87.6|8| |开源|Qwen1.5-14B-Chat|89|79|90.7|90.7|87.3|9| |开源|Qwen-72B-Chat|89|80|92.7|87.3|87.3|10| |开源|Qwen1.5-72B-Chat|89|84|88.0|87.3|87.1|11| |商用|gpt-3.5-turbo|81|83|92.7|91.3|87.0|12| |开源|internlm2-chat-20b|93|80|86.0|88.0|86.8|13| |开源|AquilaChat2-70B-Expr(new)|82|84|92.0|89.3|86.8|14| |开源|deepseek-llm-67b-chat|87|81|86.7|92.0|86.7|15| |商用|文心一言v2.2|90|87|88.0|81.0|86.5|16| |开源|tigerbot-70b-chat-v2|97|84|80.0|85.0|86.5|17| |开源|openbuddy-deepseek-67b|86|89|84.7|85.0|86.2|18| |商用|baichuan3|86|83|90.7|84.7|86.1|19| |商用|讯飞星火v3|87|82|88.0|86.0|85.8|20| |开源|XVERSE-65B-Chat|83|84|84.0|89.0|85.0|21| |商用|谷歌bard|86|88|85.3|77.0|84.1|22| |开源|tigerbot-70b-chat-v3|94|85|84.0|71.0|83.5|23| |开源|openbuddy-llama2-70b-v10.1|86|84|86.7|76.0|83.2|24| |开源|tigerbot-13b-chat-v4|85|82|80.0|85.0|83.0|25| |商用|chatglm-turbo|86|75|90.0|81.0|83.0|26| |开源|Yi-34B-Chat|88|82|84.7|77.0|82.9|27| |开源|aquilachat2-34b|77|82|88.0|83.0|82.5|28| |商用|商汤senseChat|82|85|82.7|78.0|81.9|29| |开源|openbuddy-mixtral-7bx8-v17.1|86|73|86.0|82.0|81.8|30| |开源|internlm2-chat-7b|86|81|72.7|82.7|80.6|31| |开源|BELLE-Llama2-13B-chat-0.4M|90|74|76.0|79.0|79.8|32| |商用|字节跳动豆包|79|77|80.0|82.0|79.5|33| |开源|qwen-14b-chat|84|72|84.7|77.0|79.4|34| |开源|Baichuan2-13B-Chat|83|83|74.7|77.0|79.4|35| |开源|Baichuan2-7B-Chat|88|76|83.3|69.0|79.1|36| |商用|阿里通义千问|81|81|81.0|73.0|79.0|37| |开源|BlueLM-7B-Chat|82|83|74.0|72.0|77.8|38| |开源|openbuddy-zephyr-7b|82|83|74.0|72.0|77.8|39| |开源|openbuddy-llama-65b-v8|68|84|79.3|76.0|76.8|40| |开源|xverse-13b-chat|86|72|81.3|67.0|76.6|41| |商用|chatglm-std|84|71|76.0|73.0|76.0|42| |商用|chatglm-pro|84|70|76.0|73.0|75.8|43| |开源|Qwen1.5-7B-Chat|80|76|76.0|70.7|75.7|44| |商用|讯飞星火v1.5|76|81|76.0|69.0|75.5|45| |开源|谷歌gemma-7b-it(new)|72|79|74.0|76.0|75.3|46| |开源|openbuddy-mistral-7b-v13.1|79|72|73.3|76.0|75.1|47| |商用|360智脑|86|71|74.0|66.0|74.3|48| |开源|MiniCPM-2B-dpo(new)|79|77|74.0|66.0|74.0|49| |开源|Llama-2-70b-chat|86|66|73.3|69.0|73.6|50| |开源|Qwen-7B-Chat|89|72|74.0|59.0|73.5|51| |商用|讯飞星火v2.0|72|75|79.3|65.0|72.8|52| |开源|Baichuan-13B-Chat-v2|82|69|72.7|67.0|72.7|53| |开源|chatglm3-6b|82|68|78.7|60.0|72.2|54| |开源|Qwen1.5-4B-Chat|75|65|79.3|63.0|70.6|55| |开源|miniCPM-2B-sft(new)|72|72|77.3|53.3|68.7|56| |开源|Yi-6B-Chat|73|71|66.0|64.7|68.7|57| |开源|Linly-Chinese-LLaMA2-13B|78|67|67.3|57.0|67.3|58| |开源|ziya2-13b-chat|76|54|71.3|68.0|67.3|59| |开源|Qwen-1_8B-Chat|73|66|75.3|51.3|66.4|60| |商用|minimax|68|61|73.3|63.0|66.3|61| |开源|openbuddy-openllama-3b-v10|64|60|61.3|40.7|56.5|62| |开源|谷歌gemma-2b-it(new)|56|60|60.0|43.3|54.8|63| |开源|Qwen1.5-1.8B-Chat|57|58|52.7|48.0|53.9|64| |开源|Qwen1.5-0.5B-Chat|44|40|60.0|34.7|44.7|65| ## ⚖️原始评测数据 包含各维度评测集以及大模型输出结果,详见本项目的[eval文件目录](eval) ### 评测样本示例 | # | 分类评测样本 | 信息抽取评测样本 | 阅读理解评测样本 | |---|-------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | 1 |