evalplus

最近更新: 1年多前

human-eval

最近更新: 1年多前

CIBench

最近更新: 1年多前

ANAH

最近更新: 1年多前

code-evaluator

最近更新: 1年多前

CriticBench

最近更新: 1年多前

GTA

最近更新: 1年多前

Ada-LEval

最近更新: 1年多前

DevBench

最近更新: 1年多前

GAOKAO-Eval

最近更新: 1年多前

BotChat

最近更新: 1年多前

T-Eval

最近更新: 1年多前

MixtralKit

最近更新: 1年多前

VLMEvalKit

最近更新: 1年多前

opencompass
Python

OpenCompass is an LLM evaluation platform, supporting a wide range of models (LLaMA, LLaMa2, ChatGLM2, ChatGPT, Claude, etc) over 50+ datasets.

最近更新: 1年多前

搜索帮助