# llm-benchmark

**Repository Path**: stringify/llm-benchmark

## Basic Information

- **Project Name**: llm-benchmark
- **Description**: 大语言模型性能、并发测试
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2024-11-29
- **Last Updated**: 2024-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

### 大语言模型性能、并发测试

#### 使用

pip install -r requirements.txt

#### 测试 glm-4-9b-chat /v1/completions

```
python serving.py --dataset-name random  --random-input-len 10 --random-output-len 200  --model THUDM/glm-4-9b-chat --num-prompts 1 --trust-remote-code  --port 80  --base-url https://ai.gitee.com  --api-key xxx --model-name glm-4-9b-chat --backend vllm
```

#### 测试 Qwen2.5-72B-Instruct /v1/chat/completions

额外添加参数，即可测试测试 chat/completions：
--backend openai-chat --endpoint /v1/chat/completions

```
 python serving.py --dataset-name random  --random-input-len 10 --random-output-len 100  --model Qwen/Qwen2.5-72B-Instruct --num-prompts 1 --trust-remote-code  --port 80   --base-url https://ai.gitee.com  --api-key xxx --model-name Qwen2.5-72B-Instruct --backend openai-chat --endpoint /v1/chat/completions
```

结果:
```
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:08<00:00,  8.22s/it]
Total input tokens:                      10
Total generated tokens:                  378
Request throughput (req/s):              0.12
Output token throughput (tok/s):         46.00
Total Token throughput (tok/s):          47.22
---------------Time to First Token----------------
Mean TTFT (ms):                          1346.34
Median TTFT (ms):                        1346.34
P99 TTFT (ms):                           1346.34
Mean ITL (ms):                           18.12
Median ITL (ms):                         17.98
P99 ITL (ms):                            33.91
==================================================
```

#### 参数说明
- --model 填写模型路径
需要下载模型 tokenizer 等配置文件，便于计算 tokens。
您可以添加环境变量 `HF_ENDPOINT=https://hf-api.gitee.com` python serving.py ...
或 model 填写本地模型路径

- --base-url api 提供商地址
- --api-key api 提供商的秘钥
- --model-name  请求体的 "model" 参数。api 提供商模型与 huggingface 模型路径不同时有用。
- --num-prompts  请求量
- --dataset-name random 使用随机数据，也可以添加数据集路径。
- --random-input-len 随机输入长度
- --random-output-len 随机输出长度，测试 chat/completions 时无法控制输出。
- --port 端口
- --endpoint， 默认为 /v1/completions
- max-concurrency 并发数, 默认无限。即不指定时 num-prompts 就是并发数