# 并发测试

**Repository Path**: ddgit123/concurrency-testing

## Basic Information

- **Project Name**: 并发测试
- **Description**: 大模型API服务模拟与压力测试实践指南
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-04-12
- **Last Updated**: 2025-04-12

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

测试大模型对话接口性能时，需综合评估多个维度的指标，以确保系统的高效性、稳定性和用户体验。以下是关键指标分类及具体说明：

---

### **一、响应时间类指标**
1. **首Token时延（TTFT, Time to First Token）**  
   - 定义：从用户发送请求到接收到第一个Token的时间，直接影响用户对响应速度的感知。  
   - 优化方向：优化模型初始化和生成策略（如分段生成）。

2. **Token间延迟（Inter-Token Latency, ITL）**  
   - 定义：连续Token生成的时间间隔，影响对话的流畅性。  
   - 计算：总生成时间/输出Token数，需优化生成策略以减少卡顿。

3. **端到端响应时间（End-to-End Latency）**  
   - 定义：从请求发送到完整响应返回的总时间，包含网络传输和模型处理时间。  
   - 目标：通过并行计算和硬件优化降低整体延迟。

---

### **二、吞吐量与并发能力**
1. **QPS（Queries Per Second）**  
   - 定义：每秒处理的查询请求数，反映接口的并发处理能力。衡量系统同时处理请求的能力，但不关心事务是否做完，只关心“接收请求的速度”。
   - 公式：QPS = 并发用户数 / 平均响应时间。

2. **TPS（Transactions Per Second）**  
   - 定义：每秒处理的事务数（如完整对话轮次），需结合业务场景设计测试。衡量系统完成完整流程的能力（从请求到结果）。比如对话接口中，用户问一个问题到收到最终答案算一次事务。

3. **生成速度（OTPS, Output Tokens Per Second）**  
   - 定义：每秒生成的Token数，衡量模型生成效率。 直接影响用户看到的回复速度。生成速度越快，用户感觉“答案是一下子蹦出来的”；越慢则像“一个字一个字慢慢挤牙膏”。
   - 优化：通过硬件加速（如GPU）和模型量化提升速度。

---

### **三、资源利用率**
1. **GPU/CPU利用率**  
   - 监控硬件资源的使用率，避免过载导致的性能瓶颈。

2. **内存占用**  
   - 检测模型加载和生成过程中的内存消耗，优化缓存策略。

3. **网络带宽**  
   - 评估数据传输对延迟的影响，特别是在流式传输场景中。

---

### **四、稳定性与可靠性**
1. **TP99/TP95延迟**  
   - 定义：99%或95%请求的响应时间上限，反映系统在高负载下的稳定性。  
   - 优化：通过负载均衡和资源调度减少尾部延迟。

2. **错误率**  
   - 统计请求失败或超时的比例，排查网络或模型处理问题。

3. **系统可用性**  
   - 计算正常运行时间比例，确保服务的高可用性。

---

### **五、生成质量与准确性**
1. **准确率**  
   - 评估回答与标准答案的匹配度，需通过人工或自动化测试验证。

2. **流畅性与逻辑性**  
   - 检测生成的文本是否自然连贯，避免重复或逻辑错误。

3. **多样性**  
   - 衡量模型生成结果的多样性，避免单一化回答。

---

### **六、安全性评估**
1. **抗攻击能力**  
   - 测试模型对恶意提示词攻击（如注入攻击、诱导攻击）的防御能力。

2. **内容合规性**  
   - 确保输出内容不包含有害信息（如偏见、暴力等）。

---

### **七、可扩展性**
1. **横向扩展效率**  
   - 测试增加服务器节点时性能的提升比例。

2. **纵向扩展能力**  
   - 评估单机硬件升级（如更高性能GPU）对吞吐量的影响。

---

### **八、其他场景化指标**
- **多轮对话能力**：测试模型在连续对话中的上下文理解能力。  
- **多语言支持**：评估模型对不同语言或方言的响应准确性。

---

### **指标优先级建议**
1. **核心指标**：TTFT、端到端响应时间、QPS、TPS、TP99、GPU利用率、内存占用、生成准确率。  
2. **扩展指标**：Token生成速度、多轮对话能力、抗攻击能力。  

通过以上指标的综合评估，可全面优化大模型对话接口的性能，确保其在实时性、稳定性和用户体验上的平衡。

---

### 代码运行

1. 首先，运行模拟大模型对话接口.py
2. 其次，运行测试xxx.py