# Training-Platform **Repository Path**: WZhewei/training-platform-scheduling ## Basic Information - **Project Name**: Training-Platform - **Description**: 训练平台及多台训练服务器间的任务调度 - **Primary Language**: Python - **License**: AGPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 1 - **Created**: 2022-12-13 - **Last Updated**: 2025-09-09 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 简介 --- 该仓库为AI训练平台及分布式训练任务调度分配代码仓: - 任务调度端由负责维护每台训练服务器中各gpu的使用情况,以 $ free\_space \over task\_number+1 $ 作为优先级对gpu进行调度与任务分配; - AI训练端为基于[MMDetection](https://github.com/open-mmlab/mmdetection)进行二次开发的中间件; - gpu查询端为基于flask的gpu查询模块,应当部署于每台训练服务器中; 前端请求JAVA后端,然后通过任务调度段进行训练任务调度与AI训练,训练完成后反馈训练结果给JAVA后端,若训练任务失败,则任务需由JAVA重新发起请求。 ### 其他文档 #### [任务调度端](./doc) #### [AI训练端](https://gitee.com/WZhewei/training-platform-scheduling/tree/trainingTool) #### [gpu查询端](https://gitee.com/WZhewei/training-platform-scheduling/tree/gpuMonitor) ### 流程图 ![流程图](./doc/流程图.png) ### 分支说明 ```bash ├─ master # 任务调度端 ├─ trainingTool # AI训练端 ├─ gpuMointor # gpu查询端 ``` #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request ## 开源许可证 该项目采用 [AGPL](LICENSE)。 ## 引用 如果你在研究中使用了本项目的代码,请参考如下 bibtex 引用 Training-Platform。 ``` @article{epai-algorithm, title = {{Training-Platform}: Distributed Training Task Scheduling Platform }, author = {HYCX, Bosch HUAYU Steering Systems}, year={2023} } ```