# 基于Spark ML的机器学习平台 **Repository Path**: sdwl_git/spark-ml-model-predict-service ## Basic Information - **Project Name**: 基于Spark ML的机器学习平台 - **Description**: 基于Spark ml,构建从数据预处理,特征工程,机器学习模型训练,服务定时调度再到服务发布等功能的平台。支持自定义的spark ml模型,pmml模型的服务发布,以Rest的方式提供接口服务 - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2023-10-25 - **Last Updated**: 2023-10-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## Spark ML 管道模型在线预测服务 ### 项目进度 - [x] predict-service-publish:完成 - [x] predict-spark-stream:完成 - [x] predict-service-web-ui:进行中 - [x] predict-service-web:进行中 - [ ] predict-service-scheduler:未开始 - [ ] predict-spark-batch:未开始 - [ ] training-spark-batch:未开始 ### 1.项目结构 **本地服务:** - **predict-service-web**:提供模型管理、执行计划、模型发布、服务检测等功能 - **predict-service-runner**:模型算法执行类,包含以下三个子类模块 - predict-spark-batch:进行pipeline模型文件的批处理预测,使用scala编写 - predict-spark-stream:进行pipeline模型文件的流处理预测,使用scala编写 - training-spark-batch:进行spark的模型训练模板模块,使用scala编写 - **predict-service-commons**:提供各种公共方法 - **predict-service-scheduler**:定时任务调度服务 - **predict-service-publish**: 为流式等预测服务提供restAPI接口 - **predict-service-api**: 分布式服务网关 - **predict-service-web-ui**:Web服务的前端项目 - docs:包含测试模型的数据格式文件,图片等 - model:测试使用的逻辑回归模型等 **第三方服务:** - **apache livy 服务**:使用Rest方式进行Spark任务的远程提交等操作 ### 2. 服务设计原理 模型发布预测原理: ![模型实时预测原理图](.\docs\模型实时预测原理图.png)