# Spark ML 机器学习 **Repository Path**: sevendegrees/spark-ml-machine-learning ## Basic Information - **Project Name**: Spark ML 机器学习 - **Description**: 基于 scala 语言学习 Spark ML 机器学习算法 - **Primary Language**: Scala - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 4 - **Forks**: 0 - **Created**: 2021-07-08 - **Last Updated**: 2023-05-09 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Spark ML 机器学习 #### 介绍 基于 dataframe/dataset 学习 Spark ML 机器学习算法 - scala版本:2.11 - spark版本:2.3.3 #### 目录说明: - /data:模型训练中使用到的模拟数据 - /model:训练好的机器学习模型 - /offline-learning:离线机器学习 - /online-learning:在线机器学习 #### 1. 训练数据 - **breast-cancer-wisconsin.data**:威斯康星州乳腺癌数据集 - **iris.data**:鸢尾花数据集 - **housing.data**:波士顿房价数据 - **movies.dat**:电影数据,包含电影ID、标题和流派 - **ratings.dat**:电影评分数据,包含用户ID、电影ID、评分和时间戳 - **users.dat**:用户数据 - **processed.cleveland.data**:心脏病数据 - **nasa_dataset_july_1995.tgz**:1995年NASA的web服务器日志,json格式 #### 2. 预测模型 - **logistic_reg**:基于 `心脏病数据` 训练出来的逻辑回归模型。 #### 3. 离线机器学习 基于 DataFrame/DataSet 进行 Spark ML 机器学习训练 #### 4. 在线机器学习 基于流式 DataFrame/DataSet 进行 Spark ML 机器学习预测和流式数据处理