# Spark电影数据分析实战 **Repository Path**: intentionj7/spark-movie-data-analysis ## Basic Information - **Project Name**: Spark电影数据分析实战 - **Description**: 以电影大数据为基础,使用 Spark SQL 从大量的电影数据中提取分析出我们想要的结果。 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2022-04-13 - **Last Updated**: 2022-04-13 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Spark电影数据分析实战 #### 需求: 1. 计算一周中每一天电影的观看量,并且按照观看量排序。 2. 统计电影榜评分 Top10 电影。 对于需求 1:要分析一周中每一天电影的观看量,并且按照观看量排序;首先我们需要将每列数据的最后一个字段进行转换,即将 unixtimestamp 转换为 星期日期,这样我们就知道每一行数据中电影的观看日期了,然后按照日期进行分组,即可计算出每天的浏览量,然后按照浏览器排序即可。 对于需求 2:统计 Top10 电影评分榜,这个需求比较简单,只需要按照 rate 字段进行排序,取前 10 行数据即可。 #### 软件架构 SPARK2.4.7 MQSQL5.7.32 SCALA2.12.12 #### 安装教程 1. git clone https://gitee.com/aiwebops/spark-movie-data-analysis.git 2. cd spark-movie-data-analysis 3. mvn clean compile package #### 实验步骤 在项目实战之前,先向大家介绍一下大数据处理的基本流程,有以下步骤: 数据调研 数据采集 需求分析 数据清洗 数据分析 数据存储 数据可视化 以上是大数据处理的详细流程,其中主要分为需求分析、数据清洗、数据分析、数据存储、数据可视化这几部分,我们的项目也会按照这个流程来进行实战操作。 所谓数据调研,通俗的讲,当你在进行某一项工作或者开发一个软件之前,你肯定会进行市场调查,你即将开展的这项工作或者设计的这款 APP 适合怎样的人群使用,该产品更趋向于哪个年龄段的人群使用,产品的主题怎样设计更加贴近人们的意愿等等。这些都需要进行市场调查,这样我们才能设计出更加合理的软件,避免盲目设计。 在数据调研完成之后就可以进行数据采集,使得收集的数据更具代表性,更能够准确的分析出我们所要的结果。 后面几个重要的部分,我们会在项目中详细介绍,这里学员也可以提前查阅相关资料。