# Big-Data **Repository Path**: shenhao-stu/Big-Data ## Basic Information - **Project Name**: Big-Data - **Description**: 🎉🎉🐳 Datawhale大数据处理导论教程 | Big Data团队负责 | 大数据技术方向的开篇课程🎉🎉 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 4 - **Forks**: 2 - **Created**: 2021-12-02 - **Last Updated**: 2023-02-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README
# 妙趣横生大数据 Juicy Big Data [![](https://img.shields.io/github/watchers/datawhalechina/juicy-bigdata.svg?style=flat)](https://github.com/datawhalechina/juicy-bigdata/watchers) [![](https://img.shields.io/github/stars/datawhalechina/juicy-bigdata.svg?style=flat)](https://github.com/datawhalechina/juicy-bigdata/stargazers) [![](https://img.shields.io/github/forks/datawhalechina/juicy-bigdata.svg?style=flat)](https://github.com/datawhalechina/juicy-bigdata/network/members) [![](https://img.shields.io/github/issues-pr-closed-raw/datawhalechina/juicy-bigdata.svg?style=flat)](https://github.com/datawhalechina/juicy-bigdata/issues) ![](https://img.shields.io/github/repo-size/datawhalechina/juicy-bigdata.svg?style=flat) [![](https://github.com/datawhalechina/juicy-bigdata/actions/workflows/Sync.yml/badge.svg?branch=master)](https://github.com/datawhalechina/juicy-bigdata/actions/workflows/CI.yml) 本项目《妙趣横生大数据》是Datawhale:whale:大数据技术相关内容的导论课程。 当今的时代处处充斥着大数据的影子,大数据技术也为信息技术发展带来了重大的变革,并深刻影响着人们生活的方方面面。而我们旨在带领大家走进大数据时代的浪潮中,理解并能够使用目前主流的大数据处理架构Hadoop解决相应的问题,从小白到实践者。 ## 食用方法 :whale: 推荐使用 [**Big Data Github在线阅读**](https://datawhalechina.github.io/juicy-bigdata/) 进行学习。 **项目结构:** ├─docs--------------------------------------------------章节主要内容(理论+实验) ├─experiments-------------------------------------- 每个章节配套的补充小实验 └─resources-------------------------------------------相关资源 以下是目录,还等什么,学就完事了~ ## 大数据处理技术导论目录 * [第一章:大数据概述](https://datawhalechina.github.io/juicy-bigdata/#/ch1%20大数据概述.md) - [x] [1.1 大数据时代](https://datawhalechina.github.io/juicy-bigdata/#/ch1%20大数据概述?id=_1-1-大数据时代) - [x] [1.2 大数据的概念](https://datawhalechina.github.io/juicy-bigdata/#/ch1%20大数据概述?id=_12-大数据的概念) - [x] [1.3大数据的应用](https://datawhalechina.github.io/juicy-bigdata/#/ch1%20大数据概述?id=_13-大数据的应用) - [x] [1.4 大数据关键技术](https://datawhalechina.github.io/juicy-bigdata/#/ch1%20大数据概述?id=_14-大数据关键技术) * [第二章:Hadoop](https://datawhalechina.github.io/juicy-bigdata/#/ch2%20Hadoop) - [x] [2.0 Hadoop的前世今生](https://datawhalechina.github.io/juicy-bigdata/#/ch2%20Hadoop?id=_20-hadoop的前世今生) - [x] [2.1 概述](https://datawhalechina.github.io/juicy-bigdata/#/ch2%20Hadoop?id=_21-概述) - [x] [2.3 Hadoop的安装与使用](https://datawhalechina.github.io/juicy-bigdata/#/ch2%20Hadoop?id=_23-hadoop的安装与应用) - [x] [2.4 本章小结](https://datawhalechina.github.io/juicy-bigdata/#/ch2%20Hadoop?id=_24-本章小结) * [第三章:HDFS](https://datawhalechina.github.io/juicy-bigdata/#/ch3%20HDFS) - [x] [3.0 产生的背景](https://datawhalechina.github.io/juicy-bigdata/#/ch3%20HDFS?id=_30-产生的背景) - [x] [3.1 概述](https://datawhalechina.github.io/juicy-bigdata/#/ch3%20HDFS?id=_31-概述) - [x] [3.2 HDFS的体系结构](https://datawhalechina.github.io/juicy-bigdata/#/ch3%20HDFS?id=_32-hdfs的体系结构) - [x] [3.3 HDFS的存储原理](https://datawhalechina.github.io/juicy-bigdata/#/ch3%20HDFS?id=_33-hdfs的存储原理) - [x] [3.4 HDFS的数据读写过程](https://datawhalechina.github.io/juicy-bigdata/#/ch3%20HDFS?id=_34-hdfs的数据读写过程) - [x] [3.5 HDFS编程实战](https://datawhalechina.github.io/juicy-bigdata/#/ch3%20HDFS?id=_35-hdfs编程实战) - [x] [3.6 本章小结](https://datawhalechina.github.io/juicy-bigdata/#/ch3%20HDFS?id=_36-本章小结) * [第四章:HBase](https://datawhalechina.github.io/juicy-bigdata/#/ch4%20HBase) - [x] [4.0 产生的背景](https://datawhalechina.github.io/juicy-bigdata/#/ch4%20HBase?id=_40-产生的背景) - [x] [4.1 概述](https://datawhalechina.github.io/juicy-bigdata/#/ch4%20HBase?id=_41-概述) - [x] [4.2 HBase 数据模型](https://datawhalechina.github.io/juicy-bigdata/#/ch4%20HBase?id=_42-hbase-数据模型) - [x] [4.3 HBase 的实现原理](https://datawhalechina.github.io/juicy-bigdata/#/ch4%20HBase?id=_43-hbase-的实现原理) - [x] [4.4 HBase 运行机制](https://datawhalechina.github.io/juicy-bigdata/#/ch4%20HBase?id=_44-hbase-运行机制) - [x] [4.5 HBase 编程实战](https://datawhalechina.github.io/juicy-bigdata/#/ch4%20HBase?id=_45-hbase-编程实战) - [x] [4.6 本章小结](https://datawhalechina.github.io/juicy-bigdata/#/ch4%20HBase?id=_46-本章小结) * [第五章:MapReduce](https://datawhalechina.github.io/juicy-bigdata/#/ch5%20MapReduce) - [x] [5.0 洋葱辣椒酱与MapReduce](https://datawhalechina.github.io/juicy-bigdata/#/ch5%20MapReduce?id=_50-洋葱辣椒酱与mapreduce) - [x] [5.1 概述](https://datawhalechina.github.io/juicy-bigdata/#/ch5%20MapReduce?id=_51-概述) - [x] [5.2 MapReduce的工作流程](https://datawhalechina.github.io/juicy-bigdata/#/ch5%20MapReduce?id=_52-mapreduce的工作流程) - [x] [5.3 以Wordcount为例理解MapReduce](https://datawhalechina.github.io/juicy-bigdata/#/ch5%20MapReduce?id=_53-以wordcount为例理解mapreduce) - [x] [5.4 本章小结](https://datawhalechina.github.io/juicy-bigdata/#/ch5%20MapReduce?id=_54-本章小结) * [第六章:期中大作业](https://datawhalechina.github.io/juicy-bigdata/#/ch6%20期中大作业) - [x] [6.1 面试题](https://datawhalechina.github.io/juicy-bigdata/#/ch6%20期中大作业?id=_61-面试题) - [x] [6.2 实战](https://datawhalechina.github.io/juicy-bigdata/#/ch6%20期中大作业?id=_62-实战) * [第七章:Hive](https://datawhalechina.github.io/juicy-bigdata/#/ch7%20Hive) - [x] [7.0 数据仓库](https://datawhalechina.github.io/juicy-bigdata/#/ch7%20Hive?id=_70-数据仓库) - [x] [7.1 Hive 基本概念](https://datawhalechina.github.io/juicy-bigdata/#/ch7%20Hive?id=_71-hive-基本概念) - [x] [7.2 Hive 核心概念](https://datawhalechina.github.io/juicy-bigdata/#/ch7%20Hive?id=_72-Hive-核心概念) - [x] [7.3 Hive 系统结构](https://datawhalechina.github.io/juicy-bigdata/#/ch7%20Hive?id=_73-hive-系统结构) - [x] [7.4 Hive 编程实战](https://datawhalechina.github.io/juicy-bigdata/#/ch7%20Hive?id=_74-hive-编程实战) - [x] [7.5 本章小结](https://datawhalechina.github.io/juicy-bigdata/#/ch7%20Hive?id=_75-本章小结) * [第八章:Spark](https://datawhalechina.github.io/juicy-bigdata/#/ch8%20Spark) - [x] [8.0 引言](https://datawhalechina.github.io/juicy-bigdata/#/ch8%20Spark?id=_80-引言) - [x] [8.1 Spark 概述](https://datawhalechina.github.io/juicy-bigdata/#/ch8%20Spark?id=_81-spark-概述) - [x] [8.2 Spark 编程模型](https://datawhalechina.github.io/juicy-bigdata/#/ch8%20Spark?id=_82-spark-编程模型) - [x] [8.3 Spark 架构原理](https://datawhalechina.github.io/juicy-bigdata/#/ch8%20Spark?id=_83-spark-架构原理) - [x] [8.4 Spark 编程实战](https://datawhalechina.github.io/juicy-bigdata/#/ch8%20Spark?id=_84-spark-编程实战) - [x] [8.5 本章小结](https://datawhalechina.github.io/juicy-bigdata/#/ch8%20Spark?id=_85-本章小结) * [第九章:大数据处理技术总结](https://datawhalechina.github.io/juicy-bigdata/#/ch9%20大数据处理技术总结) - [x] [9.1 大数据技术框架综述](https://datawhalechina.github.io/juicy-bigdata/#/ch9%20大数据处理技术总结?id=_91-大数据技术框架综述) - [x] [9.2 大数据分析引擎的发展简史](https://datawhalechina.github.io/juicy-bigdata/#/ch9%20大数据处理技术总结?id=_92-大数据分析引擎的发展简史) - [x] [9.3 尾声](https://datawhalechina.github.io/juicy-bigdata/#/ch9%20大数据处理技术总结?id=_93-尾声) * [第十章:期末大作业](https://datawhalechina.github.io/juicy-bigdata/#/ch10%20期末大作业) - [x] [10.1 面试题](https://datawhalechina.github.io/juicy-bigdata/#/ch10%20期末大作业?id=_101-面试题) - [x] [10.2 实战](https://datawhalechina.github.io/juicy-bigdata/#/ch10%20期末大作业?id=_102-实战) > 第二章以后的章节都配置有实验内容,使用Linux操作系统进行编程实战。 ## 课程收获 通过本教程的学习,你将能够学习到: - 了解并描述大数据技术的应用场景,真实世界的大数据问题和方法的例子。 - 解释大数据4V的特性以及各种特性如何影响到数据的收集、监控、存储、分析和报告的方方面面。 - 识别大数据问题,并能够将问题转化为数据科学问题。 - 总结HDFS文件系统和MapReduce编程模型的特点和意义,以及它们与大数据的关系。 - 识别和利用数据科学生命周期和相关数据流中的各种组件,如HBase,Hive等。 ## 参考教程 1. 《大数据处理技术原理与应用 第三版》——林子雨 2. Big Data US SanDiego 3. 《Hadoop权威指南》 4. 《Hive编程指南》 5. 《维度建模权威指南(第3版)》 6. 《大数据处理之道》 7. 《Spark快速大数据分析》 8. 牛客网部分面试题 ## 环境安装 - Java 8 - Hadoop 3.3.1 - HBase 2.3.5 or 2.4.8 - Mysql 8.0.32 - Hive 2.3.9 - Spark 3.2.0 **安装包下载地址**:https://datawhale.feishu.cn/drive/folder/fldcnvODsgRWbyqVW9ApavEVEJg 密码: hO38 ## 致谢 感谢以下Datawhale成员对项目推进作出的贡献(排名不分先后):
贡献者名单
成员 个人简介及贡献 个人主页
沈豪 复旦大学网安博士在读,项目负责人,参与前五章内容构建 知乎, Github
王洲烽 太原理工大学数据科学与大数据技术本科生,Datawhale成员,主要贡献者 CSDN, Github
蒋志政 太原理工大学数据科学与大数据技术本科生,主要贡献者 Github
王嘉鹏 小米大数据开发工程师,Datawhale成员,主要贡献者 CSDN, Github
刘洋 中科院数学与系统科学研究院研究生,Datawhale成员,主要贡献者 知乎, Github
胡锐锋 国网大数据平台研发工程师,Datawhale成员,主要贡献者 Github
最后,也感谢伊小雪、毛自翔、萌弟、边圣陶参与本课程的内部评审! ## 关注我们

扫描下方二维码关注公众号:Datawhale

  Datawhale是一个专注AI领域的开源组织,以“for the learner,和学习者一起成长”为愿景,构建对学习者最有价值的开源学习社区。关注我们,一起学习成长。 ## LICENSE 知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。