# big-data-example **Repository Path**: anderf/big-data-example ## Basic Information - **Project Name**: big-data-example - **Description**: 开源大数据分析示例项目 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2019-04-03 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 1.项目介绍(欢迎star) big-data-example 卜算子·大数据 [大数据学习文档](https://github.com/lycheeman/big-data) 项目基于Gradle构建,每个大数据组件都会独立为一个module。 ## 2.使用方式 ``` $ git clone https://gitee.com/machinelearning/big-data-example.git 导入Intellij IDEA, file -->open -->项目文件 ``` ## 3. “卜算子·大数据”架构 知识宝贵的地方在于自成体系 需要学习的大数据技能基本都在这里了(大数据生态) ### 第一部分 大数据开篇 - 第1章 卜算子·大数据简介 - 第2章 Linux - 第3章 大数据需要哪些编程语言基础 ### 第二部分 数据存储格式 - 第4章 Apache Avro - 第5章 Apache Parquet ### 第三部分 数据存储 - 第10章 Apache Hadoop HDFS - 第11章 Apache Hbase - 第12章 Cassandra ### 第四部分 数据采集 - 第6章 Apache Zookeeper - 第7章 Apache Sqoop - 第8章 Apache Kafka - 第9章 Apache Flume ### 第五部分 数据挖掘(批处理)系统 - 第13章 Apache Hadoop MapReduce - 第14章 Apache Spark - 第15章 Apache pig - 第16章 Apache Crunch - 第17章 Apache Oozie ### 第六部分 大数据查询系统 - 第18章 Apache Phoenix - 第19章 Druid - 第20章 Apache Kylin - 第21章 Apache Impala - 第22章 Presto - 第23章 GreenPlum - 第24章 ClickHouse - 第25章 Elasticsearch ### 第七部分 流处理系统 - 第26章 Apache Spark Streaming - 第27章 Apache Storm - 第28章 Apache Flink - 第29章 Apache Kafka Streams - 第30章 Apache Apex - 第31章 Apache Samza ### 第八部分 大数据架构 - 第32章 Lambda架构 - 第33章 Kappa架构 ### 第九部分 大数据源码解读 - 第34章 Hadoop 源码研究 - 第35章 Spark 源码研究 ### 第十部分 发布-订阅入门(Streams everywhere) - 第36章 Java NIO - 第37章 Netty - 第38章 RabbitMQ - 第39章 Redis ### 第十一部分 大数据之机器学习 - 第40章 Apache Spark - 第41章 Apache Hadoop