# big-data-example

**Repository Path**: anderf/big-data-example

## Basic Information

- **Project Name**: big-data-example
- **Description**: 开源大数据分析示例项目
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2019-04-03
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 1.项目介绍(欢迎star)

big-data-example 卜算子·大数据

[大数据学习文档](https://github.com/lycheeman/big-data)

项目基于Gradle构建，每个大数据组件都会独立为一个module。


## 2.使用方式

```
$ git clone https://gitee.com/machinelearning/big-data-example.git


导入Intellij IDEA， file -->open -->项目文件

```
## 3. “卜算子·大数据”架构

知识宝贵的地方在于自成体系

需要学习的大数据技能基本都在这里了（大数据生态）

### 第一部分 大数据开篇
- 第1章　卜算子·大数据简介
- 第2章　Linux
- 第3章　大数据需要哪些编程语言基础

### 第二部分 数据存储格式
- 第4章　Apache Avro
- 第5章　Apache Parquet

### 第三部分　数据存储
- 第10章　Apache Hadoop　HDFS
- 第11章　Apache Hbase
- 第12章　Cassandra

### 第四部分　数据采集
- 第6章　Apache Zookeeper
- 第7章　Apache Sqoop
- 第8章　Apache Kafka
- 第9章　Apache Flume


### 第五部分　数据挖掘(批处理)系统
- 第13章　Apache Hadoop MapReduce
- 第14章　Apache Spark
- 第15章　Apache pig
- 第16章　Apache Crunch
- 第17章　Apache Oozie

### 第六部分　大数据查询系统
- 第18章　Apache Phoenix
- 第19章　Druid
- 第20章　Apache Kylin
- 第21章　Apache Impala
- 第22章　Presto
- 第23章　GreenPlum
- 第24章　ClickHouse
- 第25章　Elasticsearch

### 第七部分　流处理系统
- 第26章　Apache Spark Streaming
- 第27章　Apache Storm
- 第28章　Apache Flink
- 第29章　Apache Kafka Streams
- 第30章　Apache Apex
- 第31章　Apache Samza

### 第八部分　大数据架构
- 第32章　Lambda架构
- 第33章　Kappa架构

### 第九部分 大数据源码解读
- 第34章　Hadoop 源码研究
- 第35章　Spark 源码研究

### 第十部分 发布－订阅入门(Streams everywhere)
- 第36章　Java NIO
- 第37章　Netty
- 第38章　RabbitMQ
- 第39章　Redis

### 第十一部分 大数据之机器学习
- 第40章　Apache Spark
- 第41章　Apache Hadoop