# 电商数仓

**Repository Path**: willardwang/e-commerce-data-warehouse

## Basic Information

- **Project Name**: 电商数仓
- **Description**: 基于hive的离线数仓
- **Primary Language**: Unknown
- **License**: MulanPSL-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 2
- **Created**: 2022-11-08
- **Last Updated**: 2022-11-08

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 一、电商数仓

1.对电商业务所产生的业务数据和用户行为数据构建数据仓库来管理,为后续数据应用，提供数据支持。

2.使用的技术框架

数据管理是：hive，数据计算是spark、hive

数据采集传输是flume、datax、maxwell、kafka

数据存储是：mysql、hdfs

数据可视化是superset

3.采集层：

有用户行为日志和用户业务数据的采集

用户行为日志模块：将生成的用户行为日志存放在本地磁盘，创建flume-kafka-flume采集通道，生成每天的用户行为日志存储到HDFS。

业务数据采集模块分为全量同步和增量同步，若业务表数据量比较大，且每天数据变化的比例比较低，这时应采用增量同步，否则可采用全量同步。

全量同步采用DataX，

增量同步采用Maxwell+kafka+flume。

4.数据建模层：

原始数据层（ODS）：存放未经处理的原始数据，是数据仓库的数据准备区，就是存放在HDFS上的数据。

明细数据层（DWD）：基于维度建模理论进行构建，存放维度模型中的事实表，保存各业务过程最小粒度的操作记录。

公共维度层（DIM）：基于维度建模论进行构建，存放维度模型中的维度表，保存一致性维度信息。

汇总数据层（DWS) :   基于上层的指标需求，以分析的主题对象作为建模驱动，构建公共统计粒度的汇总表。

数据应用层（ADS）:  存放各项统计指标结果。可以有流量主题的访客数。



工作流调度实操



为方便报表应用使用数据，需将ads各指标的统计结果导出到MySQL数据库中。使用superset进行可视化。