# 电商数仓 **Repository Path**: willardwang/e-commerce-data-warehouse ## Basic Information - **Project Name**: 电商数仓 - **Description**: 基于hive的离线数仓 - **Primary Language**: Unknown - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2022-11-08 - **Last Updated**: 2022-11-08 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 一、电商数仓 1.对电商业务所产生的业务数据和用户行为数据构建数据仓库来管理,为后续数据应用,提供数据支持。 2.使用的技术框架 数据管理是:hive,数据计算是spark、hive 数据采集传输是flume、datax、maxwell、kafka 数据存储是:mysql、hdfs 数据可视化是superset 3.采集层: 有用户行为日志和用户业务数据的采集 用户行为日志模块:将生成的用户行为日志存放在本地磁盘,创建flume-kafka-flume采集通道,生成每天的用户行为日志存储到HDFS。 业务数据采集模块分为全量同步和增量同步,若业务表数据量比较大,且每天数据变化的比例比较低,这时应采用增量同步,否则可采用全量同步。 全量同步采用DataX, 增量同步采用Maxwell+kafka+flume。 4.数据建模层: 原始数据层(ODS):存放未经处理的原始数据,是数据仓库的数据准备区,就是存放在HDFS上的数据。 明细数据层(DWD):基于维度建模理论进行构建,存放维度模型中的事实表,保存各业务过程最小粒度的操作记录。 公共维度层(DIM):基于维度建模论进行构建,存放维度模型中的维度表,保存一致性维度信息。 汇总数据层(DWS) : 基于上层的指标需求,以分析的主题对象作为建模驱动,构建公共统计粒度的汇总表。 数据应用层(ADS): 存放各项统计指标结果。可以有流量主题的访客数。 工作流调度实操 为方便报表应用使用数据,需将ads各指标的统计结果导出到MySQL数据库中。使用superset进行可视化。