# ETL清洗项目 **Repository Path**: bigdata_yangjiahao/etl-cleaning-project ## Basic Information - **Project Name**: ETL清洗项目 - **Description**: 简单的ETL清洗项目 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2023-05-30 - **Last Updated**: 2023-05-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # ETL清洗项目 #### 介绍 简单的ETL清洗项目 实现的功能: 1.时间戳拦截器(解决零点漂移)+ETL清洗 --FlumeTimeStamp 2.hive自定义函数: --ParseLp 解决 通过ip地址查询出ip所处的地址,返回的是结构体 前提 https://github.com/lionsoul2014/ip2region.git 去下载 ip2region.xdb 保存到HDFS 3.hive 自定义函数 --ParseUA 分割:ua=Mozilla/5.0%20(Windows;%20U;%20Windows%20NT%206.1;%20en-AU;%20rv:1.9.2.14)%20Gecko/20110218%20Firefox/3.6.14