# dataCollection **Repository Path**: uxue/dataCollection ## Basic Information - **Project Name**: dataCollection - **Description**: dataCollection项目在kettle基础开发的可视化任务调度系统,提供简单易用的操作界面,降低用户使用crontab调度的学习成本,缩短任务配置时间,避免配置过程中出错。 - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: https://www.35youth.cn - **GVP Project**: No ## Statistics - **Stars**: 756 - **Forks**: 370 - **Created**: 2021-04-30 - **Last Updated**: 2025-10-28 ## Categories & Tags **Categories**: task-schedule **Tags**: ETL, 数据采集, kettle ## README ## 项目介绍 dataCollection项目是在Kettle基础上开发的可视化任务调度系统,提供简单易用的操作界面,降低用户使用Crontab调度的学习成本,缩短任务配置时间,避免配置过程中出错。系统对接WebSpoon,支持在线编辑Kettle脚本,通过数据整合功能,可同步资源库中已有的脚本,用户在创建完脚本之后,可通过系统任务管理创建数据同步任务。 ## 特性 1. 在线编辑Kettle脚本,[WebSpoon下载地址](https://pan.baidu.com/s/1GLEhWI-YBge3k6_F-dvTGw) 提取码: cffa [WebSpoon配置说明](#webspoon配置说明); 2. 资源库管理,避免脚本本地存储,版本错乱、丢失等问题; 3. 通过Web构建Kettle采集任务; 4. 在线查看Kettle执行结果及日志,便于排查采集问题; 5. 任务告警,系统支持邮件告警,所有异常信息即时掌握。 ## 文档链接 - [点击查看操作手册](./doc/OperationManual.md) - [dataCollection与Spoon详细Docker部署流程](https://docs.qq.com/doc/DR21VY09NbnFvWG9Q) - [点击查看QA文档](./doc/QA.md) - [V0.0.7版本包下载](./doc/version.md#V0.0.7) ## 编译安装 1. 访问 [dataCollection](https://gitee.com/uxue/dataCollection) 的码云主页,拉取最新完整代码(建议使用master分支)。 2. 导入`doc`文件夹中对应的数据库脚本。 3. 进入代码根目录执行 `mvn clean package` 命令。注:pom中引入了Oracle依赖,需将Oracle驱动包打到本地的Maven仓库中,[配置参照QA文档](./doc/QA.md#oracle)。 4. 分别进入 `target/classes` 复制所有 `application` 开头的配置文件和 `target` 目录中的 `dataCollection-0.0.1-SNAPSHOT.jar` 文件至同一文件夹。 5. `application.yml` 可配置应用端口、数据库使用Oracle还是MySQL,以及最末尾的WebSpoon地址,无需带上 `http://`。 6. `application-kettle.yml` 文件配置Kettle日志、插件等目录。 7. `application-dbType.yml` 文件根据各自使用的数据库选择进行配置。 8. 当前目录运行 `java -jar dataCollection-0.0.7-SNAPSHOT.jar`。 **注:** - 整合列表中编辑,需在WebSpoon配置好之后,两边需要有同名的资源库连接方可使用。 - 系统默认需要登录,可通过 `application.yml` 文件中 `shouldLogin` 属性控制是否需要登录。 ### Kettle资源库配置说明 1. 导入 [kettle-rep-mysql.sql](./doc/sql/kettle-rep-mysql.sql)。 2. 系统中配置导入上面脚本的资源库连接信息,默认资源库账号密码均为 `admin`。 ## WebSpoon配置说明 1. 下载WebSpoon安装包。 2. 下载Tomcat 8。 3. 将WebSpoon安装包解压到Tomcat的 `webapps` 目录。 4. 将Kettle客户端的 `plugins` 和 `system` 两个目录复制到 `bin` 目录。 5. 启动Tomcat即可。 免配置WebSpoon下载:[下载地址](https://pan.baidu.com/s/1z76Zj7a__2b8_DEzA3_deQ) 提取码: fs3s WebSpoon问题解决方案:[WebSpoon QA](./doc/QA.md#webSpoon) **重要说明:** Spoon.war 下载地址:[下载地址](https://www.aliyundrive.com/s/iEgVceFfMTv) 数据整合跳转到WebSpoon时URL已从原有明文调整为加密传输,需下载免配置包后替换 `spoon.war` 或自行调整WebSpoon的代码。 加密前的URL: ``` http://10.11:8082/spoon/spoon?rep=10.110.6_MYSQL&user=admin&pass=admin&trans=124 ``` 加密后的URL: ``` http://10.11:8082/spoon/spoon?respoon=4f34e1b0ae89b47eac282682dcbde5bc2e0f7253322c100d992ec6b858bbb5270510d6618424ad75761196a73aef1197eaae2b12e67c3aa2d014822478f3667e ``` ## 系统截图
WebSpoon
WebSpoon
登录页
登录页
系统首页
系统首页
资源库管理
资源库管理
数据整合
数据整合
定时策略
定时策略
任务分类
任务分类
采集管理
采集管理
任务监控
任务监控
用户管理
用户管理
## 引用说明 **注:项目部分代码参照或直接从其他项目中copy** 项目列表: | 项目名称 | 项目主页 | | -------- | -------- | | kettle-scheduler | [https://github.com/zhaxiaodong9860](https://github.com/zhaxiaodong9860) | | kettleweb | [https://gitee.com/wind137/kettleweb](https://gitee.com/wind137/kettleweb) | | kettle-scheduler-boot | [https://gitee.com/uxue/kettle-scheduler-boot](https://gitee.com/uxue/kettle-scheduler-boot) | ## 参与贡献 1. Fork 本仓库。 2. 新建 `Feat_xxx` 分支。 3. 提交代码。 4. 新建 Pull Request。 ## 感谢 项目开源至今,感谢以下朋友的各种帮助(排名按时间先后顺序): | 序号 | 名称 | 个人主页 | 捐赠方式 | 金额 | 备注 | 时间 | | ---- | ---------- | -------------------- | ---------- | ---- | ---------------------------- | ---------- | | 1 | 啦啦啦啦啦啦 | https://www.cnblogs.com/wlh1995/ | 维护Mysql分支 | XX | Kettle作者热心,一起加油。 | 2020-12-11 | | 2 | 华子哥 | XXX | 微信 | 50 | | 2021-01-20 | | 3 | minxiangang | XXX | 微信 | 50 | | 2021-07-16 | ## 关于我 1. 半码农