# cloudin-datax **Repository Path**: temr_c/datax-integration ## Basic Information - **Project Name**: cloudin-datax - **Description**: cloudin-datax是基于DataX开发的分布式数据同步工具,提供简单易用的操作界面,可视化定时任务配置,监控和增量同步功能 - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 69 - **Created**: 2021-10-11 - **Last Updated**: 2024-06-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # cloudin-datax cloudin-datax是在DataX之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用DataX的学习成本,提供可视化定时任务配置和监控的能力。用户可通过页面修改datax任务的执行时间和配置脚本,支持Oracle,PG,Mysql等数据源,支持实时查看数据同步日志。 任务支持集群部署,支持执行器多节点路由策略选择,支持执行器CPU.内存.负载的监控等等。后续还将提供增量同步解决方案和流水线任务解决方案。 # 软件架构 ![](https://images.gitee.com/uploads/images/2021/0727/225626_a3e1f92e_9012733.png "6.png") # 系统要求 - Language: Java 8
- Environment: MacOS, Windows,Linux - Database: Mysql8.x (5.x需修改数据源驱动) # 特性 - 1、通过Web配置datax任务执行时间; - 2、DataX Json保存在数据库中,方便任务的迁移,管理; - 3、Web查看抽取结果和历史记录; - 4、支持DataX定时任务动态修改执行时间、任务内容,即时生效; - 5、调度采用master/slave模式,支持集群部署; - 6、任务分布式执行,任务"执行器"支持集群部署; - 7、抛出异常处理策略:调度过于密集执行器来不及处理时的处理策略,策略包括:执行器执行线程满之后抛出异常; - 8、执行器会周期性自动注册任务, 调度中心将会自动发现注册的任务并触发执行; - 9、可通过页面提供的监控查看业务线程池使用状态合理规划执行器数量; - 10、用户管理:支持在线管理系统用户,存在管理员、普通用户两种角色; - 11、任务超时控制:支持自定义任务超时时间,任务运行超时将会主动中断任务; - 12、任务失败重试:支持自定义任务失败重试次数,当任务失败时将会按照预设的失败重试次数主动进行重试; - 13、添加执行器CPU、内存、负载的监控页面; - 14、定时增量同步; - 15、提供配置json可视化向导 # 即将完善功能 - 1、任务失败告警;默认提供邮件方式失败告警,同时预留扩展接口,可方便的扩展短信、钉钉等告警方式 - 2、增加指定任务在指定服务上运行(特殊情况下网络策略只允许某个服务器访问某个数据库) # 介绍 ### 1.datax任务模板配置 ![](https://images.gitee.com/uploads/images/2021/0727/221348_0d3b451d_9012733.png "1.png") ![](https://images.gitee.com/uploads/images/2021/0727/221501_75712f60_9012733.png "1-1.png") 任务模板配置后 调度模块会根据cron表达式调度datax模块启动任务 配置json中可使用${xxx}占位符 占位符在执行前根据配置的sql解析成对应的值进行替换 占位符配置见下面 新增可视化配置向导 目前支持 oracle reader/writer stream writer 后续会继续扩充 ![](https://images.gitee.com/uploads/images/2021/0801/150607_556e8e70_9012733.png "1.png") ### 2.数据源配置 ![](https://images.gitee.com/uploads/images/2021/0727/221856_15deca12_9012733.png "2.png") 目前数据源配置仅提供给占位符使用,后期可能提供选择数据源自动生成datax配置模板 ### 3.占位符配置 ![](https://images.gitee.com/uploads/images/2021/0727/222044_cdb70fdf_9012733.png "3.png") 占位符计算出表达式的值动态替换datax模板 提供增量同步功能 ### 4.流水线任务 ![](https://images.gitee.com/uploads/images/2021/0727/222333_36cb4fe1_9012733.png "4.png") 流水线任务目前处于测试阶段,设计变动可能较大。设计目的提供有依赖关系的数据处理任务 ### 5.datax服务监控 ![](https://images.gitee.com/uploads/images/2021/0727/222519_3b6bdaac_9012733.png "5.png") 监控所有datax服务的cpu,内存,业务线程等。如果业务线程总是处于满载状态就要考虑增加datax服务节点