# dcluster **Repository Path**: sunhacker/dcluster ## Basic Information - **Project Name**: dcluster - **Description**: dcluster是一款致力于开发从数据集成到数据开发治理再到数据智能分析的一站式服务平台。通过集成优秀的开源项目dolphinscheduler、supersonic、dinky等实现任务调度、实时开发、智能分析等核心功能。 - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: http://47.121.127.33:8090/ - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 92 - **Created**: 2024-08-21 - **Last Updated**: 2025-05-31 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## DCluster 该项目是基于dolphinscheduler海豚调度之上的数据开发治理服务分析一站式数据中台。平台旨在研发数据集成、数据工作流离线开发、实时开发、数据资产治理、指标管理、智能分析Copilot、数据质量、数据分析等核心功能。正在以及规划集成优秀的开源项目dinky、supersonic、datavines、数据血缘等。 ### 目录 [TOC] ### 智能ChatBi&Copilot(集成supersonic) - 多指标联合问答:基于指标模型支持单个指标问答以及多个指标多个维度联合问答 - 智能补全:支持输入搜索词后返回联想指标和维度,帮助快速补全 - 历史会话:对历史记录进行管理 ### 指标管理 - 指标模型管理:快速灵活组合各个指标和维度,提供API和智能问答的指标语义模型 - 指标定义管理:支持原子指标和衍生指标的定义,统一指标口径指标 - 维度管理:对业务维度进行管理,标准规范化维度管理 ### 数据质量管理(Datavines) - 数据质量监控:定义和执行数据质量规则,如空值检测、重复值检测、范围检查等,确保数据的准确性和完整性。 - 告警和通知:当数据质量出现问题时,Datavines通过电子邮件、短信等方式发送告警通知,确保相关人员能够及时响应和处理问题。 - 数据治理:支持数据分类、标签和权限管理,确保数据的合规性和安全性。 - 数据质量报告:生成详细的数据质量报告,帮助用户了解和改进数据质量。 ### 工作流调度(DolphinScheduler) - 分布式架构:处理大规模的数据处理任务,确保系统的高可用性和扩展性。 - 任务依赖管理:定义复杂的任务依赖关系,确保任务按照预定的顺序执行。 数据集成与开发:支持多种类型的任务,包括Shell、Python 脚本、SQL、MapReduce、Spark、Flink 等。 - 可视化工作流设计:提供直观的图形化用户界面,通过拖拽方式设计和配置工作流。 - 任务调度:支持灵活的调度策略,包括定时调度、依赖触发、手动触发等。 任务监控与告警:实时监控任务的执行状态,并提供告警通知功能,确保问题及时处理。 - 资源管理:管理任务所需的资源,确保资源合理分配和使用。 ### 实时数据处理(Dinky) - 实时数据处理:Dinky 提供了强大的实时数据处理能力,支持Flink等流处理框架。 - 实时计算任务:用户可以定义和执行实时计算任务,处理实时数据流。 数据集成:支持多种数据源和目标,能够将实时数据流集成到不同的数据系统中。 可视化开发:提供直观的图形化界面,用户可以通过拖拽方式设计和配置实时计算任务。 - 监控与告警:实时监控数据流处理状态,并在出现异常时提供告警通知。 高可用性:设计了高可用性和容错机制,确保实时数据处理的稳定性和可靠性。 ### 数据集成 - 多数据源支持:支持多种数据源的集成,包括数据库、API、文件系统等,能够灵活应对不同的数据来源。 - 集成任务依赖支持:支持下游开发任务依赖集成同步任务,支持数据导出外部数据源任务依赖数据开发任务。 - 多执行引擎支持:支持多种执行引擎,包括DataX、seatunnal、flinkx等,满足不同场景的数据同步需求。 - 全库同步:支持整个数据库的同步,方便全面的数据迁移和复制。 - .多表同步:支持多表同步,简化复杂的数据集成任务。 全量和增量同步:提供全量和增量同步功能,实现数据的一体化同步。 - 断点续传:支持断点续传机制,确保数据集成过程的可靠性和稳定性。 ### 数据查询 - 灵活高效的数据查询:支持多种数据源进行查询。 多数据源支持:支持多种数据源的数据查询,适用于不同的数据存储系统。 - 高性能:优化的查询引擎,确保数据查询的高性能和低延迟。 ### 数据分析 - 集成多种数据分析工具:集成多种数据分析和可视化工具,帮助用户快速获取洞见。 可视化分析:提供丰富的可视化组件,用户可以通过图表、仪表板等方式展示分析结果。 - 高级分析功能:支持机器学习模型、统计分析等高级分析功能,满足复杂数据分析需求。 ### 数据服务 - 数据服务接口:提供数据服务接口,支持RESTful API,方便数据的对外提供和集成。 - 灵活的数据访问:通过API提供灵活的数据访问方式,满足不同应用和系统的集成需求。 - 高可用性和安全性:设计了高可用性和安全性机制,确保数据服务的可靠性和数据的安全性。 ### 安装&演示 演示环境:http://36.155.14.171:12345/dolphinscheduler/ui/ 账号:admin 密码:dcluster123 在线文档:http://47.121.127.33:8090/ ### 功能截图 ![输入图片说明](images/Snipaste_2024-08-17_14-29-20.jpg) ![输入图片说明](images/Snipaste_2024-08-17_14-31-04.jpg) ![输入图片说明](images/Snipaste_2024-08-17_14-31-48.jpg) ![输入图片说明](images/Snipaste_2024-08-17_14-32-12.jpg) ![输入图片说明](images/Snipaste_2024-08-17_14-32-42.jpg) ![输入图片说明](images/Snipaste_2024-08-17_14-33-02.jpg) ![输入图片说明](images/Snipaste_2024-08-17_14-33-35.jpg) ![输入图片说明](images/Snipaste_2024-08-17_14-34-20.jpg) ![输入图片说明](images/Snipaste_2024-08-17_14-40-29.jpg) ### 社区联系方式 管理员微信:Lq-time ![输入图片说明](images/Weixin%20Image_20240904225333.jpg)