# dcluster
**Repository Path**: zhenglv123456/dcluster
## Basic Information
- **Project Name**: dcluster
- **Description**: dcluster是一款具有数据中台核心能力指标管理服务中台产品。通过创新与集成优秀的开源项目dolphinscheduler、supersonic等实现任务调度、智能分析等核心功能。
- **Primary Language**: Unknown
- **License**: AGPL-3.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 223
- **Forks**: 107
- **Created**: 2024-08-16
- **Last Updated**: 2025-08-29
## Categories & Tags
**Categories**: bi
**Tags**: None
## README
## DCluster
该项目是基于dolphinscheduler海豚调度之上的创新+集成方式实现的具有数据中台核心能力的数据指标中台。平台旨在研发数据集成、数据工作流离线开发、数据资产治理、指标管理、智能分析Copilot、数据质量、数据分析等核心功能。正在以及规划集成优秀的开源项目supersonic、datavines、数据血缘等。
### 在线文档
在线中文文档:https://www.yuque.com/shujurenxiaohui/sl2kgm/tqpmrlvrvcy3lspn
### 核心功能
项目 | dcluster | dclusterABI社区版 |
核心功能 | 指标管理、ChatBI、数据开发、数据集成、数据服务、数据资产、任务调度、权限管理 | 数据大屏、数据探索、ChatBI、权限管理 |
使用场景 | 数据资产开发管理场景 | 数据可视化、数据分析、数据资产开发管理场景 |
数据源支持 | doris、starrocks、clickhouse、hive等 | doris、starrocks、clickhouse、hive等 |
开源集成 | dolphinscheduler、 supersonic 等 | dolphinscheduler、 supersonic、goview 等 |
最新docker镜像下载 | https://pan.quark.cn/s/3df5f3b44fde 包含源码 | https://pan.quark.cn/s/1ebe99b08588 |
功能配图 |





|







|
### LICENSE
补充条款(与补充条款产生冲突的以补充条款为准)\
1.本项目面向个人和企业用户在本协议允许的范围内免费使用或商用 \
2.商业化需联系作者授权。个人或企业使用本项目或者基于本项目二次开发的软件进行商业使用的范围仅限于个人或企业自身的业务,不得直接将本项目构建的软件、项目源码、基于本项目的衍生品、二进制文件、文档、图片等直接进行出售。\
3.对于因使用本软件而产生的一切法律纠纷和责任,均与作者无关,用户需自行承担相应后果。
### 社区群
QQ群:825017650
### 智能ChatBi&Copilot(集成supersonic)
- 多指标联合问答:基于指标模型支持单个指标问答以及多个指标多个维度联合问答
- 智能补全:支持输入搜索词后返回联想指标和维度,帮助快速补全
- 历史会话:对历史记录进行管理
### 指标管理
- 指标归因分析和维度归因分析
- 指标模型管理:快速灵活组合各个指标和维度,提供API和智能问答的指标语义模型
- 指标定义管理:支持原子指标和衍生指标的定义,统一指标口径指标
- 维度管理:对业务维度进行管理,标准规范化维度管理
### 数据质量管理
- 数据质量监控:定义和执行数据质量规则,如空值检测、重复值检测、范围检查等,确保数据的准确性和完整性。
- 告警和通知:当数据质量出现问题时,通过电子邮件、短信等方式发送告警通知,确保相关人员能够及时响应和处理问题。
- 数据治理:支持数据分类、标签和权限管理,确保数据的合规性和安全性。
- 数据质量报告:生成详细的数据质量报告,帮助用户了解和改进数据质量。
### 工作流调度(DolphinScheduler)
- 分布式架构:处理大规模的数据处理任务,确保系统的高可用性和扩展性。
- 任务依赖管理:定义复杂的任务依赖关系,确保任务按照预定的顺序执行。
数据集成与开发:支持多种类型的任务,包括Shell、Python 脚本、SQL、MapReduce、Spark、Flink 等。
- 可视化工作流设计:提供直观的图形化用户界面,通过拖拽方式设计和配置工作流。
- 任务调度:支持灵活的调度策略,包括定时调度、依赖触发、手动触发等。
任务监控与告警:实时监控任务的执行状态,并提供告警通知功能,确保问题及时处理。
- 资源管理:管理任务所需的资源,确保资源合理分配和使用。
### 数据集成
- 多数据源支持:支持多种数据源的集成,包括数据库、API、文件系统等,能够灵活应对不同的数据来源。
- 集成任务依赖支持:支持下游开发任务依赖集成同步任务,支持数据导出外部数据源任务依赖数据开发任务。
- 多执行引擎支持:支持多种执行引擎,包括DataX、seatunnal、flinkx等,满足不同场景的数据同步需求。
- 全库同步:支持整个数据库的同步,方便全面的数据迁移和复制。
- .多表同步:支持多表同步,简化复杂的数据集成任务。
全量和增量同步:提供全量和增量同步功能,实现数据的一体化同步。
- 断点续传:支持断点续传机制,确保数据集成过程的可靠性和稳定性。
### 数据查询
- 灵活高效的数据查询:支持多种数据源进行查询。
多数据源支持:支持多种数据源的数据查询,适用于不同的数据存储系统。
- 高性能:优化的查询引擎,确保数据查询的高性能和低延迟。
### 数据分析
- 集成多种数据分析工具:集成多种数据分析和可视化工具,帮助用户快速获取洞见。
可视化分析:提供丰富的可视化组件,用户可以通过图表、仪表板等方式展示分析结果。
- 高级分析功能:支持机器学习模型、统计分析等高级分析功能,满足复杂数据分析需求。
### 数据服务
- 数据服务接口:提供数据服务接口,支持RESTful API,方便数据的对外提供和集成。
- 灵活的数据访问:通过API提供灵活的数据访问方式,满足不同应用和系统的集成需求。
- 高可用性和安全性:设计了高可用性和安全性机制,确保数据服务的可靠性和数据的安全性。