# data_harness-数据中台
**Repository Path**: Yusanku/data_harness-be
## Basic Information
- **Project Name**: data_harness-数据中台
- **Description**: 提供易用、低门槛基于大模型打造的大数据平台,助力企业便捷、低成本的实现“掌控数据、轻盈如云”的愿景。驭数平台完全可以满足企业的基础数据梳理、数据治理、数据中台、大数据基础平台等企业数据建设功能,远景目标是基于大模型为广大企业提供开源可用的Data Fabric实现平台。
- **Primary Language**: Java
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 59
- **Created**: 2024-04-17
- **Last Updated**: 2024-05-08
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# 驭数轻云数据平台
📃 [[Gitee](https://gitee.com/data_harness_cloud/data_harness-be)] [[GitHub](https://github.com/data-harness-cloud/data_harness-be)]
👋 加入我们 [即将到来]
## 介绍
## 重要❗️❗️❗️
**当前团队在集中开发大模型开发平台,接下来将打通数据中台和大模型开发训练,实现数据治理、利用与大模型无缝连接,项目更新频率会降低,进行集中更新,项目依旧在持续维护。**
### **先放一些大模型开发平台截图**


“驭数轻云数据平台”(以下简称驭数平台)是驭数团队开源的数据平台,平台致力于为中小企业提供易用、低门槛基于大模型打造的数据平台,助力企业便捷、低成本的实现“掌控数据、轻盈如云”的愿景。驭数平台短期目标致力于满足企业的基础数据梳理、数据治理、数据中台等数据功能,远景目标是基于大模型为广大企业提供开源可用的Data Fabric实现平台。
开发团队是一群热爱开源的小伙伴,各自在多年的工作以及项目实践中发现,很多企业想建设企业自己的数据平台的时候往往找不到一款趁手工具。而且商业平台的价格昂贵,实施成本高,基本不可能进行二次开发。往往企业可能需要的功能只是其中的一点,但是不得不面对大集群、多功能的捆绑购买。团队经过一段时间的准备,为企业、个人在数据的应用以及数据平台建设,提供多一种选择。同时随着大模型的发展,团队将深入思考大模型在数据领域的应用,以及在数据领域的各个环节如何与大模型结合,并且这些成果将会同步更新在开源平台。
平台的开发刚起步,还有非常多的问题,希望社区的小伙伴多一些包容,也欢迎更多的小伙伴能够加入到团队一起共建。
### [ **驭数轻云数据平台系统演示** ](http://175.24.190.217:30666/#/dashboard/index)
因集成了AI服务,有限的算力需要不断的用于训练模型,暂时需要申请体验,用户名与密码请联系开发团队,后期算力改善后将完全开放体验。
### **文档建设中...**
驭数平台由如下特性:
1. **基于大模型的数据平台:** 驭数平台是基于大模型为驱动的综合数据平台,支持企业将自身结构以及非结构化数据成果与大模型结合,平台将支持基于大模型的数据应用,例如:数据探源、图表生成、数据报告、数据归因、技术元数据与业务元数据融合等等。
2. **更完整的数据功能:** 驭数平台的功能将会完整的支撑企业数据使用的各个环节,从作为基础数据平台的数据积累、数据中台、数据治理、大模型落地应用。
3. **全面的开源支撑:** 除了数据平台全部开源,在大模型领域的成果也会开源,包括我们基于项目进行微调的私有模型,例如业务元数据与技术元数据的微调模型、数据治理成果的微调模型等等,团队以完全开放的心态与社区小伙伴共建数据平台。
4. **轻量化平台:** 团队小伙伴来自于五湖四海,多年在开发以及数据领域的经验教训,深刻认识到数据平台的轻量化对中小企业的是一个不小的福音,我们本次开发的是基于单体服务的平台,并且暂时没有考虑Hadoop体系,而是以Doris为作为基础的存算基础平台,大大的减轻大家的使用负担。同时也兼容单机MySQL,完全轻装上阵,实现数据平台的建设以及落地应用。
5. **高质量的界面UI:** 颜值即正义,我们很荣幸的邀请到UI设计师与团队一起推动开源平台的建设,直接输出企业级UI,大家开箱即用,不虚任何场合的演示。
---
驭数开源数据平台旨在与开源社区一起推动大模型与数据技术发展,恳请开发者和大家遵守开源协议,勿将开源模型和代码及基于开源项目产生的衍生物用于任何可能给国家和社会带来危害的用途以及用于任何未经过安全评估的服务。
由于会提供模型,尽管模型在训练的各个阶段都尽力确保数据的合规性和准确性,但由于模型规模较小,且模型受概率随机性因素影响,无法保证输出内容的准确。同时模型的输出容易被用户的输入误导。**本项目不承担开源模型和代码导致的数据安全、舆情风险或发生任何模型被误导、滥用、传播、不当利用而产生的风险和责任。**
## 架构图
### 整体架构图

### 数据架构图

## 单体服务模块列表
| 模块 | Doris/MySQL | Hadoop体系 |
| --- | --- | --- |
| 系统管理模块 | 完成| 待计划|
| 数据资源模块 | 完成| 待计划|
| 数据蓝图模块 | 完成| 待计划|
| 数据开发模块 | 完成| 待计划|
| 数据发现模块 | 开发中 | 待计划|
| 数据服务模块 | 开发中| 待计划|
| 数据工厂模块 | 开发中| 待计划|
| 数据可视模块 | 计划->开发中| 待计划|
| 数据运营模块 | 计划| 待计划|
| AI大模型探索模块 | 开发中| 待计划|
## 微服务模块列表
| 模块 | Doris/MySQL | Hadoop体系 |
| --- | --- | --- |
| 系统管理模块 | 开发中| 待计划|
| 数据资源模块 | 开发中| 待计划|
| 数据蓝图模块 | 计划| 待计划|
| 数据开发模块 | 计划| 待计划|
| 数据发现模块 | 计划| 待计划|
| 数据服务模块 | 计划| 待计划|
| 数据工厂模块 | 计划| 待计划|
| 数据可视模块 | 计划| 待计划|
| 数据运营模块 | 计划| 待计划|
| AI大模型探索模块 | 计划| 待计划|
## 项目截图
项目登录页

项目首页

目录边栏

AI大模型对话

AI大模型对话示例

数据规划

模型概览和设计


新建模型

数据开发

数据传输

任务调度列表

## 技术栈
| 模块 | 组件 | 版本 | 计划 |
|------|------------|-----|-----------------|
| 前端 | vue | 3.x | TS |
| 后端 | Springboot | 2.x | 3.x |
| 架构 | 单体 | -- | 微服务 |
| 部署 | Docker | -- | K8S |
| 数据传输 | Seatunnel | 2.x | flink |
| 任务调度 | Quartz | -- | DolphinSchedule |
| 存算引擎 | Doris/MySQl | -- | Hadoop |
| LLM大模型 | 开源模型/商用模型 | -- | 微调数据行业模型 |
### 部署过程
[前端工程-基于Vue3](https://gitee.com/data_harness_cloud/data_harness-fe)
[部署工程-一键部署](https://gitee.com/data_harness_cloud/data_harness_deployment)
[大模型工程-待更新]()