# ai-data-cleaner-lab **Repository Path**: ym2j/ai-data-cleaner-lab ## Basic Information - **Project Name**: ai-data-cleaner-lab - **Description**: AI-Data-Cleaner-Lab 是一款由AI(Qwen3.5 9B)全自动创建、自动生成的智能化数据清洗与标注平台,一个基于大模型的数据清洗和标注平台,采用前后端分离架构。支持数据可视化、智能清洗、智能标注等功能。 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2026-03-10 - **Last Updated**: 2026-04-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # AI Data Cleaner Lab > 基于大模型的数据清洗和标注平台 [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) [![FastAPI](https://img.shields.io/badge/FastAPI-0.109.0-blue.svg)](https://fastapi.tiangolo.com/) [![React](https://img.shields.io/badge/React-18.2-61dafb.svg)](https://react.dev/) [![TypeScript](https://img.shields.io/badge/TypeScript-5.2-blue.svg)](https://www.typescriptlang.org/) ## 🌟 项目简介 AI Data Cleaner Lab 是一个现代化的数据清洗和标注平台,采用前后端分离架构,集成大模型辅助数据预处理和标注,实现智能化数据质量管理。 ### 核心特性 - 🤖 **大模型辅助** - 支持多个大模型 API 进行数据清洗和标注 - 🎯 **智能化预处理** - 自动化清洗规则 + AI 智能处理 - 📊 **实时数据质量监控** - 数据完整性、准确性、一致性可视化 - 🔐 **安全可靠的权限管理** - 基于角色的权限控制系统 - 📱 **响应式设计** - 支持桌面和移动端访问 ## 📁 项目结构 ``` ai-data-cleaner-lab/ ├── frontend/ # React 前端 │ ├── src/ │ │ ├── components/ # 可复用组件 │ │ ├── pages/ # 页面组件 │ │ ├── services/ # API 服务 │ │ ├── utils/ # 工具函数 │ │ └── types/ # 类型定义 │ ├── package.json │ ├── vite.config.ts │ └── tailwind.config.js ├── backend/ # FastAPI 后端 │ ├── app/ │ │ ├── api/ # API 路由 │ │ ├── models/ # 数据模型 │ │ ├── services/ # 业务逻辑 │ │ ├── utils/ # 工具函数 │ │ └── config/ # 配置 │ ├── requirements.txt │ └── main.py └── README.md ``` ## 🚀 快速开始 ### 环境要求 - Python 3.11+ - Node.js 18+ - PostgreSQL 15+ (推荐) 或 SQLite - Redis 7+ (可选) - Docker & Docker Compose (可选) ### 方式一:本地开发 #### 后端启动 ```bash cd backend # 安装依赖 pip install -r requirements.txt # 复制环境变量 copy .env.example .env # 编辑 .env 配置数据库 # DATABASE_URL=sqlite:///data_cleaner.db # 初始化数据库 python scripts/init_db.py # 启动服务 uvicorn main:app --reload --host 0.0.0.0 --port 8000 ``` #### 前端启动 ```bash cd frontend npm install npm run dev ``` 访问: - 前端:http://localhost:3000 - 后端 API:http://localhost:8000 - API 文档:http://localhost:8000/docs ### 方式二:Docker 部署 ```bash cd backend docker-compose up -d ``` 访问: - API: http://localhost:8000 - API 文档:http://localhost:8000/docs ## 📖 API 文档 后端 API 文档将在 http://localhost:8000/docs 生成。 ## 🛠️ 技术栈 ### 前端 - React 18 + TypeScript - Vite 5 - TailwindCSS 3 - React Router DOM - Zustand (状态管理) - Axios (HTTP 客户端) ### 后端 - FastAPI 0.109.0 - SQLAlchemy 2.0 - Pydantic 2.5 - Python-Jose (JWT) ### 大模型集成 - 支持 OpenAI API - 支持通义千问 - 支持 Llama 系列 - 支持 Claude 系列 ### 测试 - pytest 7.4.3 - pytest-asyncio 0.21.1 - httpx 0.25.2 ## 📋 功能清单 ### 已完成 ✅ - [x] 项目设计与规划 - [x] 技术栈选型 - [x] 项目结构定义 - [x] 创建 Gitee 仓库 - [x] 编写详细的 README.md - [x] 初始化项目结构 - [x] **实现完整的数据模型 (SQLAlchemy)** - [x] **实现项目管理 API** - [x] **实现数据上传/下载 API** - [x] **实现清洗任务 API** - [x] **实现标注任务 API** - [x] **实现大模型集成 API** - [x] **Docker 容器化部署** - [x] **数据库设计与初始化** - [x] **单元测试与集成测试** - [x] **前端组件库** - [x] **编写详细文档** ### 🐛 已修复的 Bug ✅ - [x] **修复后端 API 导入路径错误** (2026-03-12) - 问题:`backend/app/api/__init__.py` 中导入 `routes` 目录的文件时路径错误 - 修复:将导入路径从 `from .projects` 改为 `from ..routes.projects` - 涉及文件:projects.py, upload.py, cleanings.py, annotations.py, ai_assist.py - 提交:`fix: 修复后端 API 导入路径错误` ### 已完成的优化功能 ✅ - [x] 完成真实联调测试 - 详见 [docs/TEST_REPORT.md](docs/TEST_REPORT.md) - [x] 自行设计优化 - 详见 [docs/OPTIMIZATION_PLAN.md](docs/OPTIMIZATION_PLAN.md) ## 🤝 贡献指南 欢迎提交 Issue 和 Pull Request! ## 📄 许可证 MIT License - 详细情况请查看 [LICENSE](LICENSE) 文件。 ## 🙏 致谢 - FastAPI 团队 - React 团队 - TailwindCSS 团队 - 所有开源项目的贡献者 ## 📊 业务流程图 ### 系统架构 系统采用前后端分离架构,包含以下核心模块: - **前端**: React + TypeScript + Vite - **后端**: FastAPI + SQLAlchemy + Pydantic - **数据库**: PostgreSQL / SQLite - **缓存**: Redis - **大模型**: OpenAI/通义千问/Llama/Claude - **部署**: Docker + Docker Compose ### 核心流程 1. **用户认证流程** - JWT Token 认证 2. **数据上传流程** - 文件上传与校验 3. **数据清洗流程** - AI 辅助清洗 4. **数据标注流程** - 人工标注 + AI 辅助 5. **质量分析流程** - AI 质量评估 6. **监控告警流程** - 系统健康监控 详细业务流程图请查看 [docs/BUSINESS_FLOW.md](BUSINESS_FLOW.md) ## 🔧 优化方案 详细优化方案请查看 [docs/OPTIMIZATION_PLAN.md](OPTIMIZATION_PLAN.md) ## 📋 测试报告 详细测试报告请查看 [docs/TEST_REPORT.md](TEST_REPORT.md) ## 🌿 分支管理 - **master** - 主分支(生产分支) - **develop** - 开发分支 - **release/v1.0.0** - 发布分支(v1.0.0 版本) ## 📚 Wiki 指南 详细 Wiki 指南请查看 [docs/WIKI_GUIDE.md](WIKI_GUIDE.md) ## 📋 版本更新 详细版本更新日志请查看 [CHANGELOG.md](CHANGELOG.md) --- *创建时间:2026-03-11* *作者:玉米粒粒(CopawAgent)* *最后更新:2026-03-12*