# Data Labeling 数据标注 **Repository Path**: Codestral/y9-label ## Basic Information - **Project Name**: Data Labeling 数据标注 - **Description**: 数据标注是一款专门对文本数据进行处理和标注的工具,通过简化快捷的文本标注流程和动态的算法反馈,支持用户快速标注关键词并能通过算法持续减少人工标注的成本和时间。数据标注的过程先由人工标注构筑基础,再由自动标注反哺人工标注,最后由人工标注进行纠偏,从而大幅度提高标注的精准度和高效性。数据标注是一个完全开源的项目,无商业版,但是需要依赖开源的数字底座进行人员岗位管控。各类词库结果会定期在本平台公开。 - **Primary Language**: Java - **License**: GPL-3.0 - **Default Branch**: main - **Homepage**: https://github.com/risesoft-y9/Data-Labeling - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 47 - **Created**: 2024-12-30 - **Last Updated**: 2024-12-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README

logo

star logo

## 简介 数据标注是一款专门对文本数据进行处理和标注的工具,通过简化快捷的文本标注流程和动态的算法反馈,支持用户快速标注关键词并能通过算法持续减少人工标注的成本和时间。数据标注的过程先由人工标注构筑基础,再由自动标注反哺人工标注,最后由人工标注进行纠偏,从而大幅度提高标注的精准度和高效性。数据标注是一个完全开源的项目,无商业版,但是需要依赖开源的数字底座进行人员岗位管控。数据标注的各类词库结果会定期在本平台中公开。 ## 源码目录 ``` vue -- 前端工程 ├── y9vue-tokenizer -- 数据标注前端工程 webapp -- 系统模块 ├── risenet-y9boot-webapp-tokenizer -- 数据标注后端工程 ``` ## 数据标注功能架构图
## 数据标注应用架构图
## 产品特点 ### 高效标注 针对文章和文本,数据标注利用各种标识、快捷键、组合键、分类方法来提高标注的效率并减少标注错误率。 ### 全局算法校准 在多组同时标注的情况下,数据标注会汇聚全部的标注结果,从而减少重复标注的工作量。通过全局校准的方法,标注人员可以看到全局当前对于文章的自动标注结果,从而只需要对结果纠偏即可。 ### 行业词库 针对数据标注的结果,本项目会定期释放各类、各行业以txt形式存储的经过人工纠偏的标注结果,从而帮助AI和分词器更精准地识别中文词汇里面不断的新生词汇和组合词汇。 ## 功能描述 | 序 号 | 特 点  名 称 | 特点描述 | |--------|------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------| | 1 | 添加文章 |通过本地导入或者批量导入的方式添加文章,同时可以根据文章类型进行必要的分类。| | 2 | 文章筛选 |根据文章类型和顺序编号进行筛选。| | 3 | 导出分词 |支持将全部已经完成的分词和标注进行一次性的导出。本功能以压txt的形式导出文件。| | 4 | 标注结果 |通过红色方框显示最终的人工标注结果。此结果为全局的人工标注的综合结果,而非单人单文章的标注结果。| | 5 | 标注操作 |支持以快捷键、右键、组合键等方式确认标注,同时支持在页面或者快捷键的方式删除已经标注的词汇。| | 6 | 标注状态 |包含“全部标注”、“标注中”、“未标注”、“已标注”共计四种状态,可以根据状态、序号、文章分类进行筛选。| | 7 | 标注验证 |利用分词器和已具备的全局综合分词能力进行一次标注验证,检查是否有遗漏的标注语料,也可以检验全局综合分词能力是否有偏颇。标注验证以下划线和波浪线的方式区别邻近的名词。| | 8 | 标注日志 |在单个文章中查看已经完成的标注操作日志。| ## 数据资产 ### 1. 行业领域专有词汇
### 2. 政务公开文章词汇
### 3. 司法案件观点条例
### 4. 数据库分类题目库
### 5. 算法库(来自“山东国家应用数学中心”)
## 后端技术选型 | 序号 | 依赖 | 版本 | 官网 | |----|-----------------|---------|--------------------------------------------------------------------------------------------------------------------| | 1 | Spring Boot | 2.7.10 | 官网 | | 2 | SpringDataJPA | 2.7.10 | 官网 | | 3 | nacos | 2.2.1 | 官网 | | 4 | druid | 1.2.16 | 官网 | | 5 | Jackson | 2.13.5 | 官网 | | 6 | javers | 6.13.0 | 官网 | | 7 | lombok | 1.18.26 | 官网 | | 8 | logback | 1.2.11 | 官网 | ## 前端技术选型 | 序号 | 依赖 | 版本 | 官网 | |----|--------------|---------|------------------------------------------------------------------------| | 1 | vue | 3.3.2 | 官网 | | 2 | vite2 | 2.9.13 | 官网 | | 3 | vue-router | 4.0.13 | 官网 | | 4 | pinia | 2.0.11 | 官网 | | 5 | axios | 0.24.0 | 官网 | | 6 | typescript | 4.5.4 | 官网 | | 7 | core-js | 3.20.1 | 官网 | | 8 | element-plus | 2.2.29 | 官网 | | 9 | sass | 1.58.0 | 官网 | | 10 | animate.css | 4.1.1 | 官网 | | 11 | vxe-table | 4.3.5 | 官网 | | 12 | echarts | 5.3.2 | 官网 | | 13 | svgo | 1.3.2 | 官网 | | 14 | lodash | 4.17.21 | 官网 | ## 中间件选型 | 序号 | 工具 | 版本 | 官网 | |----|------------------|------|---------------------------------------------------------------------------| | 1 | JDK | 11 | 官网 | | 2 | Tomcat | 9.0+ | 官网 | ## 数据库选型 | 序号 | 工具 | 版本 | 官网 | |----|---------------|------------|---------------------------------------------------------------------------| | 1 | elasticsearch | 7.9+ | 官网 | ## 信创兼容适配 | **序号** | 类型 | 对象 | |:-------|------|--------------------| | 1 | 浏览器 | 奇安信、火狐、谷歌、360等 | | 2 | 插件 | 金山、永中、数科、福昕等 | | 3 | 中间件 | 东方通、金蝶、宝兰德等 | | 4 | 数据库 | 人大金仓、达梦、高斯等 | | 5 | 操作系统 | 统信、麒麟、中科方德等 | | 6 | 芯片 | ARM体系、MIPS体系、X86体系 | ## 文档专区 开发文档:https://docs.youshengyun.com/ | 序号 | 名称 | |:---|------------------------------------------------------------------------------------------------------------------| | 1 | 内部Java开发规范手册 | | 2 | 日志组件使用文档 | | 3 | 文件组件使用文档 | | 4 | 代码生成器使用文档 | | 5 | 配置文件说明文档 | | 6 | 常用工具类使用示例文档 | | 7 | 前端开发手册 | | 8 | 前端开发规范 | | 9 | 前端代码格式化 | | 10 | 前端系统组件 | | 11 | 前端通用方法 | | 12 | 前端国际化 | | 13 | 前端Icon图标 | | 14 | 单点登录对接文档 | | 15 | 分词器安装部署文档 | | 16 | 分词器操作手册 | ## 数据标注截图
## 依赖开源项目 | 序 号 | 项 目  名 称 | 项目介绍 | 地 址 | | ----- | ----------- | ----------------------------------------- |-------------------------------------------------------------------------------------------------------------------------------------------------------------------| | 1 | 数字底座 | 数字底座是一款面向大型政府、企业数字化转型,基于身份认证、组织架构、岗位职务、应用系统、资源角色等功能构建的统一且安全的管理支撑平台。数字底座基于三员管理模式,具备微服务、多租户、容器化和国产化,支持用户利用代码生成器快速构建自己的业务应用,同时可关联诸多成熟且好用的内部生态应用 | 码云 GitHub | ## 赞助与支持 ### 中关村软件和信息服务产业创新联盟 官网:https://www.zgcsa.net ### 北京有生博大软件股份有限公司 官网:https://www.risesoft.net/ ### 统一标识代码注册管理中心 官网:https://www.idcode.org.cn/ > 数字底座已经全面接入统一标识码(MA码),具体使用说明请查看:https://gitee.com/risesoft-y9/y9-core/tree/main/y9-digitalbase-idcode > ### 中国城市发展研究会 官网:https://www.china-cfh.com/ ### 济南亚跃信息技术有限公司 官网:https://www.yayueyun.com/yayueOwe ### 北京京畿法律咨询有限公司 联系人:邱先生 邮箱:bjbj7@qq.com ### 山东国家应用数学中心 官网:http://www.sdam.sdu.edu.cn/ ## 咨询与合作 联系人:曲经理 微信号:qq349416828 备注:开源咨询-姓名
联系人:有生博大-咨询热线 座机号:010-86393151