# nlp_chinese_corpus
**Repository Path**: make_progress/nlp_chinese_corpus
## Basic Information
- **Project Name**: nlp_chinese_corpus
- **Description**: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 1
- **Created**: 2021-04-01
- **Last Updated**: 2021-04-01
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
#### 为中文自然语言处理领域发展贡献语料
贡献中文语料,请发送邮件: nlp_chinese_corpus@163.com
语料库将会不断扩充。。。
一期目标:10个百万级中文语料 & 3个千万级中文语料(2019年5月1号)
二期目标:30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日)
Update: 增加高质量社区问答json版(webtext2019zh),可用于训练超大规模NLP模型;添加520万翻译语料(translation2019zh)。
#### 1.维基百科(wiki2019zh),100万个结构良好的中文词条
#### 2.新闻语料(news2016zh),250万篇新闻,含关键词、描述
#### 3.百科问答(baike2018qa),150万个带问题类型的问答
#### 4.社区问答json版(webtext2019zh),410万个高质量社区问答,适合训练超大模型
#### 5.翻译语料(translation2019zh),520万个中英文句子对
#### 为什么需要这个项目
中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。在2019年初这个时点上,
普通的从业者、研究人员或学生,并没有一个比较好的渠道获得极大量的中文语料。笔者想要训练一个中文的词向量,
在百度和github上上搜索了好久,收获却很少:要么语料的量级太小,要么数据过于成旧,或需要的处理太复杂。
不知道你是否也遇到了这样的问题?
我们这个项目,就是为了解决这一问题贡献微薄之力。
1.维基百科json版(wiki2019zh)
-------------------------------------------------------------------------
#### 104万个词条(1,043,224条; 原始文件大小1.6G,压缩文件519M;数据更新时间:2019.2.7)
点此直接下载 或 下载渠道2
#### 可能的用途:
可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。
#### 结构:
{"id":,"url":,"title":,"text":} 其中,title是词条的标题,text是正文;通过"\n\n"换行。
#### 例子:
{"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学\n\n经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。\n\n经济学注重的是研究经济行为者在一个经济体系下的行为,以及他们彼此之间的互动。在现代,经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为,包括个体的行为者(例如个人、公司、买家或卖家)以及与市场的互动。而宏观经济学则分析整个经济体和其议题,包括失业、通货膨胀、经济成长、财政和货币政策等。..."}
#### 效果:
经济学
经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。
经济学注重的是研究经济行为者在一个经济体系下的行为,以及他们彼此之间的互动。在现代,经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为,包括个体的行为者(例如个人、公司、买家或卖家)以及与市场的互动。而宏观经济学则分析整个经济体和其议题,包括失业、通货膨胀、经济成长、财政和货币政策等。
其他的对照还包括了实证经济学(研究「是什么」)以及规范经济学(研究「应该是什么」)、经济理论与实用经济学、行为经济学与理性选择经济学、主流经济学(研究理性-个体-均衡等)与非主流经济学(研究体制-历史-社会结构等)。
经济学的分析也被用在其他各种领域上,主要领域包括了商业、金融、和政府等,但同时也包括了如健康、犯罪、教育、法律、政治、社会架构、宗教、战争、和科学等等。到了21世纪初,经济学在社会科学领域各方面不断扩张影响力,使得有些学者讽刺地称其为「经济学帝国主义」。
在现代对于经济学的定义有数种说法,其中有许多说法因为发展自不同的领域或理论而有截然不同的定义,苏格兰哲学家和经济学家亚当·斯密在1776年将政治经济学定义为「国民财富的性质和原因的研究」,他说:
让-巴蒂斯特·赛伊在1803年将经济学从公共政策里独立出来,并定义其为对于财富之生产、分配、和消费的学问。另一方面,托马斯·卡莱尔则讽刺的称经济学为「忧郁的科学」(Dismal science),不过这一词最早是由马尔萨斯在1798年提出。约翰·斯图尔特·密尔在1844年提出了一个以社会科学定义经济学的角度:
.....
2.新闻语料json版(news2016zh)
-------------------------------------------------------------------------
#### 250万篇新闻( 原始数据9G,压缩文件3.6G;新闻内容跨度:2014-2016年)
点此下载,密码: film
#### 数据描述
包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。
数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万,不提供下载。
#### 可能的用途:
可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料;
也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据);
亦可以通过新闻渠道区分出新闻的类型。
#### 结构:
{'news_id': ,'title':,'content':,'source': ,'time':