# BiLstm_CNN_CRF_CWS **Repository Path**: springwing/BiLstm_CNN_CRF_CWS ## Basic Information - **Project Name**: BiLstm_CNN_CRF_CWS - **Description**: BiLstm+CNN+CRF 法律文档(合同类案件)领域分词(100篇标注样本) - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2020-06-30 - **Last Updated**: 2020-12-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # BiLstm_CNN_CRF_CWS BiLstm+CNN+CRF [在线演示](http://118.25.42.251:7777/fenci?type=mine&text=%E5%8D%97%E4%BA%AC%E5%B8%82%E9%95%BF%E8%8E%85%E4%B8%B4%E6%8C%87%E5%AF%BC%EF%BC%8C%E5%A4%A7%E5%AE%B6%E7%83%AD%E7%83%88%E6%AC%A2%E8%BF%8E%E3%80%82%E5%85%AC%E4%BA%A4%E8%BD%A6%E4%B8%AD%E5%B0%86%E7%A6%81%E6%AD%A2%E5%90%83%E4%B8%9C%E8%A5%BF%EF%BC%81 "云服务器较烂 有时会崩") note: 实验基于 anaconda py3.5 tensorflow==1.0.1 keras==2.0.6 keras_contrib==2.0.8 pip install git+https://www.github.com/keras-team/keras-contrib.git cuda==v8.0 gpu==GTX750Ti # 简要介绍 ![model](https://github.com/FanhuaandLuomu/BiLstm_CNN_CRF_CWS/blob/master/bilstm_cnn_crf_model.png) 1. 使用 bilstm+cnn+crf训练seq2seq模型 2. 预训练词向量 gensim 3. 段落有的太长,按简单标点切分为句子,maxlen控制在100+,不足maxlen前面补0 4. 测试也是按句子测试,最后还原成段落 5. _有机会写个blog,先准备过年~新年快乐!__ # step1: 法律文档+conll2012分词语料 训练word embedding python embedding_model.py # step2: 预处理+训练+测试 1. 随机抽80篇训练(10%用于验证集),20篇用于测试   实验10次,平均**f-score=0.953**,详见prf_result_max_epoch_50_em.txt 2. 随机抽50篇训练(10%用于验证集),50篇用于测试   实验10次,平均**f-score=0.933**,详见prf_result_max_epoch_50_law.txt 3. 用conll2012中6个领域的分词训练语料+法律文档训练语料(20篇)-> 法律80篇测试   时间问题,只测一次:**f-score:0.943** 4. 用conll2012中6个领域的分词训练语料-> 法律100篇测试   时间问题,只测一次:**f-score:0.757** # New 拖了好久,终于在毕业论文交(3.26)后写了一篇分词blog(虽然也没啥技术含量,写着玩..)    [基于BiLSTM-CNN-CRF的中文分词](https://www.jianshu.com/p/5fea8f42caa9 "简书链接") # simple_bilstm_model 程序写的太繁琐,简化了一下  只关心 pip install keras==2.0.6  深度学习分词算法的可以只看这个文件夹下的bilstm_cnn_crf.py程序 keras_contrib==2.0.8 pip install git+https://www.github.com/keras-team/keras-contrib.git   pip install gensim 如缺少其它模块,看报错自行安装   ## note # 把你的语料放到corpus文件夹下 我的corpus中的语料压缩了,如使用可以解压 # 1. python embedding_model.py -> model_conll_law.m 生成词向量文件 # 2. python bilstm_cnn_crf.py // is_train==1 # 会得到 train_model.hdf5 lexicon.pkl # 3. 可以在之前的基础上train_model.hdf5,继续训练 # 4. 训练完成,测试 is_train==0 # python bilstm_cnn_crf.py 按句测试或按文件测试 # my_weights 中存放的是我的权值 ## 关于simple_bilstm_model程序的运行,写了个讲解,详见 [BiLSTM_CNN_CRF分词程序—运行讲解-简书](https://www.jianshu.com/p/373ce87e6f32 "简书链接") [BiLSTM_CNN_CRF分词程序—运行讲解-知乎](https://zhuanlan.zhihu.com/p/35710301 "知乎链接") simple_bilstm_model 百度网盘下载:链接:https://pan.baidu.com/s/1b0WRe16aVVILYGEBmhB9lg 密码:9tiv 不想下载全部项目的可以只下载网盘的内容。