# NLP_ability **Repository Path**: houpanpan/NLP_ability ## Basic Information - **Project Name**: NLP_ability - **Description**: 分享自然语言处理工程师(NLP)需要积累的各方面知识,包括各种面试题,基础知识,工程能力等等,提升核心竞争力 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-06-22 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 背景介绍 建立这个仓库是为了梳理自然语言处理(NLP)各个方面的知识,提升自己的核心竞争力。我觉得NLP是一个值得深耕的领域,所以希望可以不停的提升自己的段位! ## 深度学习自然语言处理 ### 1.Transformer/Bert | Transformer 相关知识 | 进度 | | ------------------------------------------------------------ | ------------ | | [史上最全Transformer面试题](./深度学习自然语言处理/Transformer/史上最全Transformer面试题.md) | 已完成并上传 | | [答案解析(1)-史上最全Transformer面试题](./深度学习自然语言处理/Transformer/答案解析(1)—史上最全Transformer面试题:灵魂20问帮你彻底搞定Transformer.md) | 已经完成并上传 | | [Pytorch代码分析--如何让Bert在finetune小数据集时更“稳”一点](./深度学习自然语言处理/Bert/Pytorch代码分析-如何让Bert在finetune小数据集时更“稳”一点.md) | 已经完成并上传 | ### 2.词向量-word embedding - Word2vec | Word2vec相关知识 | 进度 | | -------------------------------------- | ------------ | | 史上最全Word2vec面试题 | | | Word2vec各种细节的详细解读 | | | 基于自己语料训练词向量的各种细节和经验 | | - Fasttext | Fasttext相关知识 | 进度 | | --------------------------- | ---------- | | Fasttext源码详细解读(C++版) | | | Fasttext各种细节的详细解读 | | - Glove | Glove相关知识 | 进度 | | ------------------------- | ------------ | | GLove细节详细解读 | | | Glove训练词向量代码及解读 | | ### 3 句向量-sentence embedding 无监督模式: - 统计词袋模型表示句子向量 | 统计词袋模型相关知识 | 进度 | | -------------------- | ---- | | One-hot/TF-IDF | | - 词向量词袋模型 | 词向量词袋模型相关知识 | 进度 | | ---------------------------------- | ---- | | 平均/tf-idf 词向量(word2vec/glove) | | - Doc2vec - SIF | SIF 相关知识 | 进度 | | ----------------------------- | ------------ | | SIF论文详细解读 | | | SIF在中文文本上代码及效果解读 | | - WMD - Skip-Thought vecotrs - Quick-Thought Vectors - Power Mean 均值模型 有监督: - Cove - InferSent - Bert | Bert表示句向量 相关知识 | 进度 | | -------------------------- | -------------- | | Bert表示句向量效果详细解读 | | ### 4. 机器翻译 | 机器翻译相关知识 | 进度 | | ------------------------------------- | ------------ | | OpenNMT源代码解读(pytorch版) | | | 手撕Seq2seq-attention机器翻译代码 | | | 基于seq2seq机器翻译的各种优化策略解读 | | | subword相关论文详细解读 | | | ConS2S论文详细解读 | | | GNMT论文详细解读 | | | Seq2seq过程图画版详细解读 | | ### 5. 命名体识别 | 命名体识别相关资源 | 进度 | | -------------------------- | ------------ | | HMM/CRF 详细解读 | | | BiLstm-CRF详细解读 | | | 手撕BiLSTM-CRF代码 | | | 词典匹配命名体识别详细解读 | | | 命名体识别最新进展 | | ### 6. 文本分类 | 文本分类相关知识 | 进度 | | ---------------------------------------- | ------------ | | TextCNN论文详细解读 | | | 手撕 TextCNN/Fasttext/Albert 文本分类 | | | TextCNN/Fasttext/Albert 实际工作应用经验 | | | 多标签文本分类 | | | 文本分类各种优化策略和方法 | | ### 7. 关键词提取 | 关键词提取相关知识 | 进度 | | ----------------------- | ------------ | | TFIDF模型提取关键词解读 | | | TextRank提取关键词 | | | 各种dirty工作技巧 | | ## 模型部署 ### 1.Kafka ### 2.Docker ### 3.Elasticsearch ### 4.Flask+nginx ### 5. Grpc ### 6. TensorRT