# Text-Smilarity **Repository Path**: zhou_long_yang/Text-Smilarity ## Basic Information - **Project Name**: Text-Smilarity - **Description**: 文本/句子相似度 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-04-29 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Text-Smilarity 计算文本/句子间的相似度。 ## 无监督方法 数据集主要来源于CCKS2018评测项目微众银行客户问句匹配大赛, 总数据集大小为十万条。根据`data`目录下的数据集自动训练词向量。 ------------------ ### 1. Smooth Inverse Frequency(SIF) **主要分为两部分: 1. 加权词向量得到句子向量 2. 去除句子中不重要的成分** * sif.py SIF算法类 * word2vec.py 数据预处理,训练词向量。 * main.py 主函数,得到混淆矩阵。 ```py python main.py ``` **运行结果:** ||实际标签为正|实际标签为负 :-:|:-:|:-: 预测标签为正|34031|14720 预测标签为负|15969|35280 准确率: 0.6931 **reference:** [A Simple but Tough-to-Beat Baseline for Sentence Embeddings.](https://openreview.net/forum?id=SyK00v5xx) [https://github.com/PrincetonML/SIF](https://github.com/PrincetonML/SIF) [https://github.com/liuhuanyong/SiameseSentenceSimilarity](https://github.com/liuhuanyong/SiameseSentenceSimilarity)