# Text-Smilarity

**Repository Path**: zhou_long_yang/Text-Smilarity

## Basic Information

- **Project Name**: Text-Smilarity
- **Description**: 文本/句子相似度
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-04-29
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Text-Smilarity
计算文本/句子间的相似度。

## 无监督方法

数据集主要来源于CCKS2018评测项目微众银行客户问句匹配大赛, 总数据集大小为十万条。根据`data`目录下的数据集自动训练词向量。

------------------
### 1. Smooth Inverse Frequency(SIF)
**主要分为两部分: 1. 加权词向量得到句子向量 2. 去除句子中不重要的成分**
* sif.py SIF算法类
* word2vec.py 数据预处理，训练词向量。
* main.py 主函数，得到混淆矩阵。
```py
python main.py
```

**运行结果：**

||实际标签为正|实际标签为负
:-:|:-:|:-:
预测标签为正|34031|14720
预测标签为负|15969|35280

准确率: 0.6931

**reference:** 

[A Simple but Tough-to-Beat Baseline for Sentence Embeddings.](https://openreview.net/forum?id=SyK00v5xx)

[https://github.com/PrincetonML/SIF](https://github.com/PrincetonML/SIF)

[https://github.com/liuhuanyong/SiameseSentenceSimilarity](https://github.com/liuhuanyong/SiameseSentenceSimilarity)