# text_similarity_zh

**Repository Path**: Samuelcoding/text_similarity_zh

## Basic Information

- **Project Name**: text_similarity_zh
- **Description**: 中文文本相似性算法
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-07-01
- **Last Updated**: 2020-12-18

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# text_similarity

> 文本相似性分析

# 目录
- data
    - 存放数据
- cosion_similarity
    - 将文本转换成向量(采用one-hot)，根据向量余弦求文本相似性，余弦值越大，相似性越高。
    
- jaccard_similarity
    - 直接计算两个文本中相同词汇数目与总词汇数目的比值，获得文本相似性。
    
- simhash_similarity
    - 根据simhash算法，求得两文本的海明距离作为其文本相似性，海明距离越大，相似性越低。
    
- edit_distance_similarity
    - 根据编辑距离算法，求得两文本编辑作为其相似性，编辑距离越大，相似性越低。
    
- euclid_similarity
    - 根据欧氏距离计算文本相似性。
    
- manhattan_similarity
    - 根据曼哈顿距离计算文本相似性。
    
- lda_similarity
    - 基于lda对文本进行向量转换，采用cosion进行相似度计算。
    
- lsi_similarity
    - 基于lsi对文本进行向量转换，采用cosion进行相似度计算。
    
- tfidf_similarity
    - 基于tfidf对文本进行向量转换，采用cosion进行相似度计算
    
- md25_smilarity
    - 基于md25计算查询语句与文本之间的相似性
        

## gensim模型训练     
[lda, lsi, tfidf模型训练](https://github.com/zhangfazhan/gensim_train_model)