# simhash **Repository Path**: chenshiyun/simhash ## Basic Information - **Project Name**: simhash - **Description**: 本项目是从 https://github.com/CreekLou/simhash 复制过来的,因为这个项目跑不起来,所以我修复好了后,跑起来了,我写爬虫的时候用到了 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 1 - **Created**: 2019-06-01 - **Last Updated**: 2025-04-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # simhash 高效的文本相似度去重算法实现 ## simhash是什么 Google发明的的文本去重算法,适合于大批量文档的相似度计算 * [博客介绍](http://grunt1223.iteye.com/blog/964564) ## 主要步骤 * 对文本分词,得到N维特征向量(默认为64维) * 为分词设置权重(tf-idf) * 为特征向量计算哈希 * 对所有特征向量加权,累加(目前仅进行非加权累加) * 对累加结果,大于零置一,小于零置零 * 得到文本指纹(fingerprint)