# 倒排索引_K-means算法_智能信息检索 **Repository Path**: markchen7788/information_retrieval ## Basic Information - **Project Name**: 倒排索引_K-means算法_智能信息检索 - **Description**: 《智能信息检索》实验 - **Primary Language**: C++ - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 1 - **Created**: 2020-07-30 - **Last Updated**: 2022-04-28 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ### 倒排索引&K-means算法_智能信息检索实验 #### 实验说明 1. 倒排索引是信息检索中一个很重要的技术,老师在上课时也谈到了它的广泛性和高效性。写起来还是挺有趣的。 2. k-means算法是我接触到的第一个比较高级的算法,哈哈,惭愧!它在信息检索中可以用来将文章进行归类。本次实验并没有直接拿真实的文章做操作对象,而是用一个点集来模拟文章集。文章之间的相似程度好比点与点之间的距离,因此根据文章的相似程度划分文章集就好比根据点距来划分点集。 #### 模拟倒排索引 1. 读取任意数量的txt文件; 2. 为文件中所有的词条建立倒排索引; 3. 倒排索引用动态数组存储; 4. 索引的每一项中包括词条名以及以及一个动态数组,该动态数组用于存储出现该词条的文章的id号; 5. 输入关键词,利用倒排索引返回相应文章的id。 #### K-means算法 1. 算法定义[看这](https://baike.baidu.com/item/K%E5%9D%87%E5%80%BC%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95/15779627?fromtitle=K-means&fromid=4934806&fr=aladdin) 2. 程序需要读取point.txt(需要将其和exe文件放在同一目录下)里的30组数据作为计算的点集; 3. 点集、计算结果存在了excel表格中(咳咳!!!这个需要手动敲入),最后用散点图表示了一下结果,还是挺好玩的~