# 倒排索引_K-means算法_智能信息检索

**Repository Path**: markchen7788/information_retrieval

## Basic Information

- **Project Name**: 倒排索引_K-means算法_智能信息检索
- **Description**: 《智能信息检索》实验
- **Primary Language**: C++
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 1
- **Created**: 2020-07-30
- **Last Updated**: 2022-04-28

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

### 倒排索引&K-means算法_智能信息检索实验


#### 实验说明
1.  倒排索引是信息检索中一个很重要的技术，老师在上课时也谈到了它的广泛性和高效性。写起来还是挺有趣的。
2.  k-means算法是我接触到的第一个比较高级的算法，哈哈，惭愧！它在信息检索中可以用来将文章进行归类。本次实验并没有直接拿真实的文章做操作对象，而是用一个点集来模拟文章集。文章之间的相似程度好比点与点之间的距离，因此根据文章的相似程度划分文章集就好比根据点距来划分点集。


#### 模拟倒排索引

1.  读取任意数量的txt文件;
2.  为文件中所有的词条建立倒排索引;
3.  倒排索引用动态数组存储;
4.  索引的每一项中包括词条名以及以及一个动态数组，该动态数组用于存储出现该词条的文章的id号;
5.  输入关键词，利用倒排索引返回相应文章的id。

#### K-means算法

1.  算法定义[看这](https://baike.baidu.com/item/K%E5%9D%87%E5%80%BC%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95/15779627?fromtitle=K-means&fromid=4934806&fr=aladdin)
2.  程序需要读取point.txt(需要将其和exe文件放在同一目录下)里的30组数据作为计算的点集；
3.  点集、计算结果存在了excel表格中(咳咳！！！这个需要手动敲入),最后用散点图表示了一下结果，还是挺好玩的~