# resume_analysis
**Repository Path**: scrappy_zhang/resume_analysis
## Basic Information
- **Project Name**: resume_analysis
- **Description**: No description available
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2021-08-04
- **Last Updated**: 2021-08-04
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
[TOC]
# 1. 工程目录
```D
./
│ main.py
│ main_keyword_list.txt
| README.md
│ 中国地名大全.txt
│ 中国姓氏大全.txt
│
├─file2txt
│ │ read.py
│ │ __init__.py
│
├─resume
```
# 2. main_keyword_list.txt 结构示例说明
```D
求职意向
目标行业:目标行业、目标领域、希望行业、意向行业、工作意向
目标职位:目标职位、期望职位、目标岗位、期望职位、期望岗位、求职意向、应聘职位、从事职业、目标职能、意向职位、应聘岗位
工作性质:工作性质
期望薪资:期望薪资、薪金要求、目标薪酬、期望月薪、期望年薪、薪资要求
期望工作地:期望工作地区、期望工作地点、目标工作地区、目标工作地点、目标地点、意向城市、意向工作地
何时到岗:何时到岗、到岗时间
其他:福利待遇、上班时间、假期待遇、五险一金
```
> 总关键词:上面示例中的 `求职意向` ,仅一个
>
> 大关键词:上面示例中的 `目标行业` , `目标职位` 等等,有多个
>
> 小关键词:上面示例中的 `目标行业` , `目标领域` 等等,有多个
# 3. /file2txt/read.py 文件
自定义模块,功能为把不同格式的简历文件读取成文本,目前支持读取的简历文件格式为 `doc、docx、pdf,txt`
# 4. /main.py 文件
**总体思路**:
1. 处理简历读取的文本,去除特殊符号,无关词,等等
2. 把 `main_keyword_list.txt`文件的内容转成字典格式,如下所示(有删减,仅作说明):
```python
{
'个人简介': [ {'姓名': ['姓名', '名字']}, {'性别': ['性别']}, {'民族': ['民族']} ],
'校园经历': [ {'校园经历': ['校园经历']} ]
}
```
3. 依每个大关键词返回生成器,例如:`('个人简介', '姓名', ['名字', '姓名'])` 等等
4. 通过遍历的方法,得到简历中的小关键词在该简历字符串中的位置(index), 以及该简历中的小关键词的长度,依此进一步处理上面返回的生成器为 `('个人简介', '姓名', '姓名', 10, 2)`
5. 由上面生成器的相邻的两个小关键词的位置和长度,截取得到这两个小关键词中的第一个小关键词对应的资料项,再依此进一步处理上面返回的生成器为 `('个人简介', '姓名', '姓名', '小白')`
---
> 判断若没有 `电子信箱,联系电话,岁数,姓名,地名` 这些关键词,则进行以下操作找出相应的资料项
>
> 再处理成跟第 5 步格式相符合的生成器,,
6. 对于缺少关键词的部分资料项,通过正则匹配的方法,匹配出 `电子信箱,联系电话,岁数` 这些资料项
7. 对于缺少关键词的 `姓名,地名`这些资料项,结合 `中国地名大全.txt` 和 `中国姓氏大全.txt`以及 `姓名,地名`这些资料项的特点来匹配出这些资料项
至此,简历中的关键词(须`main_keyword_list.txt`存在的)以及其相对应的资料项都已一一提取出来。。
# 5. 待完善
略...