# resume_analysis **Repository Path**: scrappy_zhang/resume_analysis ## Basic Information - **Project Name**: resume_analysis - **Description**: No description available - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-08-04 - **Last Updated**: 2021-08-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README [TOC] # 1. 工程目录 ```D ./ │ main.py │ main_keyword_list.txt | README.md │ 中国地名大全.txt │ 中国姓氏大全.txt │ ├─file2txt │ │ read.py │ │ __init__.py │ ├─resume ``` # 2. main_keyword_list.txt 结构示例说明 ```D 求职意向 目标行业:目标行业、目标领域、希望行业、意向行业、工作意向 目标职位:目标职位、期望职位、目标岗位、期望职位、期望岗位、求职意向、应聘职位、从事职业、目标职能、意向职位、应聘岗位 工作性质:工作性质 期望薪资:期望薪资、薪金要求、目标薪酬、期望月薪、期望年薪、薪资要求 期望工作地:期望工作地区、期望工作地点、目标工作地区、目标工作地点、目标地点、意向城市、意向工作地 何时到岗:何时到岗、到岗时间 其他:福利待遇、上班时间、假期待遇、五险一金 ``` > 总关键词:上面示例中的 `求职意向` ,仅一个 > > 大关键词:上面示例中的 `目标行业` , `目标职位` 等等,有多个 > > 小关键词:上面示例中的 `目标行业` , `目标领域` 等等,有多个 # 3. /file2txt/read.py 文件 自定义模块,功能为把不同格式的简历文件读取成文本,目前支持读取的简历文件格式为 `doc、docx、pdf,txt` # 4. /main.py 文件 **总体思路**: 1. 处理简历读取的文本,去除特殊符号,无关词,等等 2. 把 `main_keyword_list.txt`文件的内容转成字典格式,如下所示(有删减,仅作说明): ```python { '个人简介': [ {'姓名': ['姓名', '名字']}, {'性别': ['性别']}, {'民族': ['民族']} ], '校园经历': [ {'校园经历': ['校园经历']} ] } ``` 3. 依每个大关键词返回生成器,例如:`('个人简介', '姓名', ['名字', '姓名'])` 等等 4. 通过遍历的方法,得到简历中的小关键词在该简历字符串中的位置(index), 以及该简历中的小关键词的长度,依此进一步处理上面返回的生成器为 `('个人简介', '姓名', '姓名', 10, 2)` 5. 由上面生成器的相邻的两个小关键词的位置和长度,截取得到这两个小关键词中的第一个小关键词对应的资料项,再依此进一步处理上面返回的生成器为 `('个人简介', '姓名', '姓名', '小白')` --- > 判断若没有 `电子信箱,联系电话,岁数,姓名,地名` 这些关键词,则进行以下操作找出相应的资料项 > > 再处理成跟第 5 步格式相符合的生成器,, 6. 对于缺少关键词的部分资料项,通过正则匹配的方法,匹配出 `电子信箱,联系电话,岁数` 这些资料项 7. 对于缺少关键词的 `姓名,地名`这些资料项,结合 `中国地名大全.txt` 和 `中国姓氏大全.txt`以及 `姓名,地名`这些资料项的特点来匹配出这些资料项 至此,简历中的关键词(须`main_keyword_list.txt`存在的)以及其相对应的资料项都已一一提取出来。。 # 5. 待完善 略...