# ai-file-analyze **Repository Path**: jext/ai-file-analyze ## Basic Information - **Project Name**: ai-file-analyze - **Description**: 学习AI原生编程,学习自然语言编程,实现真实需求:从多个PDF合同文件中提取客户订单号,提取出来的内容保存为csv(EXCEL)文件。并记录处理日志,便于跳过已经处理过的pdf文件。 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2026-05-05 - **Last Updated**: 2026-05-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # AI File Analyze 从PDF文件中提取文本内容,提取出来的内容保存为csv文件。进行csv文件分析时,采用智能分析方式,不采用脚本提取关键字匹配的非智能方式。 ## 提取文件内容 将./ 及子目录下的所有pdf文件内容提取出来,保存为./content/目录下的txt文件。每个txt文件对应一个pdf文件,子目录结构与pdf文件所在目录结构相同,子目录名称与pdf文件所在目录名称相同,子目录下保存的txt文件,文件名与pdf文件名相同。 转换后的txt文件第一行保存pdf文件hash值,格式:hash: hash_value。提取pdf文件内容时,如果相同名称的txt文件已存在,检查hash值:如果一样则跳过,否则就覆盖txt文件重新提取内容。 第二行保存pdf文件路径,格式:path: pdf_file_path。 检查./content/目录下的txt文件,读取第二行的pdf文件路径,检查是否有对应的pdf文件存在。如果没有,就删除txt文件。 注意:即使没有需要处理的pdf文件,也需要检查./content/目录下的txt文件。 ## 智能分析处理 对./content/目录下的txt文件进行智能分析,通过对文件内容进行智能阅读理解并给出结果,不运行程序,不调用python脚本。 将分析结果保存到csv文件中,最后一列是txt文件名称。 csv文件名称规则:yyMMdd-智能分析-大模型.csv,其中yyMMdd是获取到的系统当前日期;"智能分析"四个字不变;"大模型"三个字动态替换为当前使用的大模型名称,如果获取不到,就不替换,保留"大模型"三个字不变。