# ai-file-analyze

**Repository Path**: jext/ai-file-analyze

## Basic Information

- **Project Name**: ai-file-analyze
- **Description**: 学习AI原生编程，学习自然语言编程，实现真实需求：从多个PDF合同文件中提取客户订单号，提取出来的内容保存为csv（EXCEL）文件。并记录处理日志，便于跳过已经处理过的pdf文件。
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 2
- **Created**: 2026-05-05
- **Last Updated**: 2026-05-05

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# AI File Analyze

从PDF文件中提取文本内容，提取出来的内容保存为csv文件。进行csv文件分析时，采用智能分析方式，不采用脚本提取关键字匹配的非智能方式。

## 提取文件内容

将./ 及子目录下的所有pdf文件内容提取出来，保存为./content/目录下的txt文件。每个txt文件对应一个pdf文件，子目录结构与pdf文件所在目录结构相同，子目录名称与pdf文件所在目录名称相同，子目录下保存的txt文件，文件名与pdf文件名相同。

转换后的txt文件第一行保存pdf文件hash值，格式：hash: hash_value。提取pdf文件内容时，如果相同名称的txt文件已存在，检查hash值：如果一样则跳过，否则就覆盖txt文件重新提取内容。

第二行保存pdf文件路径，格式：path: pdf_file_path。

检查./content/目录下的txt文件，读取第二行的pdf文件路径，检查是否有对应的pdf文件存在。如果没有，就删除txt文件。

注意：即使没有需要处理的pdf文件，也需要检查./content/目录下的txt文件。

## 智能分析处理

对./content/目录下的txt文件进行智能分析，通过对文件内容进行智能阅读理解并给出结果，不运行程序，不调用python脚本。

将分析结果保存到csv文件中，最后一列是txt文件名称。

csv文件名称规则：yyMMdd-智能分析-大模型.csv，其中yyMMdd是获取到的系统当前日期；"智能分析"四个字不变；"大模型"三个字动态替换为当前使用的大模型名称，如果获取不到，就不替换，保留"大模型"三个字不变。