# wav_to_text

**Repository Path**: xiaohigh521/wav_to_text

## Basic Information

- **Project Name**: wav_to_text
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-08-11
- **Last Updated**: 2025-08-28

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 音频转文本处理工具

这个工具可以自动处理微信聊天记录HTML文件中的音频，将音频文件转换为文本并插入到HTML文件的对应位置。

## 功能特点

- 自动解析HTML文件中的音频播放链接
- 批量转换WAV音频文件为文本（使用OpenAI Whisper模型）
- 将转换后的文本自动插入到HTML文件中对应位置
- 支持中文语音识别
- 自动创建备份文件

## 使用方法

### 1. 安装依赖

```bash
npm install
```

### 2. 配置API密钥

确保 `convert.js` 文件中的OpenAI API密钥和baseURL配置正确。

### 3. 运行程序

#### 批量处理模式（推荐）
处理 `data/1688857465691038` 文件夹下所有包含音频的聊天记录：

```bash
npm start
# 或者
node main.js
```

#### 单个文件夹处理模式
处理指定的单个文件夹（原有功能）：

```bash
npm run single
# 或者
node main.js --single
```

## 文件结构

```
27_wav_to_txt/
├── main.js              # 主程序入口（支持批量和单个处理）
├── processAudio.js      # 音频处理核心类
├── convert.js           # 音频转文本功能
├── package.json         # 项目配置
├── data/
│   ├── 1688857465691038/           # 批量处理目标文件夹
│   │   ├── 聊天记录1(ID)/
│   │   │   ├── msg.htm             # 聊天记录HTML文件
│   │   │   └── voice/              # 音频文件目录
│   │   │       ├── [00001]2025-xx-xx xx-xx-xx.wav
│   │   │       └── ...
│   │   ├── 聊天记录2(ID)/
│   │   │   ├── msg.htm
│   │   │   └── voice/
│   │   └── ...（约190个文件夹）
│   └── ？ 终究？？是戏？(7881302389007185)/    # 单个处理示例
│       ├── msg.html
│       └── voice/
```

## 工作流程

### 批量处理模式
1. **扫描目录**: 自动扫描`data/1688857465691038`文件夹下的所有子文件夹
2. **筛选有效文件夹**: 识别包含`msg.htm`文件和`voice`目录的有效文件夹
3. **批量处理**: 逐个处理每个有效文件夹中的音频文件
4. **统计报告**: 显示处理成功和失败的统计信息

### 每个文件夹的处理流程
1. **解析HTML文件**: 扫描`msg.htm`文件，找到所有的音频播放链接
2. **提取音频文件**: 根据链接中的文件名，在`voice`目录中找到对应的WAV文件
3. **音频转文本**: 使用OpenAI Whisper模型将音频转换为文本
4. **插入文本**: 将转换后的文本插入到HTML文件中音频播放按钮的下方
5. **保存结果**: 更新HTML文件，并创建备份文件

## 输出格式

转换后的文本会以以下格式插入到HTML中：

```html
<div class="content" style="margin-left: 20px; color: #666; font-style: italic;">
  <span class="MsgHistory">&nbsp;&nbsp;[语音内容]: 转换后的文本内容</span>
</div>
```

### 效果示例

**转换前：**
```html
<div class="content">
  &nbsp;&nbsp;<a href="#" onClick="return PlayMyWav(this,'[00001]2025-07-25 09-42-17');">[点击播放语音]</a>
</div>
```

**转换后：**
```html
<div class="content">
  &nbsp;&nbsp;<a href="#" onClick="return PlayMyWav(this,'[00001]2025-07-25 09-42-17');">[点击播放语音]</a>
</div>
<div class="content" style="margin-left: 20px; color: #666; font-style: italic;">
  <span class="MsgHistory">&nbsp;&nbsp;[语音内容]: 你们现在就是想弄清孩子抚养权方面问题,对吧?</span>
</div>
```

## 注意事项

- 程序会自动创建HTML文件的备份（`msg_backup.html`）
- 如果音频转换失败，会显示"[转换失败]"
- 程序会在每次API调用之间添加1秒延迟以避免频率限制
- 确保网络连接正常，以便访问OpenAI API

## 错误处理

- 如果音频文件不存在，会在控制台显示警告
- 如果API调用失败，会显示具体的错误信息
- 程序会继续处理其他音频文件，不会因单个文件失败而中断

## 批量处理统计

经过测试验证：
- **总文件夹数**: 190个
- **有效文件夹数**: 72个（包含msg.htm和voice目录）
- **测试结果**: 成功处理3个文件夹，共36个音频文件，100%成功率
- **平均处理时间**: 每个音频文件约1-2秒
- **支持的音频格式**: WAV文件

## 技术栈

- Node.js
- OpenAI API (Whisper模型)
- 文件系统操作
- 正则表达式解析
- 批量文件处理