# JBoltAI_PPT_Extract **Repository Path**: jboltai/jboltai_ppt_extract ## Basic Information - **Project Name**: JBoltAI_PPT_Extract - **Description**: Java AI 知识库系统开发(RAG)数据处理环节,PPT内容处理解决方案。 PPT内容文本提取、PPT内容Media资源提取、PPT转txt、PPT转PDF、PPT转HTML、按页提取等。 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: main - **Homepage**: https://jboltai.com - **GVP Project**: No ## Statistics - **Stars**: 21 - **Forks**: 6 - **Created**: 2025-06-23 - **Last Updated**: 2025-07-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: JAVAAI, RAG知识库, PPT解析, ppt转pdf, PPT转TXT ## README # JBoltAI PPT Extract Framework [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) [![Java Version](https://img.shields.io/badge/Java-11+-blue.svg)](https://www.oracle.com/java/) [![Maven](https://img.shields.io/badge/Maven-3.6+-green.svg)](https://maven.apache.org/) ## 📖 项目简介 | Project Overview JBoltAI PPT Extract Framework 是一个基于 Apache POI 的企业级 ppt 文件处理框架,专为 Java 开发者设计。 JBoltAI PPT Extract Framework is an enterprise-grade ppt file processing framework based on Apache POI, designed specifically for Java developers. ## ✨ 核心特性 | Core Features - 🔄 **多格式支持 | Multi-format Support**: 完全支持 PPT 和 PPTX 格式 | Full support for both PPT and PPTX formats - 📝 **文本提取 | Text Extraction**: 智能提取幻灯片中的所有文本内容 | Intelligent extraction of all text content from slides - 🖼️ **媒体提取 | Media Extraction**: 提取图片、音频、视频等媒体文件 | Extract images, audio, video and other media files - 📄 **格式转换 | Format Conversion**: 支持转换为 PDF、Markdown 格式 | Support conversion to PDF and Markdown formats - 🌐 **HTML 查看器 | HTML Viewer**: 生成响应式 HTML 查看器 | Generate responsive HTML viewers - 📄 **逐页处理 | Page-by-page Processing**: 支持回调机制的逐页内容处理 | Support callback-based slide-by-slide content processing ## 🚀 快速开始 | Quick Start ```bash # 克隆项目 | Clone repository git clone https://gitee.com/jboltai/jboltai_ppt_extract.git cd jboltai_ppt_extract # 构建项目 | Build project mvn clean package # 运行示例 | Run example ./run.sh text presentation.pptx output.txt ``` ## 📚 文档 | Documentation ### 中文文档 | Chinese Documentation - [完整中文文档](docs/zh_cn/README.md) - 包含详细的架构设计、使用示例和学习材料 ### English Documentation - [Complete English Documentation](docs/en/README.md) - Includes detailed architecture design, usage examples and learning materials ## 🔧 基本使用 | Basic Usage ### 文本提取 | Text Extraction ```java PPTProcessor processor = new PPTProcessorImpl(); String text = processor.extractText(new File("presentation.pptx")); ``` ### PDF 转换 | PDF Conversion ```java PPTProcessor processor = new PPTProcessorImpl(); processor.convertToPdf(new File("presentation.pptx"), new File("output.pdf")); ``` ### 媒体提取 | Media Extraction ```java PPTProcessor processor = new PPTProcessorImpl(); int count = processor.extractMedia(new File("presentation.pptx"), new File("media_output")); ``` ### HTML 查看器 | HTML Viewer ```java HtmlViewerGenerator generator = new HtmlViewerGenerator(); generator.generateHtmlViewer(new File("presentation.pptx"), new File("html_viewer")); ``` ## 🧪 测试 | Testing ```bash # 运行所有测试 | Run all tests mvn test # 生成测试用 PPT | Generate test PPT ./generate-sample.sh # 逐页处理演示 | Page-by-page demo ./run-page-by-page.sh presentation.pptx ./output # HTML 查看器演示 | HTML viewer demo ./run-html-viewer.sh presentation.pptx ./viewer ``` ## 📦 命令行工具 | Command Line Tool ```bash # 基本用法 | Basic usage java -jar target/jboltai_ppt_extract-1.0.0-jar-with-dependencies.jar [output-file/dir] # 可用命令 | Available commands: # pdf - 转换为 PDF | Convert to PDF # text - 提取文本 | Extract text # markdown - 转换为 Markdown | Convert to Markdown # media - 提取媒体文件 | Extract media files # full - 完整内容提取 | Full content extraction ``` ## 🤝 贡献 | Contributing 我们欢迎社区贡献!请查看详细文档了解如何参与。 We welcome community contributions! Please check the detailed documentation to learn how to participate. ## 📄 许可证 | License 本项目采用 MIT 许可证 - 详见 [LICENSE](LICENSE) 文件。 This project is licensed under the MIT License - see the [LICENSE](LICENSE) file for details. ## 📞 联系我们 | Contact Us - **JBoltAI官方网站 | Official Website**: [https://www.jboltai.com](https://www.jboltai.com) - **微信扫码联系作者 | Contact Author via WeChat** - ![微信扫码联系作者](docs/jboltai_qrcode_xm.jpg) --- **JBoltAI PPT Extract Framework** - 让 ppt 处理变得简单高效!| Making ppt processing simple and efficient! 🚀 **[JBoltAI](https://jboltai.com)** - JBoltAI是Java企业级全栈AI数智化应用极速开发框架,旨在为Java技术团队构筑AI应用开发能力,帮助Java系统快速接入大模型能力并开发具有AI能力的功能模块。提供包含多大模型适配接入(国内外)、AI知识库(RAG)、思维链(Event)、Function Calling、MCP、Agent智能体开发工具箱、AI流程编排等数十项支撑能力。JBoltAI具备国内领先的用AI如何改造系统的AIGS(Artificial Intelligence Generated Service)解决方案。