# pdfortable **Repository Path**: bondgit/pdfortable ## Basic Information - **Project Name**: pdfortable - **Description**: 用于提取PDF文件表格。 java领域中创新方案python pdflumber的Java实现。 PDF转Excel、抽取PDF文件中表格数据、按PDF文件页码抽取表格、支持将抽取到的表格转存到Excel文件中，也支持将抽取到的表格数据保存到Java对象中。 - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 5 - **Forks**: 3 - **Created**: 2024-04-04 - **Last Updated**: 2025-08-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README

pdfortable

pd for table

欢迎一键三连 Watch Star Fork

# 主要功能 - 1.PDF转Excel - 2.抽取PDF表格数据 - 3.表格转存excel文件 - 4.表格转存Java对象中 - 5.按页码区间提取 # 效果展示 ### 原始pdf文件

### 抽取到excel

### 抽取到Java对象

# 使用方式 ## Maven 本项目已使用JitPack公开仓库，直接在pom.xml中添加依赖即可。添加方式如下： ```xml jitpack.io https://jitpack.io com.gitee.bondgit pdfortable v1.0 ``` ## gradle ``` dependencyResolutionManagement { repositoriesMode.set(RepositoriesMode.FAIL_ON_PROJECT_REPOS) repositories { mavenCentral() maven { url 'https://jitpack.io' } } } dependencies { implementation 'com.gitee.bondgit:pdfortable:v1.0' } ``` # 使用示例，Example.java ```java // 示例一：提取表格到Java对象 PdforTable pdforTable = new PdforTable(); LogicPage logicPage = pdforTable.extractTable("C:\\Users\\测试数据源-2页.pdf", 1, 1); logicPage.getLogicRowList().forEach(logicRow -> { System.out.print("第" + logicRow.getRowIndex() + "行" +"["); logicRow.getLogicCellList().forEach(logicCell -> { System.out.print(logicCell.getText() + ","); }); System.out.println("]"); }); ``` ```java // 示例二：提取表格到excel文件 PdforTable pdforTable = new PdforTable(); pdforTable.convertPdfToExcel("C:\\Users\\测试数据源-2页.pdf", "C:\\Users\\export.xls", 1, 1); ``` ```java PdforTable pdforTable = new PdforTable(); //示例三：提取全部表格数据 LogicPage logicPage = pdforTable.extractTable(pdfPath); //示例3：抽取PDF表格到Excel pdforTable.convertPdfToExcel("C:\\Users\\测试数据源-2页.pdf", "C:\\Users\\export.xls"); ```