# pdf2epub-tool **Repository Path**: bob-wu/pdf2epub-tool ## Basic Information - **Project Name**: pdf2epub-tool - **Description**: An attempt of a PDF2EPub convertor. - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2023-04-10 - **Last Updated**: 2023-04-10 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Pdf2Epub ## 介绍 这是一个利用[poppler](https://poppler.freedesktop.org/)工具和[pdf2htmlEX](https://github.com/pdf2htmlEX/pdf2htmlEX)项目来进行PDF文件到[EPUB3](http://idpf.org/epub/30/)文件转换的尝试。 具体地,我们使用`pdfinfo`和`pdftoppm`来获取pdf文件的元信息和封面图片,使用`pdf2htmlEX`工具来讲pdf文件分割、转换为html、图片和字体文件,最后将这些工具的输出进行整合,构建出一个符合EPUB 3规范的文件。 我们生成的EPUB文件,其结构就像下面这样: ``` root |-mimetype |-META-INF | |-container.xml |-OEBPS |-content.otf |-nav.xhtml |-(data file) |-(data file) |-... ``` ## 安装依赖 **这个程序的编写和测试都只在一台Ubuntu 20.04上完成过,因此以下信息会有局限** 1. 安装`poppler-util` (大部分流行的 Linux 发行版应该都已预安装) - Ubuntu: `sudo apt install poppler-utils` - CentOS: `sudo yum install poppler-utils` 2. 安装`pdf2htmlEX` 1. 到[此页面](https://github.com/pdf2htmlEX/pdf2htmlEX/releases)下载最新的AppImage,存至合适的目录。 2. 执行`chmod +x {下好的AppImage的路径}`给予执行权限,执行`sudo ln -s {下好的AppImage的路径} /usr/bin/pdf2htmlEX`创建软链接。 ## 测试用例 1. [pdf](test/Software-Engineering-at-Google.pdf) -> [epub](test/Software-Engineering-at-Google.epub) 2. [pdf](test/Big-Data.pdf) -> [epub](test/Big-Data.epub) 3. [pdf](test/数据结构(第3版)-邓俊辉.pdf) -> [epub](test/数据结构(第3版)-邓俊辉.epub)