如何通过Java实现PDF转高质量图片

2024-10-28 08:25:53 作者：威哥爱编程

在Java中,将PDF文件转换为高质量的图片可以使用不同的库,其中最常用的库之一是 Apache PDFBox,下面我们就来看看这个库的具体使用吧

在Java中，将PDF文件转换为高质量的图片可以使用不同的库，其中最常用的库之一是 Apache PDFBox。通过该库，你可以读取PDF文件，并将每一页转换为图像文件。为了提高图像的质量，你可以指定分辨率等参数。此外，也可以结合 Java ImageIO 来保存生成的图片文件。

如何实现

下面V哥通过一个详细的案例，来展示如何使用 PDFBox 实现 PDF 转高质量图片：

所需依赖

首先，确保你已经在项目中添加了 PDFBox 依赖。你可以通过Maven来添加：

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.29</version> <!-- 确保使用最新的版本 -->
</dependency>

实现步骤

先来捋一下实现步骤哈。

加载 PDF 文件
设置渲染参数（如 DPI 来控制图片分辨率）
将每页 PDF 渲染为图片
保存图片

通过以上1，2，3，4个步骤，咱们具体来实现一下代码：

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;

public class VGPdfToImage {

    public static void main(String[] args) {
        // PDF文件路径
        String pdfFilePath = "path/to/your/pdf/vg_doc.pdf";
        // 输出图片文件夹路径
        String outputDir = "path/to/output/images/";

        // 设置DPI（越高图片越清晰，但文件也会更大）
        int dpi = 300;

        try (PDDocument document = PDDocument.load(new File(pdfFilePath))) {
            PDFRenderer pdfRenderer = new PDFRenderer(document);
            
            // 遍历PDF每一页并转换为图片
            for (int page = 0; page < document.getNumberOfPages(); ++page) {
                // 使用BufferedImage来表示图像
                BufferedImage bim = pdfRenderer.renderImageWithDPI(page, dpi);
                
                // 生成文件名
                String fileName = outputDir + "pdf_page_" + (page + 1) + ".png";
                
                // 将图片保存为PNG格式
                ImageIO.write(bim, "png", new File(fileName));
                
                System.out.println("Saved page " + (page + 1) + " as image.");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

来解释一下

PDFRenderer: PDFBox 提供的 PDFRenderer 类用于将 PDF 文档页渲染为图像对象（BufferedImage）。
renderImageWithDPI: 该方法可以指定DPI（每英寸点数），它直接影响图片的分辨率。通常，72 DPI 是屏幕显示的默认分辨率，而300 DPI 被视为高质量打印的分辨率。
ImageIO: Java的 ImageIO 用于将 BufferedImage 保存为 PNG、JPEG 等常见图片格式。

输出效果

每一页的PDF将被单独渲染为一张图片，并且通过高DPI参数设置，图片的质量较高。
输出的文件路径为 outputDir 指定的路径，图片将被保存为PNG格式。你也可以更改保存格式为JPEG等。

可调整的项有

DPI 设置: 如果你希望输出更高质量的图片，可以将 DPI 设置为 300 或更高。如果需要快速渲染且质量要求不高，可以设置为72 DPI。
图片格式: ImageIO.write() 可以使用不同的格式，如 "jpg"、"png"，根据需求调整。

注意一下，确保你的PDFBox库版本是较新的版本，如2.x系列，来保证支持更多的PDF功能和修复潜在问题。

以上就是一个简单的实现过程DEMO，那在实际应用中，一定会有特定问题，问题来了，如何你要处理的 PDF 文件比较大，或者页数比较多，那必定是要考虑性能问题滴。就这两个问题，V 哥来优化一下。

两个可能的性能优化问题

缓存策略：对于较大的 PDF 文件，你可以使用某些缓存策略来优化性能。
并行处理：如果你需要处理很多页的 PDF，可以通过多线程并行处理每一页以提升速度。

缓存策略优化

当要处理较大的 PDF 文件时，咱们使用缓存策略可以显著优化性能，特别是对于那些需要处理多个页面或反复渲染的情况。对于 PDF 渲染操作，缓存策略主要是为了减少对磁盘或内存的反复访问，从而加快读取、渲染速度并节省内存。

在 Java 中，可以通过以下几种方式实现缓存优化：

内存缓存：将已处理的页面保存在内存中，当需要重复访问这些页面时直接从缓存中获取。
磁盘缓存：如果内存不足以缓存所有页面，可以将页面渲染结果或部分中间数据缓存到磁盘上。
逐页处理：只在需要时加载并处理某些页面，而不是一次性加载整个PDF文件。

采用实现内存缓存的案例

采用内存缓存，咱们可以使用 ConcurrentHashMap 来实现，将已经渲染的 PDF 页面存储在内存中，避免重复渲染。

来看一个使用内存缓存的详细实现案例：

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.concurrent.ConcurrentHashMap;

public class PdfToImageWithCache {

    // 用于缓存已渲染的PDF页面（使用ConcurrentHashMap确保线程安全）
    private static final ConcurrentHashMap<Integer, BufferedImage> imageCache = new ConcurrentHashMap<>();
    private static final int dpi = 300; // 高质量DPI设置
    
    public static void main(String[] args) {
        // PDF文件路径
        String pdfFilePath = "path/to/your/large/pdf/ vg_doc.pdf";
        // 输出图片文件夹路径
        String outputDir = "path/to/output/images/";

        try (PDDocument document = PDDocument.load(new File(pdfFilePath))) {
            PDFRenderer pdfRenderer = new PDFRenderer(document);
            
            // 获取页面总数
            int totalPages = document.getNumberOfPages();
            System.out.println("Total pages: " + totalPages);
            
            // 渲染并缓存每一页
            for (int page = 0; page < totalPages; ++page) {
                BufferedImage image = renderPageWithCache(pdfRenderer, page);
                
                // 保存图片
                String fileName = outputDir + "pdf_page_" + (page + 1) + ".png";
                ImageIO.write(image, "png", new File(fileName));
                
                System.out.println("Saved page " + (page + 1) + " as image.");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    /**
     * 使用缓存渲染PDF页面
     * @param pdfRenderer PDFRenderer实例
     * @param page 页码（从0开始）
     * @return 缓存或渲染后的BufferedImage
     */
    private static BufferedImage renderPageWithCache(PDFRenderer pdfRenderer, int page) throws IOException {
        // 检查缓存是否已存在该页面的图像
        if (imageCache.containsKey(page)) {
            System.out.println("Page " + (page + 1) + " found in cache.");
            return imageCache.get(page);
        }

        // 如果缓存中不存在，则渲染并存入缓存
        System.out.println("Rendering page " + (page + 1) + "...");
        BufferedImage image = pdfRenderer.renderImageWithDPI(page, dpi);
        imageCache.put(page, image);
        return image;
    }
}

解释一下代码

内存缓存（ConcurrentHashMap）:

使用 ConcurrentHashMap<Integer, BufferedImage> 作为缓存结构，Integer 代表页面的索引（从0开始），BufferedImage 代表已渲染的图像。
每次渲染页面前，先检查缓存中是否存在该页面的图像，如果已存在，则直接返回缓存的图像，否则渲染并保存到缓存中。

renderPageWithCache 方法:

该方法首先检查页面是否在缓存中，如果在，则直接从缓存中获取。
如果缓存中不存在该页面的图像，则渲染并将其保存到缓存中。

DPI 设置:

dpi 参数设置为300以确保输出的图像质量足够高。

逐页渲染:

使用 for 循环逐页处理，避免一次性加载所有页面到内存。对于每页图像的渲染，若该页面已经渲染过，则直接从缓存中获取。

这样优化的好处是啥

内存缓存的好处:

当你需要多次访问或保存某些页面时，内存缓存可以避免重复渲染，从而提升性能。
对于较大的PDF文件，如果反复操作相同的页面，缓存能显著减少处理时间。

并发支持:

ConcurrentHashMap 保证了在多线程环境下缓存操作的安全性，可以安全地在多线程中使用。

控制内存占用:

如果内存使用量过大，可以根据情况定期清理缓存，或者在缓存中限制最大保存数量，使用类似LRU（最近最少使用）策略来清除旧缓存。

实现磁盘缓存的案例

接下来，咱们看一个使用磁盘缓存要怎么实现，如果 PDF 文件较大，内存无法保存全部页面的图像，我的天啊，那要怎么办？就是可以使用磁盘缓存，将渲染结果暂时保存到磁盘。

来看下面这个磁盘缓存策略实现，将渲染的图像保存为临时文件，并在需要时从磁盘加载：

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;

public class PdfToImageWithDiskCache {

    private static final int dpi = 300; // 高质量DPI设置
    private static final String cacheDir = "path/to/cache/";

    public static void main(String[] args) {
        // PDF文件路径
        String pdfFilePath = "path/to/your/large/pdf/vg_doc.pdf";
        // 输出图片文件夹路径
        String outputDir = "path/to/output/images/";

        try (PDDocument document = PDDocument.load(new File(pdfFilePath))) {
            PDFRenderer pdfRenderer = new PDFRenderer(document);
            int totalPages = document.getNumberOfPages();

            for (int page = 0; page < totalPages; ++page) {
                BufferedImage image = renderPageWithDiskCache(pdfRenderer, page);

                // 保存图片
                String fileName = outputDir + "pdf_page_" + (page + 1) + ".png";
                ImageIO.write(image, "png", new File(fileName));
                System.out.println("Saved page " + (page + 1) + " as image.");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    /**
     * 使用磁盘缓存渲染PDF页面
     * @param pdfRenderer PDFRenderer实例
     * @param page 页码（从0开始）
     * @return 缓存或渲染后的BufferedImage
     */
    private static BufferedImage renderPageWithDiskCache(PDFRenderer pdfRenderer, int page) throws IOException {
        // 磁盘缓存文件路径
        File cachedFile = new File(cacheDir + "page_" + page + ".png");

        // 如果缓存文件已存在，则从磁盘加载
        if (cachedFile.exists()) {
            System.out.println("Loading page " + (page + 1) + " from disk cache.");
            return ImageIO.read(cachedFile);
        }

        // 如果缓存文件不存在，则渲染并保存到磁盘
        System.out.println("Rendering page " + (page + 1) + "...");
        BufferedImage image = pdfRenderer.renderImageWithDPI(page, dpi);
        ImageIO.write(image, "png", cachedFile);
        return image;
    }
}

代码解释

缓存到磁盘: 通过 ImageIO.write() 将渲染的图像保存到磁盘上，如果该页面已经有缓存文件，则直接从磁盘读取。
缓存文件路径: 每个页面有对应的缓存文件名，避免重复渲染和保存。
适用于内存不足的情况: 当内存不足时，可以通过磁盘缓存减轻内存负担，同时仍然保留较好的访问速度。

通过这样的优化策略，咱们就可以在处理较大的 PDF 文件时，显著提升性能并减少资源消耗。

并行处理优化

接下来，看第二个问题：在处理很多页的 PDF 文件时，通过多线程并行处理每一页可以让处理速度显著提升，尤其是在每页渲染操作耗时较长的情况下。Java 提供了多线程的机制，咱们就用 ExecutorService 可以方便地管理和执行多线程任务。

下面来看一下如何实现哈，使用多线程并行处理 PDF 文件的每一页，将其转换为高质量图片。

主要步骤有三个

使用 ExecutorService 来创建线程池。
每个线程独立处理一页 PDF，将其渲染为图片。
线程任务执行完毕后，统一关闭线程池。

具体的代码实现

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.TimeUnit;

public class PdfToImageWithMultithreading {

    // 设置DPI用于高质量渲染
    private static final int dpi = 300;

    public static void main(String[] args) {
        // PDF文件路径
        String pdfFilePath = "path/to/your/large/pdf/vg_doc.pdf";
        // 输出图片文件夹路径
        String outputDir = "path/to/output/images/";

        // 线程池大小（可以根据CPU核心数量或需要并行的任务数进行调整）
        int numThreads = Runtime.getRuntime().availableProcessors();
        ExecutorService executorService = Executors.newFixedThreadPool(numThreads);

        try (PDDocument document = PDDocument.load(new File(pdfFilePath))) {
            PDFRenderer pdfRenderer = new PDFRenderer(document);
            int totalPages = document.getNumberOfPages();
            System.out.println("Total pages: " + totalPages);

            // 为每一页创建一个并行处理任务
            for (int page = 0; page < totalPages; page++) {
                final int currentPage = page;  // 需要用final修饰以便在多线程中使用
                executorService.submit(() -> {
                    try {
                        renderAndSavePage(pdfRenderer, currentPage, outputDir);
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                });
            }
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            // 关闭线程池
            executorService.shutdown();
            try {
                // 等待所有线程任务完成
                if (!executorService.awaitTermination(60, TimeUnit.MINUTES)) {
                    System.err.println("Some tasks did not finish within the timeout.");
                }
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
    }

    /**
     * 渲染PDF页面并保存为图片
     * @param pdfRenderer PDFRenderer实例
     * @param page 页码（从0开始）
     * @param outputDir 输出目录
     * @throws IOException 如果发生IO错误
     */
    private static void renderAndSavePage(PDFRenderer pdfRenderer, int page, String outputDir) throws IOException {
        // 渲染页面为高质量图片
        BufferedImage image = pdfRenderer.renderImageWithDPI(page, dpi);
        
        // 保存图片文件
        String fileName = outputDir + "pdf_page_" + (page + 1) + ".png";
        ImageIO.write(image, "png", new File(fileName));
        System.out.println("Saved page " + (page + 1) + " as image.");
    }
}

来详细解释一下代码和思路

1. 线程池的使用

ExecutorService ：我们使用 Executors.newFixedThreadPool(numThreads) 来创建一个固定大小的线程池，其中 numThreads 是线程的数量。通过 Runtime.getRuntime().availableProcessors() 获取 CPU 核心数作为线程池大小的依据，通常这个值是处理器核心数。
submit() ：将任务提交给线程池，submit() 方法会立即返回，不会阻塞主线程，从而能够让多个页面同时处理。

2. 任务分配

每一页的渲染任务被分配到一个线程中，通过 executorService.submit() 提交渲染任务。每个任务都会调用 renderAndSavePage() 方法，处理特定页面的渲染和保存。

3. 渲染与保存

每个线程使用 renderAndSavePage() 方法渲染指定页码的 PDF，并将生成的图像保存为 PNG 文件。这里使用 ImageIO.write() 来保存渲染结果。
输出的文件名根据页面编号动态生成。

4. 关闭线程池

shutdown() ：主线程在提交所有任务后调用 shutdown() 方法，通知线程池停止接收新的任务。
awaitTermination()：主线程等待所有线程任务完成，这里设置了一个较长的超时时间（60分钟），你要根据实际情况来调整一下，确保所有页都能被处理完毕。

小结一下

通过多线程处理PDF的每一页，能显著缩短处理时间，特别是在处理大文件或大量页数的PDF时。线程池中的任务可以同时在多个CPU核心上运行，最大化利用硬件资源。对于超级大PDF文件或需要处理大量PDF时，可那就得上分布式处理了，每个节点处理一部分页面来解决，这里就不多赘述了。

到此这篇关于如何通过Java实现PDF转高质量图片的文章就介绍到这了,更多相关Java PDF转图片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！