python

关注公众号 jb51net

关闭
首页 > 脚本专栏 > python > Python网页转PDF

基于Python实现一个网页转PDF工具

作者:xcLeigh

本文介绍了 Python 网页转 PDF 工具的开发实战,工具核心需求包括单个 / 批量 URL 转换、自定义 PDF 参数及错误处理,技术选型为 pdfkit、wkhtmltopdf、argparse 和 os 库,文中详细阐述环境搭建步骤,需要的朋友可以参考下

引言

Python小工具实战:网页转PDF工具实现,本文介绍了 Python 网页转 PDF 工具的开发实战。工具核心需求包括单个 / 批量 URL 转换、自定义 PDF 参数及错误处理,技术选型为 pdfkit、wkhtmltopdf、argparse 和 os 库。文中详细阐述环境搭建步骤,包括安装 pdfkit 依赖库与 wkhtmltopdf 工具并配置环境变量;完整呈现工具代码实现,解析参数解析、参数验证、单 URL 转换、批量转换及主函数等模块逻辑;提供命令行使用教程与常见问题解决方案,还给出添加 GUI 界面、PDF 密码保护等扩展方向,帮助读者掌握相关技能并实现高效网页转 PDF 操作。

一、工具需求与技术选型

1.1 工具核心需求

1.2 技术选型

实现网页转PDF的Python库有多种,本文综合考虑易用性、兼容性和功能完整性,选择以下技术栈:

二、环境搭建步骤

2.1 安装Python依赖库

首先确保已安装Python环境(建议Python 3.6及以上版本),然后使用pip命令安装pdfkit库:

pip install pdfkit

2.2 安装wkhtmltopdf工具

pdfkit依赖wkhtmltopdf,需要单独安装并配置环境变量:

安装完成后,打开命令行输入wkhtmltopdf --version,若能显示版本信息,则说明环境配置成功。

三、工具代码实现

3.1 整体代码框架

工具代码主要分为以下几个模块:参数解析模块、单个URL转PDF模块、批量URL转PDF模块、错误处理模块。整体代码如下:

import pdfkit
import argparse
import os

def parse_args():
    """解析命令行参数"""
    parser = argparse.ArgumentParser(description='Python网页转PDF工具')
    # 单个URL参数
    parser.add_argument('-u', '--url', type=str, help='单个网页URL')
    # 批量URL文件参数
    parser.add_argument('-f', '--file', type=str, help='包含多个URL的文本文件路径(每行一个URL)')
    # 保存路径参数
    parser.add_argument('-o', '--output', type=str, default='./output', help='PDF保存目录(默认:./output)')
    # 页面大小参数
    parser.add_argument('-s', '--size', type=str, default='A4', help='PDF页面大小(默认:A4,可选:Letter、Legal等)')
    # 页面方向参数
    parser.add_argument('-O', '--orientation', type=str, default='Portrait', help='页面方向(默认:Portrait纵向,可选:Landscape横向)')
    args = parser.parse_args()
    return args

def validate_args(args):
    """验证命令行参数合法性"""
    if not args.url and not args.file:
        raise ValueError('必须指定单个URL(-u/--url)或URL文件(-f/--file)')
    # 检查保存目录是否存在,不存在则创建
    if not os.path.exists(args.output):
        os.makedirs(args.output)
    # 检查页面大小和方向是否合法
    valid_sizes = ['A4', 'Letter', 'Legal', 'A3', 'A5']
    valid_orientations = ['Portrait', 'Landscape']
    if args.size not in valid_sizes:
        raise ValueError(f'无效的页面大小,可选值:{valid_sizes}')
    if args.orientation not in valid_orientations:
        raise ValueError(f'无效的页面方向,可选值:{valid_orientations}')

def url_to_pdf(url, output_path, page_size, orientation):
    """将单个URL转换为PDF"""
    # 生成PDF文件名(从URL中提取关键信息)
    pdf_name = url.replace('http://', '').replace('https://', '').replace('/', '_').replace(':', '_') + '.pdf'
    pdf_path = os.path.join(output_path, pdf_name)
    
    # 配置pdfkit选项
    options = {
        'page-size': page_size,
        'orientation': orientation,
        'margin-top': '0.75in',
        'margin-right': '0.75in',
        'margin-bottom': '0.75in',
        'margin-left': '0.75in',
        'encoding': "UTF-8",
        'no-outline': None
    }
    
    try:
        print(f'正在转换:{url}')
        pdfkit.from_url(url, pdf_path, options=options)
        print(f'转换成功,保存路径:{pdf_path}')
    except Exception as e:
        raise RuntimeError(f'转换URL {url} 失败:{str(e)}')

def batch_url_to_pdf(file_path, output_path, page_size, orientation):
    """从文本文件批量转换URL为PDF"""
    if not os.path.exists(file_path):
        raise FileNotFoundError(f'URL文件不存在:{file_path}')
    
    with open(file_path, 'r', encoding='utf-8') as f:
        urls = [line.strip() for line in f if line.strip()]
    
    if not urls:
        raise ValueError('URL文件中无有效URL')
    
    print(f'共读取到 {len(urls)} 个URL,开始批量转换...')
    for idx, url in enumerate(urls, 1):
        print(f'[{idx}/{len(urls)}]', end=' ')
        try:
            url_to_pdf(url, output_path, page_size, orientation)
        except Exception as e:
            print(f'转换失败:{str(e)}')

def main():
    try:
        # 解析并验证参数
        args = parse_args()
        validate_args(args)
        
        # 执行转换逻辑
        if args.url:
            url_to_pdf(args.url, args.output, args.size, args.orientation)
        if args.file:
            batch_url_to_pdf(args.file, args.output, args.size, args.orientation)
    except Exception as e:
        print(f'工具执行失败:{str(e)}')

if __name__ == '__main__':
    main()

运行效果:

PDF效果:

3.2 代码模块详细解释

3.2.1 参数解析模块(parse_args函数)

使用argparse模块定义工具的命令行参数,包括:

3.2.2 参数验证模块(validate_args函数)

对用户输入的参数进行合法性检查,确保工具能正常运行:

3.2.3 单个URL转换模块(url_to_pdf函数)

核心功能模块,负责将单个URL转换为PDF:

3.2.4 批量转换模块(batch_url_to_pdf函数)

实现从文本文件批量转换URL的功能:

3.2.5 主函数(main函数)

工具的入口函数,负责串联各个模块:

四、工具使用教程

4.1 命令行使用语法

工具通过命令行运行,基本语法如下:

python web_to_pdf.py [参数]

4.2 常用功能示例

4.2.1 单个URL转换

将百度首页转换为A4纵向PDF,保存到默认output目录:

python web_to_pdf.py -u https://www.baidu.com

将CSDN首页转换为Letter横向PDF,保存到D盘的pdf文件夹:

python web_to_pdf.py -u https://www.csdn.net -s Letter -O Landscape -o D:/pdf

4.2.2 批量URL转换

首先创建一个文本文件(如urls.txt),每行写入一个URL:

https://www.baidu.com
https://www.csdn.net
https://www.github.com

然后执行批量转换命令,将所有URL转换为A4纵向PDF,保存到./batch_output目录:

python web_to_pdf.py -f urls.txt -o ./batch_output

4.3 查看帮助信息

若忘记参数用法,可通过以下命令查看工具帮助信息:

python web_to_pdf.py -h

输出结果如下:

usage: web_to_pdf.py [-h] [-u URL] [-f FILE] [-o OUTPUT] [-s SIZE] [-O ORIENTATION]

Python网页转PDF工具

optional arguments:
  -h, --help            show this help message and exit
  -u URL, --url URL     单个网页URL
  -f FILE, --file FILE  包含多个URL的文本文件路径(每行一个URL)
  -o OUTPUT, --output OUTPUT
                        PDF保存目录(默认:./output)
  -s SIZE, --size SIZE  PDF页面大小(默认:A4,可选:Letter、Legal等)
  -O ORIENTATION, --orientation ORIENTATION
                        页面方向(默认:Portrait纵向,可选:Landscape横向)

五、常见问题与解决方案

5.1 “No wkhtmltopdf executable found”错误

原因:系统未安装wkhtmltopdf,或未将其安装目录添加到环境变量PATH中。

解决方案:参考本文“二、环境搭建步骤”重新安装wkhtmltopdf,并确保环境变量配置正确。Windows系统需重启命令行或电脑使环境变量生效。

5.2 转换后的PDF内容乱码

原因:网页编码不是UTF-8,或pdfkit未正确设置编码。

解决方案:在pdfkit的options中确保设置了'encoding': "UTF-8"。若仍乱码,可尝试查看网页的实际编码(如GBK),并修改encoding参数为对应编码。

5.3 网络连接失败或URL无效

原因:输入的URL错误、网络不稳定或网页无法访问。

解决方案:检查URL是否正确(确保包含http://或https://),测试网络连接,确认网页能正常打开。

六、工具扩展方向

本工具实现了基础的网页转PDF功能,你可以根据需求进一步扩展:

七、总结

本文通过Python的pdfkit库和wkhtmltopdf工具,实现了一个功能实用的网页转PDF工具,涵盖了单URL转换、批量转换、自定义参数等核心功能,并详细解释了代码逻辑和使用方法。通过这个实战项目,你不仅掌握了网页转PDF的技术要点,还学习了命令行参数解析、错误处理、文件操作等Python常用技能。

你可以根据自己的需求对工具进行扩展和优化,将其应用到实际工作中,提高效率。如果在使用过程中遇到问题,欢迎在评论区留言交流!

以上就是基于Python实现一个网页转PDF工具的详细内容,更多关于Python网页转PDF的资料请关注脚本之家其它相关文章!

您可能感兴趣的文章:
阅读全文