news 2026/4/17 17:39:48

Python 使用 pypdf 按指定页码范围批量拆分 PDF(分章节)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Python 使用 pypdf 按指定页码范围批量拆分 PDF(分章节)

在处理电子书、扫描书籍或技术文档时,经常会遇到一个需求:

📌按照指定页码范围,把一个 PDF 拆分成多个 PDF 文件(例如按章节拆分)

本文将介绍一种简单、稳定、无需外部依赖的方法,使用 Python 的pypdf库来实现 PDF 的批定页码分割


一、环境准备

1️⃣ Python 版本

  • Python3.8+(推荐 3.9 / 3.10 / 3.11)

可用以下命令确认:

python--version

2️⃣ 安装 pypdf

使用 pip 安装最新版pypdf

pipinstallpypdf

如果你在 Linux / macOS 上,且存在 Python2/3 共存问题,可使用:

pip3installpypdf

安装完成后测试是否成功:

frompypdfimportPdfReader,PdfWriterprint("pypdf installed OK")

二、实现思路说明

🔍 关键点解析

  • PdfReader:读取原始 PDF
  • PdfWriter:创建新的 PDF 文件
  • PDF 页码从 0 开始,而我们日常看到的是从 1 开始
  • 用户只需定义一个页码范围列表即可完成拆分

📌适用场景

  • 按目录拆书
  • 按章节导出
  • 按页码人工校正后的分割

三、完整 Python 实现代码

frompypdfimportPdfReader,PdfWriterimportosdefsplit_pdf_by_page_ranges(input_pdf,output_folder,ranges):reader=PdfReader(input_pdf)# 创建输出目录ifnotos.path.exists(output_folder):os.makedirs(output_folder)foridx,(start_page,end_page)inenumerate(ranges,1):writer=PdfWriter()# PDF 内部页码从 0 开始,因此要 -1forpage_numinrange(start_page-1,end_page):ifpage_num<len(reader.pages):writer.add_page(reader.pages[page_num])else:print(f"Warning: page{page_num+1}out of range.")output_filename=(f"{output_folder}/chapter_{idx}_pages_{start_page}-{end_page}.pdf")withopen(output_filename,"wb")asoutput_file:writer.write(output_file)print(f"Saved{output_filename}")

四、自定义章节页码范围

你只需要定义一个页码区间列表,格式如下:

# ✏️ 自定义分章节页码(格式:[(开始页, 结束页), ...])page_ranges=[(1,34),# 序(35,50),# 第一章(51,73),# 第二章(74,93),# 第三章(94,118),# 第四章(119,152),# 第五章(153,166),# 第六章(167,183),# 第七章(184,206),# 第八章(207,230),# 第九章(231,251),# 第十章]

📌注意事项

  • 页码是PDF 阅读器中看到的页码
  • 不需要关心 0 / 1 的问题,代码已处理
  • 超出 PDF 总页数会自动提示 Warning,不会报错

五、执行拆分

split_pdf_by_page_ranges("input.pdf","./output_manual_split",page_ranges)

执行后目录结构如下:

output_manual_split/ ├── chapter_1_pages_1-34.pdf ├── chapter_2_pages_35-50.pdf ├── chapter_3_pages_51-73.pdf ├── ... └── chapter_11_pages_231-251.pdf

完整代码

frompypdfimportPdfReader,PdfWriterimportosdefsplit_pdf_by_page_ranges(input_pdf,output_folder,ranges):reader=PdfReader(input_pdf)ifnotos.path.exists(output_folder):os.makedirs(output_folder)foridx,(start_page,end_page)inenumerate(ranges,1):writer=PdfWriter()# 页码从 0 开始,用户输入通常是从 1 开始forpage_numinrange(start_page-1,end_page):ifpage_num<len(reader.pages):writer.add_page(reader.pages[page_num])else:print(f"Warning: page{page_num+1}out of range.")output_filename=f"{output_folder}/chapter_{idx}_pages_{start_page}-{end_page}.pdf"withopen(output_filename,"wb")asoutput_file:writer.write(output_file)print(f"Saved{output_filename}")# ✏️ 自定义你的分章节页码(格式:[(开始页, 结束页), ...])page_ranges=[(1,34),# 序(35,50),# 第一章(51,73),# 第二章(74,93),# 第三章(94,118),# 第四章(119,152),# 第五章(153,166),# 第六章(167,183),# 第七章(184,206),# 第八章(207,230),# 第九章(231,251),# 第十章]# 用法示例split_pdf_by_page_ranges("input.pdf","./output_manual_split",page_ranges)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 16:37:21

GLM-TTS支持多种音频格式输入:WAV、MP3等兼容性实测报告

GLM-TTS多音频格式兼容性与零样本语音克隆实战解析 在智能语音内容爆发式增长的今天&#xff0c;用户不再满足于千篇一律的“机器音”。从有声书到短视频配音&#xff0c;从虚拟主播到企业客服&#xff0c;市场对个性化、高自然度语音合成的需求正以前所未有的速度攀升。而其中…

作者头像 李华
网站建设 2026/4/18 5:10:02

多因素蚁群算法的移动机器人路径规划研究附Matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。&#x1f34e; 往期回顾关注个人主页&#xff1a;Matlab科研工作室&#x1f34a;个人信条&#xff1a;格物致知,完整Matlab代码及仿真咨询…

作者头像 李华
网站建设 2026/4/18 5:06:34

城市轨道交通新线开通客流演化分析与运营优化研究

目录 1. 绪论&#xff1a;新线开通——从“物理连接”到“客流融合”的系统工程 2. 多源异构数据融合处理与特征工程 3. 多维度客流深度分析框架 4. 从分析到行动&#xff1a;数据驱动的运营优化与决策支持 5. 案例应用&#xff1a;以“滨海市轨道交通S1线&#xff08;市域…

作者头像 李华
网站建设 2026/4/18 4:48:33

使用网盘直链下载助手分享GLM-TTS生成的音频结果

使用网盘直链下载助手分享GLM-TTS生成的音频结果 在AI语音内容爆发式增长的今天&#xff0c;一个常见的工程挑战浮出水面&#xff1a;如何让本地生成的高质量语音文件&#xff0c;快速、安全、可追踪地触达团队成员或终端用户&#xff1f;尤其是在使用像 GLM-TTS 这样支持零样本…

作者头像 李华
网站建设 2026/4/17 16:44:03

PHP容器环境变量加载失败?这6个排查步骤你必须掌握

第一章&#xff1a;PHP容器环境变量加载失败&#xff1f;这6个排查步骤你必须掌握在使用Docker部署PHP应用时&#xff0c;环境变量是配置数据库连接、API密钥等敏感信息的关键方式。然而&#xff0c;当容器启动后PHP代码无法读取预期的环境变量&#xff0c;会导致应用崩溃或功能…

作者头像 李华