Python 使用 pypdf 按指定页码范围批量拆分 PDF（分章节）-程序员充电站

在处理电子书、扫描书籍或技术文档时，经常会遇到一个需求：

📌按照指定页码范围，把一个 PDF 拆分成多个 PDF 文件（例如按章节拆分）

本文将介绍一种简单、稳定、无需外部依赖的方法，使用 Python 的pypdf库来实现 PDF 的批定页码分割。

一、环境准备

1️⃣ Python 版本

Python3.8+（推荐 3.9 / 3.10 / 3.11）

可用以下命令确认：

python--version

2️⃣ 安装 pypdf

使用 pip 安装最新版pypdf：

pipinstallpypdf

如果你在 Linux / macOS 上，且存在 Python2/3 共存问题，可使用：

pip3installpypdf

安装完成后测试是否成功：

frompypdfimportPdfReader,PdfWriterprint("pypdf installed OK")

二、实现思路说明

🔍 关键点解析

PdfReader：读取原始 PDF
PdfWriter：创建新的 PDF 文件
PDF 页码从 0 开始，而我们日常看到的是从 1 开始
用户只需定义一个页码范围列表即可完成拆分

📌适用场景：

按目录拆书
按章节导出
按页码人工校正后的分割

三、完整 Python 实现代码

frompypdfimportPdfReader,PdfWriterimportosdefsplit_pdf_by_page_ranges(input_pdf,output_folder,ranges):reader=PdfReader(input_pdf)# 创建输出目录ifnotos.path.exists(output_folder):os.makedirs(output_folder)foridx,(start_page,end_page)inenumerate(ranges,1):writer=PdfWriter()# PDF 内部页码从 0 开始，因此要 -1forpage_numinrange(start_page-1,end_page):ifpage_num<len(reader.pages):writer.add_page(reader.pages[page_num])else:print(f"Warning: page{page_num+1}out of range.")output_filename=(f"{output_folder}/chapter_{idx}_pages_{start_page}-{end_page}.pdf")withopen(output_filename,"wb")asoutput_file:writer.write(output_file)print(f"Saved{output_filename}")

四、自定义章节页码范围

你只需要定义一个页码区间列表，格式如下：

# ✏️ 自定义分章节页码（格式：[(开始页, 结束页), ...]）page_ranges=[(1,34),# 序(35,50),# 第一章(51,73),# 第二章(74,93),# 第三章(94,118),# 第四章(119,152),# 第五章(153,166),# 第六章(167,183),# 第七章(184,206),# 第八章(207,230),# 第九章(231,251),# 第十章]

📌注意事项：

页码是PDF 阅读器中看到的页码
不需要关心 0 / 1 的问题，代码已处理
超出 PDF 总页数会自动提示 Warning，不会报错

五、执行拆分

split_pdf_by_page_ranges("input.pdf","./output_manual_split",page_ranges)

执行后目录结构如下：

output_manual_split/ ├── chapter_1_pages_1-34.pdf ├── chapter_2_pages_35-50.pdf ├── chapter_3_pages_51-73.pdf ├── ... └── chapter_11_pages_231-251.pdf

完整代码

frompypdfimportPdfReader,PdfWriterimportosdefsplit_pdf_by_page_ranges(input_pdf,output_folder,ranges):reader=PdfReader(input_pdf)ifnotos.path.exists(output_folder):os.makedirs(output_folder)foridx,(start_page,end_page)inenumerate(ranges,1):writer=PdfWriter()# 页码从 0 开始，用户输入通常是从 1 开始forpage_numinrange(start_page-1,end_page):ifpage_num<len(reader.pages):writer.add_page(reader.pages[page_num])else:print(f"Warning: page{page_num+1}out of range.")output_filename=f"{output_folder}/chapter_{idx}_pages_{start_page}-{end_page}.pdf"withopen(output_filename,"wb")asoutput_file:writer.write(output_file)print(f"Saved{output_filename}")# ✏️ 自定义你的分章节页码（格式：[(开始页, 结束页), ...]）page_ranges=[(1,34),# 序(35,50),# 第一章(51,73),# 第二章(74,93),# 第三章(94,118),# 第四章(119,152),# 第五章(153,166),# 第六章(167,183),# 第七章(184,206),# 第八章(207,230),# 第九章(231,251),# 第十章]# 用法示例split_pdf_by_page_ranges("input.pdf","./output_manual_split",page_ranges)

GLM-TTS支持多种音频格式输入：WAV、MP3等兼容性实测报告

GLM-TTS多音频格式兼容性与零样本语音克隆实战解析在智能语音内容爆发式增长的今天，用户不再满足于千篇一律的“机器音”。从有声书到短视频配音，从虚拟主播到企业客服，市场对个性化、高自然度语音合成的需求正以前所未有的速度攀升。而其中…

李华

AI重塑学术写作方式，9款智能工具全面评测，高效生成开题报告与论文初稿

在毕业论文撰写阶段，高效完成开题报告和正文是学生普遍面临的挑战，传统人工写作方式灵活性高但效率较低，而AI工具能快速生成内容并优化文本重复率与机器痕迹。通过对9款平台的横向评测，可筛选出最适合学术场景的智能辅助工具&…

李华

多因素蚁群算法的移动机器人路径规划研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

李华

城市轨道交通新线开通客流演化分析与运营优化研究

目录 1. 绪论：新线开通——从“物理连接”到“客流融合”的系统工程 2. 多源异构数据融合处理与特征工程 3. 多维度客流深度分析框架 4. 从分析到行动：数据驱动的运营优化与决策支持 5. 案例应用：以“滨海市轨道交通S1线（市域…

李华

使用网盘直链下载助手分享GLM-TTS生成的音频结果

使用网盘直链下载助手分享GLM-TTS生成的音频结果在AI语音内容爆发式增长的今天，一个常见的工程挑战浮出水面：如何让本地生成的高质量语音文件，快速、安全、可追踪地触达团队成员或终端用户？尤其是在使用像 GLM-TTS 这样支持零样本…

李华

PHP容器环境变量加载失败？这6个排查步骤你必须掌握

第一章：PHP容器环境变量加载失败？这6个排查步骤你必须掌握在使用Docker部署PHP应用时，环境变量是配置数据库连接、API密钥等敏感信息的关键方式。然而，当容器启动后PHP代码无法读取预期的环境变量，会导致应用崩溃或功能…

李华