MinerU 系列教程 第二十二篇
本篇教程作为模块八:实战篇 - 集成与高级用法的第一课,将系统讲解如何通过 Python 代码编程式调用 MinerU 的文档解析能力。前面的课程中,我们已经掌握了 CLI 命令行和 FastAPI 服务两种使用方式。本课将以
demo/demo.py为起点,深入拆解api_client.py中的 SDK 核心组件,帮助你将 MinerU 无缝集成到自己的 Python 项目中。
学习目标
完成本课学习后,你将能够:
- 使用
demo/demo.py中的run_demo()函数快速完成编程式文档解析 - 理解
LocalAPIServer的自动启停机制与生命周期管理 - 掌握通过
api_client.py进行任务提交、状态轮询、结果下载的完整流程 - 合理配置 HTTP 超时参数以应对不同规模的文档
- 编写批量处理、自定义后处理、结果过滤等实战场景的代码
一、SDK 架构概览
MinerU 的 Python SDK 并非传统意义上的"函数调用"封装,而是采用了内嵌 API 服务的架构模式:
<