news 2026/4/17 16:50:53

从PDF中提取Excel,这个工具真的好用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从PDF中提取Excel,这个工具真的好用

因为工作原因,我每天都要接触大量的数据报表,PDF转Excel这种格式转换场景也非常多。

目前市场上有很多pdf工具,大部分是阅读类,也有支持对pdf的修改、转换等功能,但这部分工具不少是收费的。

这次介绍一个开源python工具库-pdfplumber,可以方便地获取pdf的各种信息,包括文本、表格、图表、尺寸等。

python中有很多库可以处理pdf,比如PyPDF2、pdfminer等,那pdfplumber的优势在哪呢?

首先,pdfplumber能轻松访问有关PDF对象的所有详细信息,且用于提取文本和表格的方法高级可定制,使用者可根据表格的具体形式来调整参数。

最关键的是pdfplumber作者持续在维护该库,而同样受欢迎的PyPDF2已经不再维护了。

同其他python库一样,pdfplumber支持使用pip安装,在命令行输入

pip install pdfplumber

如果遇到安装慢的问题,可以替换镜像源,会快很多。

pdfplumber安装后,用import导入即可使用。

再看下如何用pdfplumber提取pdf表格?

以NBA 2020-2021 常规赛数据作为范例,pdf表格如下:

第一步:使用pdfplumber提取表格文本

# 导入pdfplumber import pdfplumber # 读取pdf文件,保存为pdf实例 pdf = pdfplumber.open("E:\\nba.pdf") # 访问第二页 first_page = pdf.pages[1] # 自动读取表格信息,返回列表 table = first_page.extract_table()

输出:

第二步:整理成dataframe格式,保存为excel

import pandas as pd # 将列表转为df table_df = pd.DataFrame(table_2[1:],columns=table_2[0]) # 保存excel table_df.to_excel('test.xlsx') table_df

一个小小的脚本,不到十行代码,便将pdf表格提取并转化为dataframe格式,最终保存到excel。

可见pdfplumber处理PDF表格数据还是蛮方便的,而且比较准确。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 3:53:33

【计算机毕业设计案例】基于springboot+微信小程序的城镇职工基本医保云上管理系统(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/18 3:52:18

【课程设计/毕业设计】基于协同过滤算法的彩妆商城系统的设计与实现基于springboot+协同过滤算法的美妆护理类的购物平台小程序【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/18 3:51:49

小程序毕设项目:基于springboot+微信小程序的多平台的博物馆预约系统的设计与实现(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/18 3:50:03

STM32F0实战:基于HAL库开发【1.4】

2.3.4 查看项目属性 使用STM32CubeMX软件的优点不仅在于可以快速建立开发项目,还在于可以同步地完成项目的相关设置,要知道这些设置是使用MDK-ARM软件新建开发项目所必需的。以下我们就通过查看项目属性的方法来感受一下STM32CubeMX软件在生成开发项目时都自动完成了哪些设置…

作者头像 李华