news 2026/4/18 10:45:52

[Python] 使用 Tesseract 实现 OCR 文字识别全流程指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[Python] 使用 Tesseract 实现 OCR 文字识别全流程指南

在图像处理、文档数字化、发票识别等场景中,OCR(Optical Character Recognition,光学字符识别)技术应用广泛。而在 Python 中,借助开源工具Tesseract,我们可以快速构建强大的文字识别系统。

本文将手把手带你了解如何使用 Python 与 Tesseract 配合进行 OCR 文字识别,从环境搭建、基本使用、识别优化,到多语言支持与图像预处理策略,全面覆盖开发所需知识点。


一、什么是 Tesseract?

Tesseract 是由 Google 维护的开源 OCR 引擎,具备如下特点:

  • 支持 100 多种语言

  • 支持垂直文本、右到左文字(如阿拉伯文、日文)

  • 可训练自定义字体模型

  • 在多种平台上表现优秀(Windows/Linux/Mac)

它本身是一个命令行工具,但通过 Python 的pytesseract包,我们可以非常方便地调用它。


二、环境准备

1. 安装 Tesseract

Windows
  1. 前往 https://github.com/UB-Mannheim/tesseract/wiki 下载对应版本

  2. 安装后记下安装路径(如:C:\Program Files\Tesseract-OCR\tesseract.exe

macOS
brew install tesseract
Linux (Debian/Ubuntu)
sudo apt update sudo apt install tesseract-ocr

2. 安装 Python 依赖

pip install pytesseract pillow opencv-python

三、基本识别示例

以下是一个最基础的图像文字识别示例:

from PIL import Image import pytesseract # Windows 特别注意路径 pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' img = Image.open('example.png') text = pytesseract.image_to_string(img, lang='eng') print(text)

如果是 Linux/macOS 系统,可以省略tesseract_cmd设置。


四、支持中文 OCR

默认的 Tesseract 安装中可能未包含中文支持。你需要额外安装语言包:

# Ubuntu 系统 sudo apt install tesseract-ocr-chi-sim # Windows 可通过官网下载 chi_sim.traineddata 文件放入 tessdata 目录

识别中文示例:

text = pytesseract.image_to_string(img, lang='chi_sim')

五、图像预处理优化识别效果

OCR 的识别效果很大程度依赖于图像质量,下面是常见预处理方法:

import cv2 # 加载图像 img = cv2.imread('example.png') # 转为灰度图 gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 二值化处理 _, thresh = cv2.threshold(gray, 150, 255, cv2.THRESH_BINARY) # 去噪(可选) blur = cv2.medianBlur(thresh, 3) # OCR 识别 text = pytesseract.image_to_string(blur, lang='chi_sim') print(text)

六、识别区域与数据提取

有时候我们不需要整张图的文字,而是某个区域或字段(如身份证号码、发票编号)。

使用裁剪识别

box = (100, 200, 400, 250) # x1, y1, x2, y2 cropped = img.crop(box) text = pytesseract.image_to_string(cropped, lang='eng')

获取位置信息

data = pytesseract.image_to_data(img, lang='eng', output_type=pytesseract.Output.DICT) for i in range(len(data['text'])): if int(data['conf'][i]) > 60: # 置信度过滤 print(f"Word: {data['text'][i]}, Pos: ({data['left'][i]}, {data['top'][i]})")

七、常见问题与优化建议

问题原因解决方案
识别结果乱码字体不清晰 / 语言包缺失安装正确语言包,增强对比度
中文识别效果差图像质量不高灰度+二值化预处理
边框或水印干扰识别噪声过多尝试裁剪目标区域

八、进阶:批量识别、PDF、表格结构识别

批量识别文件夹图片

import os for file in os.listdir('images'): img_path = os.path.join('images', file) text = pytesseract.image_to_string(Image.open(img_path), lang='eng') print(f'{file}:\n{text}\n')

PDF OCR(需安装pdf2image

pip install pdf2image sudo apt install poppler-utils # Linux
from pdf2image import convert_from_path pages = convert_from_path('document.pdf') for i, page in enumerate(pages): text = pytesseract.image_to_string(page, lang='chi_sim') print(f'Page {i+1}:\n{text}\n')

总结

通过 Python + Tesseract,我们可以构建出灵活、可扩展的 OCR 系统。掌握图像预处理、语言包配置、区域提取等技巧,将显著提升识别精度与实用性。

如果你在 Tesseract 使用中遇到实际问题,欢迎评论区交流或私信讨论。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 21:56:34

Langchain-Chatchat如何设置用户访问频率限制?

Langchain-Chatchat 如何设置用户访问频率限制? 在企业级 AI 应用日益普及的今天,本地知识库问答系统正成为组织内部信息高效流转的核心工具。Langchain-Chatchat 作为开源领域中最具代表性的私有化部署方案之一,凭借其对 TXT、PDF、Word 等多…

作者头像 李华
网站建设 2026/4/16 13:28:10

68、系统配置维护全攻略

系统配置维护全攻略 1. 系统属性对话框简介 作为日常维护的一部分,你应该定期检查计算机的核心配置。通过系统属性对话框,你可以控制计算机的许多核心配置属性,用于管理计算机的网络身份、环境变量、用户配置文件等设置。系统属性对话框有五个选项卡: - 计算机名 - 硬件…

作者头像 李华
网站建设 2026/4/17 16:44:07

73、Windows 7 系统故障恢复与维护全攻略

Windows 7 系统故障恢复与维护全攻略 1. 恢复文件旧版本 在处理文件时,可能会遇到需要恢复旧版本的情况。有以下几种操作方式: - 打开 :选择打开所选的先前版本,打开文件后可以确认是否为想要恢复的版本。 - 复制 :创建所选先前版本的副本,这样可以同时保留当前版…

作者头像 李华
网站建设 2026/4/18 10:05:45

90、Web Hosting与Printing系统全解析

Web Hosting与Printing系统全解析 1. Web Hosting相关内容 在Web Hosting领域,当我们需要在提供基于Web邮件服务的Microsoft Outlook Web Access (OWA)服务器前插入一个UNIX DMZ系统时,需要进行反向代理配置。以下是配置示例: <Location /rpc> ProxyPass https://…

作者头像 李华
网站建设 2026/4/18 8:53:50

97、多种操作系统的虚拟化技术详解

多种操作系统的虚拟化技术详解 1. Ubuntu 服务器虚拟机安装 在 KVM 环境下安装 Ubuntu 服务器虚拟机时,为了充分利用其加速功能,建议使用 --accelerate 参数。以下是从 CD - ROM 安装 Ubuntu 服务器虚拟机的完整命令示例: ubuntu$ sudo virt-install --connect qemu:/…

作者头像 李华
网站建设 2026/4/18 8:41:34

98、虚拟化与云计算:VMware 与 Amazon Web Services 深度解析

虚拟化与云计算:VMware 与 Amazon Web Services 深度解析 1. VMware:虚拟化行业的领军者 VMware 在前沿虚拟化行业中占据着主导地位,它是首个开发出对复杂 x86 平台进行虚拟化技术的厂商。VMware 攻克了 17 条曾阻碍虚拟化普及的指令难题,1999 年 VMware Workstation 产品…

作者头像 李华