从零部署DeepSeek-OCR-WEBUI｜手把手实现网页端OCR推理-程序员充电站

从零部署DeepSeek-OCR-WEBUI｜手把手实现网页端OCR推理

1. 准备工作：环境与依赖一览

在开始部署之前，先明确整个流程的最终目标：通过 Docker 一键启动 DeepSeek-OCR-WEBUI，实现本地化、可视化的网页端 OCR 文字识别服务。这个系统基于 DeepSeek 开源的大模型，支持多语言、高精度文本提取，尤其擅长中文复杂场景下的识别任务。

我们将在 Ubuntu 24.04 Server 系统上完成全部操作，使用 NVIDIA GPU 加速推理，并通过 WebUI 提供图形化交互界面。整个过程无需手动编译模型或配置复杂环境，只需按步骤执行即可。

1.1 系统与硬件要求

以下是推荐的最低配置：

组件	要求
操作系统	Ubuntu 24.04 LTS（Server 版本）
CPU	双核以上
内存	8GB 以上（建议 16GB）
存储	50GB 以上可用空间（用于镜像和模型缓存）
GPU	NVIDIA 显卡（显存 ≥ 8GB，驱动版本 ≥ 580.82）
网络	能访问 GitHub 和 ModelScope（国内用户建议有稳定网络）

特别提醒：如果你使用的是云服务器，请确保已开通 GPU 实例并正确挂载显卡驱动。

2. 基础环境搭建

2.1 安装 Docker

Docker 是本次部署的核心工具，它能将所有依赖打包成一个可移植的容器，避免“在我机器上能跑”的问题。

# 更新软件包索引 sudo apt-get update # 安装必要工具 sudo apt-get install -y apt-transport-https ca-certificates curl software-properties-common # 添加 Docker 官方 GPG 密钥 curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add - # 添加 Docker 仓库 sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" # 再次更新 sudo apt-get update # 安装 Docker CE sudo apt-get install -y docker-ce # 验证安装 sudo docker --version

安装完成后，建议将当前用户加入docker用户组，避免每次都要用sudo：

sudo usermod -aG docker ${USER}

执行完这行命令后，请退出 SSH 并重新登录，使权限生效。

2.2 配置 Docker 数据目录（可选但推荐）

默认情况下，Docker 镜像和容器数据会存储在系统盘/var/lib/docker，容易导致磁盘爆满。我们可以将其迁移到其他分区（如/data）：

sudo mkdir -p /data/docker sudo tee /etc/docker/daemon.json <<-'EOF' { "data-root": "/data/docker", "exec-opts":["native.cgroupdriver=systemd"], "log-driver":"json-file", "log-opts": {"max-size":"100m", "max-file":"3"} } EOF # 重启 Docker 生效配置 sudo systemctl daemon-reload sudo systemctl restart docker sudo systemctl enable docker

3. GPU 支持配置：让容器跑起来更快

DeepSeek-OCR 是计算密集型应用，必须借助 GPU 才能高效运行。而 Docker 默认无法直接调用 GPU，需要安装NVIDIA Container Toolkit。

3.1 检查 NVIDIA 驱动状态

首先确认你的 GPU 驱动是否正常：

nvidia-smi

如果能看到 GPU 型号、驱动版本和显存信息，说明驱动已就绪。若提示命令未找到，则需先安装官方驱动。

如果你看到类似 nouveau 的开源驱动正在运行，需要先禁用它，否则会与 NVIDIA 专有驱动冲突。

关闭 nouveau 驱动：

echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf echo "options nouveau modeset=0" | sudo tee -a /etc/modprobe.d/blacklist-nouveau.conf sudo update-initramfs -u sudo reboot

重启后再次执行nvidia-smi，应能正常显示 GPU 信息。

3.2 安装 NVIDIA Container Toolkit

这是让 Docker 容器访问 GPU 的关键组件。

# 添加 NVIDIA 软件源 curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \ && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \ sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \ sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list # 启用 experimental 源（可选） sudo sed -i -e '/experimental/ s/^#//g' /etc/apt/sources.list.d/nvidia-container-toolkit.list # 安装 toolkit sudo apt-get update sudo apt-get install -y nvidia-container-toolkit

3.3 配置 Docker 使用 NVIDIA 运行时

sudo nvidia-ctk runtime configure --runtime=docker sudo systemctl restart docker

3.4 测试 GPU 是否可在容器中使用

docker run --rm --gpus all nvidia/cuda:13.0.1-runtime-ubuntu22.04 nvidia-smi

如果输出了与宿主机一致的 GPU 信息，恭喜！你的 Docker 已经具备 GPU 推理能力。

4. 部署 DeepSeek-OCR-WEBUI 服务

现在进入正题——部署 WebUI 服务。

4.1 克隆项目代码

git clone https://github.com/neosun100/DeepSeek-OCR-WebUI.git cd DeepSeek-OCR-WebUI

该项目已经内置了docker-compose.yml文件，我们只需要一条命令就能启动整个服务。

4.2 构建并启动容器

docker compose up -d

首次运行会自动拉取镜像并下载模型文件，耗时较长（取决于网络速度），请耐心等待。

你可以通过以下命令查看服务状态：

docker compose ps

正常输出如下：

NAME STATUS PORTS deepseek-ocr-webui Up 2 minutes (health: starting) 6006/tcp, 8888/tcp, 0.0.0.0:8001->8001/tcp

其中0.0.0.0:8001->8001/tcp表示 WebUI 已映射到主机的 8001 端口。

4.3 查看日志以确认启动进度

docker logs -f deepseek-ocr-webui

首次启动时，你会看到大量日志，主要是从 HuggingFace 或 ModelScope 下载模型的过程。由于国内访问 HuggingFace 不稳定，项目已配置自动切换至ModelScope（阿里云魔搭平台），确保模型顺利加载。

模型文件会被缓存到~/DeepSeek-OCR-WebUI/models/目录下，后续重启无需重复下载。

5. 访问 WebUI 界面并体验 OCR 功能

当docker logs中不再频繁打印下载日志，且出现类似Uvicorn running on http://0.0.0.0:8001的提示时，说明服务已准备就绪。

打开浏览器，访问：

http://<你的服务器IP>:8001

例如：

http://172.16.17.113:8001

你应该能看到一个现代化的渐变风格网页界面，支持多种 OCR 模式。

5.1 主要功能入口说明

地址	功能
`http://<IP>:8001`	WebUI 主页面，上传图片进行 OCR
`http://<IP>:8001/docs`	API 文档（Swagger UI），可用于集成开发
`http://<IP>:8001/health`	健康检查接口，返回`{"status": "ok"}`

5.2 支持的 7 种识别模式

该 WebUI 提供了丰富的识别选项，满足不同场景需求：

模式	适用场景
文档转Markdown	将合同、论文等结构化文档转为带格式的 Markdown
通用OCR	提取图片中所有可见文字，适合普通截图
纯文本提取	仅输出原始文本内容，不保留布局
图表解析	识别表格、数学公式、流程图等内容
图像描述	生成对图片的整体语义描述
查找定位	输入关键词，自动标注其在图中的位置
自定义提示	自定义识别指令，如“只提取发票金额”

示例：上传一张发票截图，选择“查找定位”，输入“金额”，系统会用红色框标出对应区域，并返回具体数值。

6. 高级操作与维护命令

以下是日常使用中常用的 Docker 管理命令，建议收藏备用。

6.1 常用控制命令

# 查看容器状态 docker compose ps # 查看实时日志 docker logs -f deepseek-ocr-webui # 重启服务（代码更新后） docker restart deepseek-ocr-webui # 完全重启（重新加载配置） docker compose restart # 停止服务 docker compose down # 重新构建镜像并启动（修改 Dockerfile 后） docker compose up -d --build

6.2 监控资源使用情况

# 实时监控 GPU 占用 watch -n 1 nvidia-smi # 查看容器资源消耗（CPU、内存） docker stats deepseek-ocr-webui

6.3 模型缓存路径说明

所有模型文件均保存在：

~/DeepSeek-OCR-WebUI/models/

该目录包含：

deepseek-ai/DeepSeek-OCR：主模型权重
tokenizer：分词器文件
processor：预处理组件

这些文件只会下载一次，后续启动直接加载，大幅提升响应速度。

7. 常见问题与解决方案

7.1 启动失败：`no such device: nvidia`

原因：Docker 未正确配置 NVIDIA 运行时。

解决方法：

确认nvidia-smi能正常运行
检查是否安装了nvidia-container-toolkit
执行sudo nvidia-ctk runtime configure --runtime=docker
重启 Docker 服务

7.2 模型下载慢或失败

原因：HuggingFace 国内访问不稳定。

解决方案：

项目已内置 ModelScope 自动切换机制，无需干预
若仍失败，可手动下载模型并放置到models/目录
或设置代理（需自行配置容器内网络）

7.3 页面打不开，但容器显示运行中

检查点：

防火墙是否开放 8001 端口？
```
sudo ufw allow 8001
```
云服务器安全组是否放行？
是否用了错误的 IP 地址？建议使用ip a查看局域网 IP

7.4 如何升级到最新版本？

# 进入项目目录 cd DeepSeek-OCR-WebUI # 拉取最新代码 git pull # 重建服务 docker compose down docker compose up -d --build

8. 总结：为什么你应该尝试 DeepSeek-OCR-WEBUI

经过以上步骤，你现在拥有了一个功能完整、界面友好、性能强劲的本地 OCR 服务。相比市面上许多收费 OCR 工具，DeepSeek-OCR-WEBUI 的优势非常明显：

完全免费开源：无任何使用限制，可自由部署在私有环境
中文识别超强：针对中文排版、字体、模糊场景做了专项优化
多模态能力强：不仅能识字，还能理解图表、定位字段、生成描述
易于集成：提供标准 API 接口，可接入自动化办公、票据处理等系统
轻量高效：基于 vLLM 和 Transformers 构建，GPU 利用率高，响应快

无论是个人用来提取 PDF 文字，还是企业用于自动化处理合同、发票、报表，这套方案都能显著提升效率，降低人工成本。

更重要的是，你掌握了从零搭建 AI 服务的能力——这正是未来每一个技术人必备的核心技能。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

从零部署DeepSeek-OCR-WEBUI｜手把手实现网页端OCR推理