一键部署中文语音识别服务｜科哥版FunASR镜像使用指南-程序员充电站

一键部署中文语音识别服务｜科哥版FunASR镜像使用指南

1. 引言

1.1 背景与需求

随着语音交互技术的普及，中文语音识别在智能客服、会议记录、教育辅助等场景中展现出巨大价值。然而，从零搭建一个高精度、易用性强的语音识别系统往往需要复杂的环境配置和模型调优过程，对开发者的技术门槛较高。

为降低部署成本，提升开发效率，科哥基于 FunASR 框架二次开发了speech_ngram_lm_zh-cn镜像版本，集成 Paraformer-Large 和 SenseVoice-Small 双模型支持，并提供直观的 WebUI 界面，实现“一键启动 + 浏览器操作”的极简体验。

该镜像已在 CSDN 星图平台发布，用户可直接拉取并运行，无需手动安装依赖或下载模型文件，真正实现开箱即用。

1.2 核心优势

✅全中文优化：专为中文语音识别任务定制，支持普通话、粤语等多种语言
✅双模型切换：兼顾高精度（Paraformer-Large）与低延迟（SenseVoice-Small）
✅WebUI 可视化操作：无需编程基础，上传音频或实时录音即可完成识别
✅多格式导出：支持 TXT、JSON、SRT 字幕文件输出，适配视频剪辑、文本分析等下游应用
✅本地化部署：数据不出内网，保障隐私安全

本文将详细介绍如何快速部署该镜像，并通过实际案例演示其使用流程与高级功能。

2. 镜像部署与环境准备

2.1 前置条件

在开始部署前，请确保主机满足以下要求：

项目	推荐配置
操作系统	Ubuntu 20.04 / 22.04 或 CentOS 7+
CPU	Intel i5 及以上
内存	≥ 8GB
GPU（可选）	NVIDIA 显卡（CUDA 支持），显存 ≥ 6GB
存储空间	≥ 20GB（含模型缓存）
Docker	已安装且服务正常运行

提示：若无 GPU，系统将自动降级至 CPU 模式运行，识别速度略有下降但功能完整。

2.2 安装 Docker（如未安装）

# 更新系统包 sudo apt update && sudo apt upgrade -y # 安装必要工具 sudo apt install -y apt-transport-https ca-certificates curl software-properties-common gnupg lsb-release # 添加 Docker GPG 密钥 curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg # 添加官方仓库源 echo "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null # 更新包索引并安装 Docker sudo apt update sudo apt install -y docker-ce docker-ce-cli containerd.io # 启动并设置开机自启 sudo systemctl start docker sudo systemctl enable docker

2.3 拉取并运行科哥版 FunASR 镜像

# 创建模型存储目录 mkdir -p ./funasr-models # 拉取镜像（假设镜像已发布于公开 registry） docker pull registry.cn-hangzhou.aliyuncs.com/kge_repo/funasr-speech_ngram_lm_zh-cn:kge-v1.0 # 启动容器 docker run -d \ --name funasr-webui \ -p 7860:7860 \ -v $PWD/funasr-models:/models \ --gpus all \ # 若无 GPU，请删除此行 registry.cn-hangzhou.aliyuncs.com/kge_repo/funasr-speech_ngram_lm_zh-cn:kge-v1.0

说明： --p 7860:7860映射 WebUI 端口 --v挂载本地目录用于持久化模型和输出结果 ---gpus all启用 GPU 加速（需安装 nvidia-docker）

2.4 访问 WebUI 界面

启动成功后，在浏览器中访问：

http://localhost:7860

或远程访问：

http://<服务器IP>:7860

页面加载完成后，您将看到如下界面：

3. WebUI 功能详解与使用流程

3.1 界面布局概览

整个界面分为左右两大部分：

左侧控制面板：模型选择、设备设置、功能开关
右侧主操作区：音频上传、录音、识别结果展示

头部信息栏

标题：FunASR 语音识别 WebUI
描述：基于 FunASR 的中文语音识别系统
版权信息：webUI二次开发 by 科哥 | 微信：312088415

3.2 控制面板配置

3.2.1 模型选择

模型名称	特点	推荐场景
Paraformer-Large	高精度，适合复杂语境	会议转录、专业术语识别
SenseVoice-Small	快速响应，资源占用低	实时对话、移动端接入

默认选中 SenseVoice-Small，可根据需求切换。

3.2.2 设备选择

CUDA：启用 GPU 加速（推荐有显卡时使用）
CPU：兼容无显卡环境，识别速度较慢

系统会根据硬件自动检测并建议最优选项。

3.2.3 功能开关

✅启用标点恢复 (PUNC)：自动添加句号、逗号等标点符号
✅启用语音活动检测 (VAD)：跳过静音段，提升识别效率
✅输出时间戳：生成每句话的时间区间，便于后期编辑

建议三项全部开启以获得最佳体验。

3.2.4 模型状态与操作按钮

模型状态：显示当前是否已加载模型（✓ 已加载 / ✗ 未加载）
加载模型：手动触发模型加载（首次启动后自动完成）
刷新：更新状态显示

4. 使用方式一：上传音频文件识别

4.1 支持的音频格式

系统支持以下常见格式： - WAV (.wav) - MP3 (.mp3) - M4A (.m4a) - FLAC (.flac) - OGG (.ogg) - PCM (.pcm)

推荐采样率：16kHz，单声道，确保最佳识别效果。

4.2 操作步骤

在 “ASR 语音识别” 区域点击“上传音频”
选择本地音频文件，等待上传完成
设置识别参数：
批量大小（秒）：默认 300 秒（5 分钟），最大支持 600 秒
识别语言：
- auto：自动检测（推荐）
- zh：中文
- en：英文
- yue：粤语
- ja：日语
- ko：韩语
点击“开始识别”按钮
等待处理完成，查看结果

4.3 结果展示（三标签页）

文本结果

显示纯净的识别文本，支持复制粘贴：

你好，欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。

详细信息（JSON）

包含完整结构化数据，如时间戳、置信度、分词结果等：

{ "text": "你好，欢迎使用语音识别系统。", "segments": [ { "id": 0, "start": 0.0, "end": 0.5, "text": "你好", "confidence": 0.98 }, { "id": 1, "start": 0.5, "end": 2.5, "text": "欢迎使用语音识别系统", "confidence": 0.96 } ] }

时间戳

按[序号] 开始时间 - 结束时间 (时长)格式列出：

[001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s)

5. 使用方式二：浏览器实时录音识别

5.1 录音流程

点击“麦克风录音”按钮
浏览器弹出权限请求，点击“允许”
对着麦克风说话
点击“停止录音”结束录制
点击“开始识别”处理录音内容

注意：请确保麦克风工作正常，系统音量设置合理。

5.2 技术原理

前端通过 Web Audio API 获取音频流，编码为 WAV 格式后发送至后端 ASR 服务。服务端采用 VAD 检测有效语音段，结合 N-gram 语言模型进行解码，最终返回带标点的文本结果。

该流程完全在浏览器与本地服务器之间完成，不涉及第三方云服务，保障数据安全性。

6. 输出结果管理与导出

6.1 文件保存路径

所有识别结果统一保存在容器内的outputs/目录下，命名规则为：

outputs/outputs_YYYYMMDDHHMMSS/

例如：

outputs/outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # JSON 格式结果 ├── text_001.txt # 纯文本结果 └── subtitle_001.srt # SRT 字幕文件

由于挂载了本地目录，这些文件可在宿主机$PWD/funasr-models/outputs/中找到。

6.2 下载功能说明

按钮	文件格式	适用场景
下载文本	.txt	文档整理、内容提取
下载 JSON	.json	程序解析、二次开发
下载 SRT	.srt	视频字幕制作、剪辑同步

SRT 示例：

1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统

7. 高级功能与调优建议

7.1 批量大小调整

范围：60 ~ 600 秒
作用：控制每次处理的音频长度
建议：
小于 5 分钟音频：保持默认 300 秒
超长录音（如讲座）：分段上传或设为 600 秒

7.2 语言识别策略

场景	推荐设置
纯中文内容	`zh`
英文演讲	`en`
中英混合	`auto`
粤语访谈	`yue`
日语课程	`ja`

正确选择语言可显著提升识别准确率。

7.3 时间戳应用场景

🎬视频字幕生成：配合 SRT 导出，直接导入 Premiere/Final Cut Pro
🔍音频定位检索：快速跳转到某句话出现的位置
📊教学分析：统计学生发言时段与时长

8. 常见问题与解决方案

问题	原因分析	解决方法
Q1：识别结果不准确	音频质量差、语言设置错误	使用清晰录音，选择正确语言
Q2：识别速度慢	使用 CPU 模式或音频过长	启用 CUDA，分段处理长音频
Q3：无法上传文件	文件过大或格式不支持	控制文件 < 100MB，优先使用 MP3/WAV
Q4：录音无声	未授权麦克风或设备异常	检查浏览器权限，测试系统录音
Q5：结果乱码	编码异常或模型加载失败	重启服务，检查日志输出
Q6：模型未加载	初次启动未完成下载	等待首次初始化完成，勿中断

通用排查命令：
```bash
查看容器日志
docker logs funasr-webui
查看资源占用
docker stats funasr-webui
重启容器
docker restart funasr-webui ```

9. 总结

本文详细介绍了科哥基于 FunASR 二次开发的中文语音识别镜像——FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥的部署与使用全流程。

通过该镜像，用户可以： - 快速部署本地化语音识别服务 - 使用 WebUI 实现零代码操作 - 支持上传文件与实时录音两种模式 - 导出 TXT、JSON、SRT 多种格式结果 - 灵活切换模型与参数以适应不同场景

无论是个人开发者尝试语音技术，还是企业构建私有化语音处理系统，该方案都提供了高效、稳定、安全的选择。

未来可进一步扩展方向包括： - 集成热词增强功能（hotwords.txt） - 支持 WebSocket 接口供第三方调用 - 增加批量处理队列机制

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。