从零构建语音识别服务｜科哥FunASR镜像与WebUI使用指南-程序员充电站

从零构建语音识别服务｜科哥FunASR镜像与WebUI使用指南

1. 快速入门：部署与访问

1.1 镜像简介

本指南基于由开发者“科哥”二次开发的FunASR 语音识别镜像，该镜像在原始speech_ngram_lm_zh-cn模型基础上进行了功能增强和 WebUI 封装，支持中文高精度语音识别、标点恢复、时间戳输出及多格式导出。适用于本地部署、离线识别、字幕生成等场景。

镜像名称：FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥
核心技术：Paraformer-Large / SenseVoice-Small ASR 模型
运行环境：Docker + GPU/CPU 支持（CUDA 可选）
开源承诺：永久免费，保留版权信息

1.2 启动服务

确保已安装 Docker 环境后，执行以下命令拉取并启动镜像：

# 拉取镜像（示例，请根据实际仓库地址替换） docker pull your-repo/funasr-webui:koge-v1 # 启动容器 docker run -d \ --name funasr-webui \ -p 7860:7860 \ --gpus all \ # 若使用GPU -v ./outputs:/app/outputs \ your-repo/funasr-webui:koge-v1

⚠️ 注意：若无 NVIDIA 显卡支持，请移除--gpus all参数以 CPU 模式运行。

1.3 访问 WebUI

服务启动成功后，打开浏览器访问：

http://localhost:7860

或从远程设备访问：

http://<服务器IP>:7860

页面加载完成后将显示如下界面：

2. WebUI 界面详解

2.1 头部区域

标题：FunASR 语音识别 WebUI
描述：基于 FunASR 的中文语音识别系统
版权信息：webUI二次开发 by 科哥 | 微信：312088415

此部分为固定展示区，提供项目归属与联系信息。

2.2 控制面板（左侧）

2.2.1 模型选择

模型	特点	推荐场景
Paraformer-Large	高精度、大参数量	对准确率要求高的长音频识别
SenseVoice-Small	响应快、资源占用低	实时录音、短句识别

默认选中SenseVoice-Small，可根据需求切换。

2.2.2 设备选择

CUDA：启用 GPU 加速（推荐有显卡用户）
CPU：纯 CPU 推理（兼容性更好，速度较慢）

系统会自动检测 CUDA 是否可用，建议优先选择 CUDA 模式提升性能。

2.2.3 功能开关

✅启用标点恢复 (PUNC)：自动添加句号、逗号等标点符号
✅启用语音活动检测 (VAD)：智能分割静音段，提升断句准确性
✅输出时间戳：在结果中包含每句话的时间区间

这些选项可显著提升识别结果的可读性和实用性。

2.2.4 模型状态

实时显示当前模型加载状态：

✓模型已加载：准备就绪，可进行识别
✗模型未加载：需点击“加载模型”手动初始化

2.2.5 操作按钮

加载模型：重新加载当前配置下的模型（可用于切换模型或重置状态）
刷新：更新界面状态信息

3. 使用流程详解

3.1 方式一：上传音频文件识别

步骤 1：准备音频文件

支持格式包括：

WAV (.wav)
MP3 (.mp3)
M4A (.m4a)
FLAC (.flac)
OGG (.ogg)
PCM (.pcm)

推荐参数：

采样率：16kHz
单声道（Mono）
编码清晰、背景噪音小

步骤 2：上传文件

在主界面找到ASR 语音识别区域
点击“上传音频”按钮
选择本地音频文件并等待上传完成

步骤 3：配置识别参数

批量大小（秒）：默认 300 秒（5 分钟），最大支持 600 秒
识别语言：
- auto：自动检测（推荐）
- zh：强制中文识别
- en：英文
- yue：粤语
- ja：日语
- ko：韩语

建议混合语言内容使用auto，单一语言可指定对应语种以提高准确率。

步骤 4：开始识别

点击“开始识别”按钮，系统将调用选定模型进行推理处理。

处理时间取决于：

音频长度
模型类型（Large 更慢但更准）
运行设备（GPU 快于 CPU）

步骤 5：查看识别结果

识别完成后，结果分为三个标签页展示：

文本结果

纯文本输出，便于复制粘贴使用：

你好，欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。

详细信息（JSON）

结构化数据，包含置信度、时间戳、分词等元信息：

{ "text": "你好欢迎使用语音识别系统", "timestamp": [[0.0, 0.5], [0.5, 2.5], [2.5, 5.0]], "confidence": [0.98, 0.96, 0.97] }

时间戳

按序号列出每个片段的起止时间：

[001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s)

3.2 方式二：浏览器实时录音

步骤 1：开始录音

点击“麦克风录音”按钮
浏览器弹出权限请求 → 点击“允许”

确保麦克风正常工作且未被其他程序占用。

步骤 2：录制语音

对着麦克风清晰说话
点击“停止录音”结束录制

录音将以.wav格式临时保存，供后续识别使用。

步骤 3：开始识别

与上传文件一致，点击“开始识别”即可。

步骤 4：查看结果

同“上传音频文件识别”的结果展示方式，支持文本、JSON 和 SRT 导出。

4. 结果下载与文件管理

4.1 下载按钮说明

按钮	文件格式	用途
下载文本	.txt	纯文字内容，适合文档整理
下载 JSON	.json	开发对接、数据分析
下载 SRT	.srt	视频字幕制作、剪辑辅助

4.2 输出目录结构

所有识别结果统一保存在容器内的/app/outputs目录下，映射到宿主机的./outputs：

outputs/ └── outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # 完整识别结果 ├── text_001.txt # 纯文本输出 └── subtitle_001.srt # SRT 字幕文件

每次识别均创建独立时间戳目录，避免覆盖冲突。

5. 高级功能配置

5.1 批量大小调整

范围：60 ~ 600 秒
作用：控制单次处理的最大音频时长
建议设置：
- < 5分钟：保持默认 300 秒
- 5分钟：分段上传处理，避免内存溢出

5.2 语言识别设置

合理选择语言可显著提升识别准确率：

场景	推荐设置
中文普通话	`zh`
英文演讲	`en`
粤语访谈	`yue`
中英混合	`auto`
日语课程	`ja`

若识别错误频繁，优先检查语言设置是否匹配。

5.3 时间戳输出应用

开启“输出时间戳”后，可用于：

视频剪辑定位：快速跳转至某句话所在位置
字幕同步：SRT 文件直接导入 Premiere/Final Cut Pro
会议纪要标注：回溯关键发言时间节点

6. 常见问题与解决方案

Q1：识别结果不准确怎么办？

解决方法：

确认选择了正确的识别语言（如中文选zh）
提升音频质量：使用 16kHz 单声道录音
减少背景噪音，必要时先做降噪处理
尝试切换为Paraformer-Large模型

Q2：识别速度慢如何优化？

可能原因：

使用了 CPU 模式
音频过长或模型过大

优化建议：

启用 CUDA 加速（需 NVIDIA 显卡）
切换至SenseVoice-Small模型
分段处理超过 5 分钟的音频

Q3：无法上传音频文件？

排查步骤：

检查文件格式是否支持（推荐 MP3/WAV）
文件大小是否超过 100MB 限制
浏览器是否阻塞了上传请求（尝试 Chrome/Firefox）

Q4：录音没有声音？

检查项：

浏览器是否授予麦克风权限
系统麦克风是否被其他应用占用
麦克风硬件是否正常（可在系统设置中测试）

Q5：识别结果出现乱码？

应对措施：

确保音频编码正确（避免特殊压缩格式）
更换为标准 WAV 或 MP3 格式
检查语言设置是否匹配音频内容

Q6：如何进一步提升识别准确率？

综合建议：

使用高质量录音设备（16kHz 采样率）
保持安静环境，减少回声与噪声
发音清晰，避免过快语速
合理启用 VAD 与 PUNC 功能
对专业术语可通过热词增强（需定制模型）

7. 服务管理与退出

7.1 停止 WebUI 服务

在终端中按下：

Ctrl + C

或执行命令终止容器：

docker stop funasr-webui

也可通过进程杀掉服务：

pkill -f "python.*app.main"

7.2 快捷键汇总

操作	快捷键
停止服务	Ctrl + C
刷新页面	F5 或 Ctrl + R
复制文本	Ctrl + C

8. 技术支持与更新日志

技术支持

开发者：科哥
联系方式：微信 312088415
反馈要求：请提供完整操作步骤、错误截图及日志信息

更新日志（v1.0.0 - 2026-01-04）

✅ 首次发布版本
✅ 支持中文语音识别（Paraformer + N-gram LM）
✅ 兼容多种音频格式上传
✅ 内置浏览器录音功能
✅ 支持 TXT/JSON/SRT 多格式导出
✅ 紫蓝渐变主题 UI 设计

9. 总结

本文详细介绍了基于“科哥”二次开发的 FunASR 镜像的完整使用流程，涵盖：

本地部署与容器启动
WebUI 界面各模块功能解析
两种识别方式（上传文件 & 实时录音）的操作步骤
结果查看与多格式导出
常见问题排查与性能优化建议

该镜像极大降低了 FunASR 的使用门槛，无需编写代码即可实现高精度中文语音转写，特别适合教育、媒体、会议记录等场景的快速落地。

通过合理配置模型、设备与参数，可在准确率与响应速度之间取得最佳平衡，满足不同业务需求。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。