FunASR语音识别WebUI使用指南|支持实时录音与多格式导出
1. 快速开始
1.1 访问地址
启动服务后,您可以通过以下方式访问 FunASR WebUI 界面:
本地访问:
http://localhost:7860远程访问(服务器部署):
http://<服务器IP>:7860
确保端口7860在防火墙或安全组中已开放,以便外部设备可以正常连接。
2. 界面介绍
2.1 头部区域
界面顶部展示核心信息,包括:
- 标题:FunASR 语音识别 WebUI
- 描述:基于 FunASR 的中文语音识别系统
- 版权信息:webUI二次开发 by 科哥 | 微信:312088415
该区域为静态展示,帮助用户快速了解系统来源和开发者信息。
2.2 控制面板(左侧)
控制面板集中管理识别参数与模型状态,包含以下功能模块:
模型选择
- Paraformer-Large:高精度大模型,适合对准确率要求高的场景(可选)
- SenseVoice-Small:轻量级小模型,默认启用,响应速度快,资源占用低
设备选择
- CUDA:启用 GPU 加速,显著提升处理速度,推荐在具备 NVIDIA 显卡的环境中使用
- CPU:纯 CPU 推理模式,适用于无独立显卡的设备
建议优先选择 CUDA 模式以获得最佳性能体验。
功能开关
- 启用标点恢复 (PUNC):自动为识别结果添加句号、逗号等标点符号,提升可读性
- 启用语音活动检测 (VAD):自动分割音频中的有效语音段,跳过静音部分,提高效率
- 输出时间戳:在结果中附加每个词或句子的时间范围,便于后期编辑与同步
模型状态
显示当前模型加载情况:
- ✓ 表示模型已成功加载
- ✗ 表示模型未加载或加载失败
可通过“加载模型”按钮手动触发重新加载。
操作按钮
- 加载模型:初始化或重载选定模型
- 刷新:更新界面状态信息,检查模型是否就绪
3. 使用流程
3.1 方式一:上传音频文件识别
步骤 1:准备音频文件
支持的音频格式如下:
- WAV (.wav)
- MP3 (.mp3)
- M4A (.m4a)
- FLAC (.flac)
- OGG (.ogg)
- PCM (.pcm)
推荐参数:
- 采样率:16kHz
- 单声道(Mono)
- 音频质量清晰,背景噪音较小
文件大小建议控制在 100MB 以内,避免因网络传输导致超时。
步骤 2:上传文件
- 在主界面的 “ASR 语音识别” 区域点击“上传音频”
- 从本地选择符合格式的音频文件
- 等待上传完成(进度条提示)
上传成功后,音频将显示缩略图及基本信息。
步骤 3:配置识别参数
- 批量大小(秒):默认值为 300 秒(即 5 分钟),表示每次处理的最大音频长度。可根据实际需求调整至 60–600 秒之间。
- 识别语言:
auto:自动检测语言(推荐用于混合语种内容)zh:中文普通话en:英文yue:粤语ja:日语ko:韩语
对于单一语言内容,明确指定语言可显著提升识别准确率。
步骤 4:开始识别
点击“开始识别”按钮,系统将根据所选模型和参数进行语音转文字处理。
处理期间,界面会显示加载动画和进度提示。处理时间取决于音频长度、模型类型和硬件性能。
步骤 5:查看结果
识别完成后,结果将以三个标签页形式呈现:
文本结果
- 展示最终生成的纯文本内容
- 支持全选复制,方便粘贴到文档或其他应用中
详细信息
- 提供 JSON 格式的完整识别数据
- 包含字段如:
text,timestamp,confidence,sentences等 - 适用于开发者调试或集成至其他系统
时间戳
- 列出每句话或词语的起止时间
- 格式示例:
[001] 0.000s - 2.500s (时长: 2.500s)
可用于视频字幕制作、会议纪要定位等场景。
3.2 方式二:浏览器实时录音
步骤 1:开始录音
- 点击“麦克风录音”按钮
- 浏览器弹出权限请求时,点击“允许”
若未出现权限提示,请检查浏览器设置中是否已禁用麦克风权限。
步骤 2:录制语音
- 对着麦克风清晰发音
- 录音过程中会有波形图动态显示声音强度
- 点击“停止录音”结束录制
步骤 3:开始识别
停止录音后,直接点击“开始识别”按钮,系统将立即处理录音数据。
步骤 4:查看结果
结果展示方式与上传文件一致,支持文本、JSON 和时间戳三种视图。
实时录音功能非常适合做短句测试、演讲稿录入或即时翻译辅助。
4. 下载结果
识别完成后,用户可将结果导出为多种常用格式,满足不同用途需求。
4.1 导出格式说明
| 按钮 | 文件格式 | 适用场景 |
|---|---|---|
| 下载文本 | .txt | 快速提取文字内容,用于笔记、报告等 |
| 下载 JSON | .json | 开发者调用接口、数据分析、系统集成 |
| 下载 SRT | .srt | 视频剪辑配字幕、在线课程字幕生成 |
4.2 输出目录结构
所有输出文件统一保存在本地目录:
outputs/outputs_YYYYMMDDHHMMSS/每次识别都会创建一个以时间戳命名的新文件夹,例如:
outputs/outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # 完整识别结果(JSON) ├── text_001.txt # 纯文本结果 └── subtitle_001.srt # SRT 字幕文件此设计保证了历史记录不被覆盖,便于追溯和归档。
5. 高级功能配置
5.1 批量大小调整
- 默认值:300 秒(5 分钟)
- 可调范围:60 – 600 秒
- 作用机制:将长音频切分为多个片段并行处理,减少内存压力,提升稳定性
对于超过 10 分钟的长音频,建议分段上传或降低批量大小以避免崩溃。
5.2 语言识别设置
合理选择语言是提升识别准确率的关键:
| 场景 | 推荐设置 |
|---|---|
| 中文普通话 | zh |
| 英文讲座 | en |
| 粤语访谈 | yue |
| 日语动漫配音 | ja |
| 中英混合对话 | auto |
当使用
auto模式时,系统会尝试判断主要语言,但可能不如手动指定精准。
5.3 时间戳输出
开启“输出时间戳”后,系统将在结果中提供精确到毫秒的时间标记,典型应用场景包括:
- 视频剪辑:精准定位台词位置
- 教学回放:快速跳转重点段落
- 法律听证:记录发言时间节点
时间戳格式兼容主流非编软件(如 Premiere、Final Cut Pro)和字幕工具。
6. 结果示例
6.1 纯文本输出示例
你好,欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。6.2 SRT 字幕输出示例
1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统6.3 时间戳信息示例
时间戳信息: [001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s)7. 常见问题解答
7.1 Q1:识别结果不准确怎么办?
解决方法:
- 确认选择了正确的识别语言
- 检查音频质量,尽量使用清晰录音
- 调整音量增益,避免过低或爆音
- 如背景噪音严重,建议先进行降噪预处理
7.2 Q2:识别速度慢怎么办?
可能原因:
- 使用 CPU 模式运行
- 音频文件过长
- 模型负载过高
优化建议:
- 切换至 CUDA 模式启用 GPU 加速
- 将长音频拆分为 5 分钟以内片段处理
- 改用 SenseVoice-Small 模型提升响应速度
7.3 Q3:无法上传音频文件?
排查步骤:
- 确认文件格式是否在支持列表内(推荐使用 MP3 或 WAV)
- 检查文件大小是否超过 100MB
- 更换浏览器(推荐 Chrome 或 Edge)
- 查看控制台是否有错误日志输出
7.4 Q4:录音没有声音?
检查项:
- 浏览器是否已授权麦克风访问权限
- 系统麦克风是否正常工作(可在录音机中测试)
- 麦克风输入音量是否被静音或调至最低
7.5 Q5:识别结果包含乱码?
解决方案:
- 确保选择的语言与音频内容匹配
- 检查音频编码格式是否标准(如 PCM、AAC)
- 尝试转换音频为 WAV 格式后再上传
7.6 Q6:如何提高识别准确率?
实用建议:
- 使用 16kHz 采样率的高质量音频
- 减少环境噪音干扰(使用降噪耳机或滤波工具)
- 发音清晰,避免过快语速
- 明确指定目标语言而非依赖自动检测
8. 退出使用
8.1 停止 WebUI 服务
在终端运行界面按下快捷键:
Ctrl + C或执行命令强制终止进程:
pkill -f "python.*app.main"建议正常关闭服务以防止临时文件残留。
9. 快捷键汇总
| 操作 | 快捷键 |
|---|---|
| 停止服务 | Ctrl + C |
| 刷新页面 | F5 或 Ctrl + R |
| 复制文本 | Ctrl + C |
| 全选文本 | Ctrl + A |
| 打开开发者工具 | F12 |
10. 技术支持与反馈
- 开发者:科哥
- 联系方式:微信:312088415
- 问题反馈要求:请提供以下信息以便快速定位问题:
- 操作系统版本
- 浏览器类型与版本
- 错误截图或日志
- 复现步骤描述
我们承诺永久开源使用,保留版权信息,请尊重原创劳动成果。
11. 更新日志
v1.0.0 (2026-01-04)
- ✅ 首次发布版本
- ✅ 支持中文语音识别(Paraformer & SenseVoice)
- ✅ 支持 MP3/WAV/M4A/FLAC/OGG/PCM 多种音频格式
- ✅ 内置浏览器端实时录音功能
- ✅ 支持 TXT/JSON/SRT 三类结果导出
- ✅ 采用紫蓝渐变主题 UI,提升视觉体验
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。