news 2026/4/18 10:41:38

FunASR语音识别WebUI使用指南|支持实时录音与多格式导出

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
FunASR语音识别WebUI使用指南|支持实时录音与多格式导出

FunASR语音识别WebUI使用指南|支持实时录音与多格式导出

1. 快速开始

1.1 访问地址

启动服务后,您可以通过以下方式访问 FunASR WebUI 界面:

  • 本地访问

    http://localhost:7860
  • 远程访问(服务器部署)

    http://<服务器IP>:7860

确保端口7860在防火墙或安全组中已开放,以便外部设备可以正常连接。


2. 界面介绍

2.1 头部区域

界面顶部展示核心信息,包括:

  • 标题:FunASR 语音识别 WebUI
  • 描述:基于 FunASR 的中文语音识别系统
  • 版权信息:webUI二次开发 by 科哥 | 微信:312088415

该区域为静态展示,帮助用户快速了解系统来源和开发者信息。

2.2 控制面板(左侧)

控制面板集中管理识别参数与模型状态,包含以下功能模块:

模型选择
  • Paraformer-Large:高精度大模型,适合对准确率要求高的场景(可选)
  • SenseVoice-Small:轻量级小模型,默认启用,响应速度快,资源占用低
设备选择
  • CUDA:启用 GPU 加速,显著提升处理速度,推荐在具备 NVIDIA 显卡的环境中使用
  • CPU:纯 CPU 推理模式,适用于无独立显卡的设备

建议优先选择 CUDA 模式以获得最佳性能体验。

功能开关
  • 启用标点恢复 (PUNC):自动为识别结果添加句号、逗号等标点符号,提升可读性
  • 启用语音活动检测 (VAD):自动分割音频中的有效语音段,跳过静音部分,提高效率
  • 输出时间戳:在结果中附加每个词或句子的时间范围,便于后期编辑与同步
模型状态

显示当前模型加载情况:

  • ✓ 表示模型已成功加载
  • ✗ 表示模型未加载或加载失败

可通过“加载模型”按钮手动触发重新加载。

操作按钮
  • 加载模型:初始化或重载选定模型
  • 刷新:更新界面状态信息,检查模型是否就绪

3. 使用流程

3.1 方式一:上传音频文件识别

步骤 1:准备音频文件

支持的音频格式如下:

  • WAV (.wav)
  • MP3 (.mp3)
  • M4A (.m4a)
  • FLAC (.flac)
  • OGG (.ogg)
  • PCM (.pcm)

推荐参数

  • 采样率:16kHz
  • 单声道(Mono)
  • 音频质量清晰,背景噪音较小

文件大小建议控制在 100MB 以内,避免因网络传输导致超时。

步骤 2:上传文件
  1. 在主界面的 “ASR 语音识别” 区域点击“上传音频”
  2. 从本地选择符合格式的音频文件
  3. 等待上传完成(进度条提示)

上传成功后,音频将显示缩略图及基本信息。

步骤 3:配置识别参数
  • 批量大小(秒):默认值为 300 秒(即 5 分钟),表示每次处理的最大音频长度。可根据实际需求调整至 60–600 秒之间。
  • 识别语言
    • auto:自动检测语言(推荐用于混合语种内容)
    • zh:中文普通话
    • en:英文
    • yue:粤语
    • ja:日语
    • ko:韩语

对于单一语言内容,明确指定语言可显著提升识别准确率。

步骤 4:开始识别

点击“开始识别”按钮,系统将根据所选模型和参数进行语音转文字处理。

处理期间,界面会显示加载动画和进度提示。处理时间取决于音频长度、模型类型和硬件性能。

步骤 5:查看结果

识别完成后,结果将以三个标签页形式呈现:

文本结果
  • 展示最终生成的纯文本内容
  • 支持全选复制,方便粘贴到文档或其他应用中
详细信息
  • 提供 JSON 格式的完整识别数据
  • 包含字段如:text,timestamp,confidence,sentences
  • 适用于开发者调试或集成至其他系统
时间戳
  • 列出每句话或词语的起止时间
  • 格式示例:
    [001] 0.000s - 2.500s (时长: 2.500s)

可用于视频字幕制作、会议纪要定位等场景。


3.2 方式二:浏览器实时录音

步骤 1:开始录音
  1. 点击“麦克风录音”按钮
  2. 浏览器弹出权限请求时,点击“允许”

若未出现权限提示,请检查浏览器设置中是否已禁用麦克风权限。

步骤 2:录制语音
  • 对着麦克风清晰发音
  • 录音过程中会有波形图动态显示声音强度
  • 点击“停止录音”结束录制
步骤 3:开始识别

停止录音后,直接点击“开始识别”按钮,系统将立即处理录音数据。

步骤 4:查看结果

结果展示方式与上传文件一致,支持文本、JSON 和时间戳三种视图。

实时录音功能非常适合做短句测试、演讲稿录入或即时翻译辅助。


4. 下载结果

识别完成后,用户可将结果导出为多种常用格式,满足不同用途需求。

4.1 导出格式说明

按钮文件格式适用场景
下载文本.txt快速提取文字内容,用于笔记、报告等
下载 JSON.json开发者调用接口、数据分析、系统集成
下载 SRT.srt视频剪辑配字幕、在线课程字幕生成

4.2 输出目录结构

所有输出文件统一保存在本地目录:

outputs/outputs_YYYYMMDDHHMMSS/

每次识别都会创建一个以时间戳命名的新文件夹,例如:

outputs/outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # 完整识别结果(JSON) ├── text_001.txt # 纯文本结果 └── subtitle_001.srt # SRT 字幕文件

此设计保证了历史记录不被覆盖,便于追溯和归档。


5. 高级功能配置

5.1 批量大小调整

  • 默认值:300 秒(5 分钟)
  • 可调范围:60 – 600 秒
  • 作用机制:将长音频切分为多个片段并行处理,减少内存压力,提升稳定性

对于超过 10 分钟的长音频,建议分段上传或降低批量大小以避免崩溃。

5.2 语言识别设置

合理选择语言是提升识别准确率的关键:

场景推荐设置
中文普通话zh
英文讲座en
粤语访谈yue
日语动漫配音ja
中英混合对话auto

当使用auto模式时,系统会尝试判断主要语言,但可能不如手动指定精准。

5.3 时间戳输出

开启“输出时间戳”后,系统将在结果中提供精确到毫秒的时间标记,典型应用场景包括:

  • 视频剪辑:精准定位台词位置
  • 教学回放:快速跳转重点段落
  • 法律听证:记录发言时间节点

时间戳格式兼容主流非编软件(如 Premiere、Final Cut Pro)和字幕工具。


6. 结果示例

6.1 纯文本输出示例

你好,欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。

6.2 SRT 字幕输出示例

1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统

6.3 时间戳信息示例

时间戳信息: [001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s)

7. 常见问题解答

7.1 Q1:识别结果不准确怎么办?

解决方法

  1. 确认选择了正确的识别语言
  2. 检查音频质量,尽量使用清晰录音
  3. 调整音量增益,避免过低或爆音
  4. 如背景噪音严重,建议先进行降噪预处理

7.2 Q2:识别速度慢怎么办?

可能原因

  • 使用 CPU 模式运行
  • 音频文件过长
  • 模型负载过高

优化建议

  1. 切换至 CUDA 模式启用 GPU 加速
  2. 将长音频拆分为 5 分钟以内片段处理
  3. 改用 SenseVoice-Small 模型提升响应速度

7.3 Q3:无法上传音频文件?

排查步骤

  1. 确认文件格式是否在支持列表内(推荐使用 MP3 或 WAV)
  2. 检查文件大小是否超过 100MB
  3. 更换浏览器(推荐 Chrome 或 Edge)
  4. 查看控制台是否有错误日志输出

7.4 Q4:录音没有声音?

检查项

  1. 浏览器是否已授权麦克风访问权限
  2. 系统麦克风是否正常工作(可在录音机中测试)
  3. 麦克风输入音量是否被静音或调至最低

7.5 Q5:识别结果包含乱码?

解决方案

  1. 确保选择的语言与音频内容匹配
  2. 检查音频编码格式是否标准(如 PCM、AAC)
  3. 尝试转换音频为 WAV 格式后再上传

7.6 Q6:如何提高识别准确率?

实用建议

  1. 使用 16kHz 采样率的高质量音频
  2. 减少环境噪音干扰(使用降噪耳机或滤波工具)
  3. 发音清晰,避免过快语速
  4. 明确指定目标语言而非依赖自动检测

8. 退出使用

8.1 停止 WebUI 服务

在终端运行界面按下快捷键:

Ctrl + C

或执行命令强制终止进程:

pkill -f "python.*app.main"

建议正常关闭服务以防止临时文件残留。


9. 快捷键汇总

操作快捷键
停止服务Ctrl + C
刷新页面F5 或 Ctrl + R
复制文本Ctrl + C
全选文本Ctrl + A
打开开发者工具F12

10. 技术支持与反馈

  • 开发者:科哥
  • 联系方式:微信:312088415
  • 问题反馈要求:请提供以下信息以便快速定位问题:
    • 操作系统版本
    • 浏览器类型与版本
    • 错误截图或日志
    • 复现步骤描述

我们承诺永久开源使用,保留版权信息,请尊重原创劳动成果。


11. 更新日志

v1.0.0 (2026-01-04)

  • ✅ 首次发布版本
  • ✅ 支持中文语音识别(Paraformer & SenseVoice)
  • ✅ 支持 MP3/WAV/M4A/FLAC/OGG/PCM 多种音频格式
  • ✅ 内置浏览器端实时录音功能
  • ✅ 支持 TXT/JSON/SRT 三类结果导出
  • ✅ 采用紫蓝渐变主题 UI,提升视觉体验

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:54:46

高效思维管理利器:百度脑图 KityMinder 完整使用指南

高效思维管理利器&#xff1a;百度脑图 KityMinder 完整使用指南 【免费下载链接】kityminder 百度脑图 项目地址: https://gitcode.com/gh_mirrors/ki/kityminder 你是否经常面对杂乱的想法无从下手&#xff1f;或者在项目规划时难以理清各个任务之间的关系&#xff1f…

作者头像 李华
网站建设 2026/4/18 8:36:28

部署Qwen3-Embedding太贵?按需付费方案每天不到1块钱

部署Qwen3-Embedding太贵&#xff1f;按需付费方案每天不到1块钱 你是不是也遇到过这种情况&#xff1a;想用最新的 Qwen3-Embedding 模型做个语义搜索服务&#xff0c;比如搭建一个智能文档检索系统、代码片段查找工具&#xff0c;或者个人知识库的“大脑”&#xff1f;但一查…

作者头像 李华
网站建设 2026/4/18 8:55:02

70亿参数推理新体验!DeepSeek-R1-Distill-Qwen-7B来了

70亿参数推理新体验&#xff01;DeepSeek-R1-Distill-Qwen-7B来了 【免费下载链接】DeepSeek-R1-Distill-Qwen-7B 探索深度学习新境界&#xff0c;DeepSeek-R1-Distill-Qwen-7B模型以卓越推理能力引领潮流&#xff0c;显著提升数学、编程和逻辑任务表现&#xff0c;开启AI智能新…

作者头像 李华
网站建设 2026/4/16 12:01:21

Buzz语音转录终极指南:从零基础到专业级故障修复

Buzz语音转录终极指南&#xff1a;从零基础到专业级故障修复 【免费下载链接】buzz Buzz transcribes and translates audio offline on your personal computer. Powered by OpenAIs Whisper. 项目地址: https://gitcode.com/GitHub_Trending/buz/buzz Buzz是一款基于O…

作者头像 李华
网站建设 2026/4/16 21:19:22

Mac用户福音:Qwen3-VL-2B云端完美运行,告别显卡焦虑

Mac用户福音&#xff1a;Qwen3-VL-2B云端完美运行&#xff0c;告别显卡焦虑 你是不是也是一位用Mac做设计的创意人&#xff1f;每天打开Sketch、Figma、Photoshop&#xff0c;灵感不断&#xff0c;但总感觉AI工具离自己有点远&#xff1f;看到别人用Stable Diffusion生成草图、…

作者头像 李华
网站建设 2026/4/18 8:37:15

电商搜索实战:用Qwen3-Embedding-4B提升23%相关性

电商搜索实战&#xff1a;用Qwen3-Embedding-4B提升23%相关性 1. 引言&#xff1a;电商搜索的语义理解挑战 在现代电商平台中&#xff0c;用户查询与商品标题、描述之间的语义鸿沟是影响搜索质量的核心瓶颈。传统关键词匹配方法难以应对同义词、多语言表达和长尾查询等复杂场…

作者头像 李华