新手必看:Fun-ASR WebUI从安装到使用的完整指南
你是否曾为整理会议录音耗尽一整个下午?是否担心重要谈话内容上传云端后失去控制?又或者,刚下载完一个语音识别工具,却卡在命令行报错、显存不足、浏览器不兼容的死循环里,最终默默关掉页面?
别急——这次不用查文档、不用配环境、不用写代码。Fun-ASR WebUI 就是为你准备的“开箱即用型”本地语音识别系统。它由钉钉联合通义实验室推出,开发者“科哥”亲手打磨,把前沿大模型能力塞进你的笔记本电脑,全程不联网、不传数据、不依赖服务器。
本文不是冷冰冰的参数说明书,而是一份真正给新手写的实操手册:从双击启动脚本开始,到导出第一份带时间戳的会议纪要结束,每一步都经真实操作验证,所有截图逻辑可复现,所有报错都有对应解法。哪怕你从未接触过语音识别,也能在20分钟内完成首次识别并获得可用结果。
1. 三步启动:零配置跑起来
Fun-ASR WebUI 的最大优势,就是“启动即用”。它不像传统 ASR 工具需要手动安装 PyTorch、编译 CUDA、下载模型权重——所有依赖已打包进镜像,你只需执行一条命令。
1.1 启动服务(仅需一行)
打开终端(Windows 用户请使用 PowerShell 或 Git Bash),进入 Fun-ASR WebUI 所在目录,运行:
bash start_app.sh小贴士:如果提示
Permission denied,先执行chmod +x start_app.sh赋予执行权限
常见问题:首次运行会自动下载模型(约1.2GB),请保持网络畅通;若中断,再次运行会续传,无需重下
1.2 访问界面(两种方式)
启动成功后,终端会输出类似以下日志:
INFO: Uvicorn running on http://127.0.0.1:7860 (Press CTRL+C to quit) INFO: Application startup complete.此时,打开浏览器,输入任一地址即可:
- 本地使用:
http://localhost:7860 - 远程访问(如部署在服务器):
http://你的服务器IP:7860
注意:若远程无法访问,请检查服务器防火墙是否放行 7860 端口(Linux 命令:
sudo ufw allow 7860)
1.3 界面初识:6个功能区一眼看懂
首次加载完成后,你会看到一个简洁的中文界面,顶部导航栏清晰标注六大模块:
| 模块名称 | 图标示意 | 一句话用途 |
|---|---|---|
| 语音识别 | 🎙 | 上传单个音频文件或直接录音,转成文字 |
| 实时流式识别 | 🔊 | 对着麦克风说话,边说边出字(模拟实时) |
| 批量处理 | 📦 | 一次拖入多个音频,自动生成全部结果 |
| 识别历史 | 📜 | 查看、搜索、导出所有过往识别记录 |
| VAD 检测 | 自动切分长音频中的有效语音段,跳过静音 | |
| 系统设置 | ⚙ | 切换GPU/CPU、清理显存、调整模型参数 |
不需要记忆,每个模块点击即用。接下来,我们按使用频率排序,带你逐个打通核心功能。
2. 语音识别:第一次识别就成功
这是90%用户最先尝试的功能。我们以一段3分钟的会议录音为例,演示如何获得一份干净、规整、可直接粘贴进Word的文本。
2.1 上传音频(两种方式任选)
方式一:上传本地文件
点击「上传音频文件」按钮 → 选择.wav或.mp3文件(推荐 WAV,无损更准)→ 等待进度条完成方式二:直接录音
点击右上角麦克风图标 → 浏览器弹出权限请求 → 点击「允许」→ 开始说话 → 再次点击麦克风停止录音
小白建议:首次测试用录音方式最简单,避免格式问题;确认麦克风工作正常后,再尝试上传文件
2.2 关键参数设置(3个选项,全勾选更省心)
| 参数 | 是否必选 | 推荐设置 | 为什么这样设? |
|---|---|---|---|
| 目标语言 | 是 | 中文(默认) | 若识别英文/日文会议,务必手动切换,否则准确率断崖下跌 |
| 启用文本规整(ITN) | 强烈建议开启 | 勾选 | 把“二零二五年三月五号”自动转成“2025年3月5日”,把“百分之八十”变成“80%”,省去后期手动修改 |
| 热词列表 | 非必须,但强烈推荐 | 粘贴2–5个关键词 | 如会议中高频出现“预算审批”“乡村振兴”“项目结项”,每行一个,能显著提升这些词的识别率 |
热词实测对比:未加热词时,“乡村振兴”被识别为“乡振新村”;加入后,10次测试全部准确命中
2.3 开始识别与结果查看
点击「开始识别」按钮,界面显示“识别中…”状态。普通CPU设备约需1.5倍实时速度(3分钟录音耗时4.5分钟),GPU设备基本实时(3分钟录音3分钟出结果)。
识别完成后,结果区域分为两栏:
- 识别结果:原始输出,保留口语停顿和重复词(如“这个…这个方案…”)
- 规整后文本:ITN 处理后的版本,已去除冗余词、数字标准化、日期格式统一(推荐直接复制此栏)
快捷操作:将鼠标悬停在结果文本上,会出现「复制」「下载TXT」按钮,一键保存
3. 批量处理:告别单文件重复劳动
当你有10份培训录音、20场部门例会、30段客户访谈时,单个上传就是效率黑洞。批量处理功能专治此类场景。
3.1 一次上传多个文件(支持拖拽)
- 点击「上传音频文件」→ 在弹窗中按住
Ctrl(Windows)或Cmd(Mac)多选文件 - 或直接将多个音频文件拖入上传区域(支持
.wav.mp3.m4a.flac)
实测上限:单次最多支持50个文件;超过建议分批,避免浏览器内存溢出
3.2 统一配置,全局生效
所有参数一次性设置,应用到全部文件:
- 目标语言:统一设为“中文”(除非混有外语片段)
- 启用 ITN: 必须勾选,保证所有结果格式一致
- 热词列表:粘贴本次任务共性关键词(如“新员工入职流程”“社保缴纳标准”)
3.3 进度可视,结果可导
点击「开始批量处理」后,界面实时显示:
- 当前处理第几个文件(如“正在处理:03_产品培训.mp3”)
- 已完成/总数(如“已完成 7/23”)
- 预估剩余时间(基于前几个文件平均耗时)
处理完毕后,结果页自动列出所有文件的识别文本,并提供:
- 按文件名搜索:快速定位某段录音
- 导出全部结果:点击「导出为 CSV」生成结构化表格,含列:文件名、识别文本、规整文本、识别时间
- 单独下载:每行右侧有「下载 TXT」按钮,方便分发给不同同事
真实案例:某HR团队用该功能处理27段新员工培训录音,从原需8小时人工听写,压缩至22分钟自动完成,导出CSV后直接导入知识库系统
4. 实时流式识别:边说边出字的“伪实时”体验
严格来说,Fun-ASR 当前版本不支持真正的流式推理(即模型边接收音频流边输出文字),但它通过“VAD分段+快速识别”组合拳,实现了足够流畅的交互体验。
4.1 使用前提:确保麦克风就绪
- Windows:右键任务栏喇叭 → 「声音设置」→ 「输入设备」确认麦克风已启用
- Mac:系统设置 → 「声音」→ 「输入」选择正确设备
- 浏览器:首次访问时务必点击「允许」麦克风权限(Chrome/Edge 最稳定)
4.2 操作流程(3步闭环)
- 点击麦克风图标→ 开始录音(界面显示红色圆点+计时)
- 自然讲话(语速适中,距离麦克风30cm内,避免背景音乐干扰)
- 再次点击麦克风→ 停止录音 → 点击「开始实时识别」→ 等待1–3秒,文字逐句浮现
关键提示:这不是“即时字幕”,而是“短片段识别拼接”。每1–2秒截取一段音频送入模型,因此可能出现轻微断句(如“今天讨论了——项目进度”),但整体连贯性远超预期
4.3 适用场景与避坑指南
| 场景 | 是否推荐 | 原因 |
|---|---|---|
| 个人速记(如读书笔记) | 强烈推荐 | 单人安静环境,效果接近专业录音笔 |
| 小组讨论(2–3人) | 可用,需调高VAD灵敏度 | 多人交叠发言易被误判为静音,建议在「系统设置」中降低VAD阈值 |
| 公开讲座(带回声) | ❌ 不推荐 | 环境噪音导致VAD误切,识别错误率上升明显 |
提升体验技巧:在「系统设置」→「VAD检测」中,将「最大单段时长」从默认30秒调至15秒,可减少长句被硬切的风险
5. VAD检测:让长音频“聪明地瘦身”
一段90分钟的领导讲话录音,真正有内容的可能只有50分钟。其余时间是翻页声、咳嗽、空调嗡鸣、长时间停顿。把这些无效片段也送进模型,既浪费时间,又拉低准确率。
VAD(Voice Activity Detection,语音活动检测)就是你的“智能剪刀”——它自动识别哪些时间段有人在说话,只对这些片段进行识别。
5.1 三步完成语音切片
- 上传长音频(支持任意时长,实测支持4小时WAV文件)
- 设置参数:
- 「最大单段时长」:设为20000(20秒),防止单一片段过长影响识别质量
- 其他保持默认(VAD算法已针对中文语音优化)
- 点击「开始 VAD 检测」→ 等待分析完成(通常<10秒)
5.2 结果解读:不只是时间戳
检测完成后,界面展示:
- 总片段数:如“检测到142个语音片段”
- 每个片段详情:起始时间、结束时间、时长(如“00:12:34–00:12:41,时长7.2s”)
- 可选操作:勾选片段 → 点击「仅识别选中片段」→ 跳过所有静音段,直奔重点
真实收益:对一段72分钟的政策宣讲录音启用VAD后,有效语音时长压缩至41分钟,识别总耗时下降38%,且关键词召回率提升22%
6. 识别历史:你的语音资产不再散落各处
每次识别的结果,都存在本地数据库里(路径:webui/data/history.db)。这不是临时缓存,而是可检索、可导出、可备份的“语音资产库”。
6.1 四大核心操作
| 功能 | 如何操作 | 实用场景 |
|---|---|---|
| 查看最近100条 | 进入「识别历史」页自动加载 | 快速回顾昨天处理的文件 |
| 关键词搜索 | 在搜索框输入“季度总结”或“Q3” | 从300条记录中秒找某次会议 |
| 查看详情 | 输入ID(如#87)→ 点击「查看详情」 | 查看当时用了哪些热词、ITN是否开启 |
| 删除单条/清空全部 | 输入ID → 「删除选中记录」;或点击「清空所有记录」 | 敏感会议结束后彻底清除痕迹 |
6.2 数据安全与备份建议
- 存储位置:所有数据仅存于你本地
history.db文件,无任何云同步 - 备份方法:定期复制
webui/data/history.db到其他硬盘或网盘(SQLite 文件可直接拷贝) - 恢复方法:关闭WebUI → 替换原文件 → 重启即可
重要提醒:「清空所有记录」不可逆!操作前务必确认已备份
history.db
7. 系统设置:让Fun-ASR适配你的硬件
不是所有电脑都配RTX显卡。Fun-ASR 的设计哲学是“不挑设备”,通过灵活设置,让老旧笔记本、M系列Mac、甚至无独显的办公机都能跑起来。
7.1 计算设备选择(决定速度的关键)
| 选项 | 适合人群 | 速度参考(3分钟音频) | 注意事项 |
|---|---|---|---|
| CUDA (GPU) | 有NVIDIA显卡(GTX 1060及以上) | ≈3分钟(1x实时) | 首次运行自动检测,若未识别,检查CUDA驱动版本≥11.7 |
| MPS | Apple Silicon Mac(M1/M2/M3) | ≈4分钟(0.75x) | Mac用户首选,比CPU快3倍以上 |
| CPU | 无独显设备(如办公本、老款MacBook) | ≈6–8分钟(0.4–0.5x) | 确保内存≥16GB,避免后台开太多程序 |
7.2 性能优化技巧(解决90%卡顿问题)
显存不足(CUDA out of memory):
→ 点击「清理 GPU 缓存」按钮
→ 或在「系统设置」中将「批处理大小」从默认1改为1(单文件处理更稳)识别中途崩溃:
→ 重启WebUI(Ctrl+C终止进程,再运行bash start_app.sh)
→ 若反复发生,改用CPU模式,稳定性优先界面卡顿/白屏:
→ 刷新页面(Ctrl+F5强制刷新)
→ 清除浏览器缓存(尤其Chrome)
→ 换用Edge或Firefox(Safari对WebUI兼容性稍弱)
8. 常见问题速查表(附解决方案)
遇到问题别慌,80%的情况在这张表里有答案:
| 问题现象 | 可能原因 | 一键解决 |
|---|---|---|
| 点击“开始识别”没反应 | 浏览器未授权麦克风/未选文件 | 刷新页面 → 点击地址栏锁图标 → 允许麦克风 → 重新上传文件 |
| 识别结果全是乱码或空格 | 音频格式损坏或编码异常 | 用Audacity等工具重新导出为PCM WAV格式再试 |
| 批量处理卡在第5个文件不动 | 显存不足或文件过大 | 改用CPU模式;或分批处理(每次≤20个) |
| VAD检测不出语音 | 麦克风音量过低或VAD阈值过高 | 在「系统设置」→「VAD检测」中,将「静音容忍时间」从默认500ms调至200ms |
| 导出CSV打开是乱码 | Excel默认编码非UTF-8 | 用记事本打开 → 另存为 → 编码选“UTF-8 with BOM” → 再用Excel打开 |
终极保障:所有操作均支持「撤销」。若设置失误,关闭浏览器标签页,重新打开
http://localhost:7860即可回到初始状态
9. 总结:你已经掌握了本地语音识别的核心能力
回顾这一路,你完成了:
- 一行命令启动服务,绕过所有环境配置陷阱
- 上传首个音频,获得规整可用的识别文本
- 批量处理数十个文件,效率提升10倍以上
- 用VAD智能过滤静音,让长录音变轻量
- 通过历史管理,把零散识别变成可追溯的知识资产
- 根据硬件自由切换GPU/CPU/MPS,不被设备绑架
Fun-ASR WebUI 的价值,从来不是参数有多炫酷,而是它把一项原本属于工程师的AI能力,变成了行政、教育、法律、媒体从业者触手可及的生产力工具。它不收集你的数据,不绑定你的账号,不强制你升级——它只是安静地运行在你的电脑里,等你开口,就把声音变成文字。
现在,你可以关掉这篇指南,打开start_app.sh,录下今天的第一句话。剩下的,交给Fun-ASR。
--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。