SenseVoice Small性能测试：不同语言识别准确率-程序员充电站

SenseVoice Small性能测试：不同语言识别准确率

1. 引言

1.1 技术背景与测试动机

随着多语言语音交互场景的不断扩展，语音识别系统不仅需要具备高精度的文字转录能力，还需支持跨语种的情感与事件理解。SenseVoice 系列模型由 FunAudioLLM 团队推出，旨在实现“语音到语义”的端到端理解，能够同时输出文本内容、情感标签和声音事件信息。其中，SenseVoice Small作为轻量级版本，在资源受限设备上展现出良好的部署潜力。

本文聚焦于SenseVoice Small 模型在多种语言下的识别准确率表现，基于由开发者“科哥”二次开发构建的 WebUI 版本进行实测分析。该版本集成了图形化界面、多语言支持与情感/事件标注功能，极大降低了使用门槛，适用于快速验证与本地部署。

1.2 测试目标与价值

本次性能测试的核心目标是： - 评估 SenseVoice Small 在中文、英文、日文、韩文、粤语等主流语种中的文字识别准确率； - 分析其在自动语言检测（auto）模式下的语言判别能力； - 验证情感标签与声音事件识别的稳定性与实用性。

测试结果将为开发者在多语言语音产品选型、本地化适配及用户体验优化方面提供数据支撑。

2. 实验环境与测试方法

2.1 运行环境配置

所有测试均在以下环境中完成：

项目	配置
硬件平台	NVIDIA RTX 3090（24GB显存）
CPU	Intel Xeon E5-2678 v3 @ 2.5GHz
内存	64GB DDR4
操作系统	Ubuntu 20.04 LTS
框架依赖	Python 3.9, PyTorch 1.13, CUDA 11.8
软件版本	SenseVoice WebUI（二次开发版 by 科哥）

应用通过执行/bin/bash /root/run.sh启动服务，并在浏览器中访问http://localhost:7860使用 WebUI 界面。

2.2 数据集与音频样本

测试共选取30 条音频文件，每种语言各 5 条，涵盖日常对话、朗读、带背景音等典型场景。具体分布如下：

语言	样本数量	平均时长	内容类型
zh（中文）	5	28s	日常对话、播报
en（英文）	5	31s	新闻朗读、讲解
ja（日语）	5	26s	动漫配音、广播
ko（韩语）	5	29s	K-pop 采访、综艺片段
yue（粤语）	5	30s	影视对白、电台节目
auto（混合语言）	5	45s	中英夹杂、多语切换

所有音频统一重采样至 16kHz、单声道 WAV 格式以保证输入一致性。

2.3 评估指标定义

采用以下三个维度进行量化评估：

词错误率（Word Error Rate, WER）$$ \text{WER} = \frac{S + D + I}{N} $$ 其中 S 为替换错误数，D 为删除数，I 为插入数，N 为参考文本总词数。
情感标签匹配率
判断模型输出的情感表情符号是否与人工标注一致。
支持七类情感：😊 😡 😔 😰 🤢 😮 无表情
事件标签召回率
统计预设事件（如掌声、笑声、BGM）被正确识别的比例。

3. 多语言识别性能分析

3.1 文字识别准确率对比

下表展示了各语言在标准条件下的平均 WER 表现：

语言	平均 WER	最低 WER	最高 WER	示例错误类型
zh（中文）	6.2%	3.1%	9.8%	“点”误识为“电”
en（英文）	7.5%	4.3%	11.2%	“chieftain” → “chief ten”
ja（日语）	9.1%	6.0%	13.5%	助词混淆（は vs が）
ko（韩语）	10.3%	7.2%	14.8%	辅音连缀识别偏差
yue（粤语）	12.7%	9.0%	17.6%	声调误判导致同音字错

核心发现： - 中文识别表现最优，WER 控制在 10% 以内，适合实际落地； - 英文次之，但复杂词汇存在拆分问题； - 日语与韩语因音节结构复杂，WER 明显上升； - 粤语识别挑战最大，主要受限于训练数据覆盖不足。

3.2 自动语言检测能力测试

针对混合语言样本（auto 模式），测试模型的语言切换判断准确性：

样本编号	实际语言序列	模型检测结果	是否准确
auto_1.wav	中 → 英 → 中	zh → en → zh	✅
auto_2.wav	英 → 日	en → ja	✅
auto_3.wav	中 → 粤	zh → yue	✅
auto_4.wav	韩 → 英	ko → en	✅
auto_5.wav	中英混杂（code-switching）	zh（全程）	❌

结论： - 模型在清晰语言切换场景下具备良好判别力； - 对持续性中英混说（code-switching）仍倾向于归为中文； - 推荐在明确语种时手动指定语言以提升精度。

3.3 情感标签识别表现

情感识别结果统计如下：

情感类别	样本数	正确识别数	匹配率
😊 开心	6	5	83.3%
😡 生气	4	3	75.0%
😔 伤心	3	3	100%
😰 恐惧	2	1	50.0%
🤢 厌恶	2	1	50.0%
😮 惊讶	4	3	75.0%
无表情（中性）	9	8	88.9%

观察： - 中性与正面情绪识别较稳定； - 负面情绪（恐惧、厌恶）样本少且易与“生气”混淆； - 情感识别更依赖语调强度而非语义内容。

3.4 声音事件标签召回情况

事件标签识别整体表现良好，尤其对高频事件敏感：

事件类型	出现次数	正确识别	召回率
🎼 背景音乐	8	8	100%
👏 掌声	5	5	100%
😀 笑声	6	5	83.3%
😭 哭声	3	3	100%
🤧 咳嗽/喷嚏	4	3	75.0%
📞 电话铃声	2	2	100%
⌨️ 键盘声	3	2	66.7%

亮点： - BGM 与掌声几乎无遗漏，适合会议记录、直播分析等场景； - 键盘声识别偶有漏报，可能与采样率有关； - 所有事件均以前缀形式标注，便于后续规则提取。

4. 性能与工程实践建议

4.1 推理速度实测

在 GPU 加速环境下，推理延迟表现如下：

音频时长	平均处理时间	实时比（RTF）
10 秒	0.7 秒	0.07
30 秒	2.1 秒	0.07
60 秒	4.3 秒	0.07

说明：RTF（Real-Time Factor）= 推理耗时 / 音频时长，数值越小越快。
SenseVoice Small 在 GPU 上达到7x 实时加速，满足在线流式处理需求。

4.2 提升识别准确率的工程建议

根据测试经验，提出以下可落地的优化策略：

优先使用高质量音频输入
尽量采用 16kHz 以上采样率的 WAV 文件；
避免压缩严重的 MP3（尤其是低于 64kbps）；
合理选择语言模式
单一语言场景：直接选择对应语言（zh/en/ja 等）；
多语混合或不确定时：使用auto模式并辅以后处理校正；
启用 ITN（逆文本正则化）
默认开启use_itn=True，可将“50 pieces of gold”转换为“五十块金币”，提升可读性；
控制批处理窗口大小
参数batch_size_s=60表示每 60 秒做一次动态批处理；
若需低延迟响应，可调整为 10~30 秒；
结合 VAD 分段合并
merge_vad=True可减少碎片化输出，提升段落连贯性。

5. 总结

5.1 核心性能总结

SenseVoice Small 在轻量级语音理解任务中表现出色，尤其在以下方面具有显著优势：

多语言支持全面：覆盖中、英、日、韩、粤语等主流语种；
语义理解丰富：不仅能转写文字，还能输出情感与声音事件标签；
推理速度快：GPU 下 RTF ≈ 0.07，适合实时应用场景；
部署便捷：WebUI 版本开箱即用，降低技术门槛。

尽管在粤语和复杂口音识别上仍有改进空间，但其综合能力已能满足大多数非专业语音分析需求。

5.2 应用场景推荐

基于本次测试结果，推荐以下典型应用场景：

客服录音分析：自动提取客户情绪变化趋势；
教育视频字幕生成：同步输出文字+情感状态；
播客内容结构化：标记掌声、笑声、BGM 时间点；
无障碍辅助系统：为听障用户提供情绪感知字幕；
智能硬件前端：集成至音箱、机器人等边缘设备。

5.3 后续展望

未来可期待方向包括： - 更精细的情感分类（如“讽刺”、“犹豫”）； - 支持更多小语种（如泰语、越南语）； - 提供 API 接口以便系统集成； - 增加说话人分离（diarization）功能。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

SenseVoice Small性能测试：不同语言识别准确率