news 2026/4/17 11:58:51

Fun-ASR-Nano深度评测

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Fun-ASR-Nano深度评测

0. 研究背景

Fun-ASR-Nano-2512 是由阿里巴巴旗下的通义实验室开源的语音识别模型,通义实验室之前还开源了 SenseVoiceSmall 和 Paraformer 模型,这篇文章使用三种模型对多种方言,以及真实电话录音进行对比测试,在开源的数据集中评估的结果官方已经给出,这里使用自己的数据测试,不同的数据测试的字错率会不一样,这篇文章结果仅供大家参考,具体以你自己测试的结果为准。同时,还对比测试三种模型的转写速度以及转写时资源占用情况。

1. 推理代码

1.1 Fun-ASR-Nano 的推理代码

# !/usr/bin/env python# _*_ coding utf-8 _*_# @Time: 2025/12/15 20:18# @Author: Luke Ewin# @Blog: https://blog.lukeewin.topfrommodelimportFunASRNanoimporttimedefmain():model_dir="FunAudioLLM/Fun-ASR-Nano-2512"start_model=time.time()m,kwargs=FunASRNano.from_pretrained(model=model_dir,device="cpu")end_model=time.time()load_time_ms=(end_model-start_model)*1000print(f'加载模型Fun-ASR-Nano-2512耗时{load_time_ms:.2f}毫秒')m.eval()whileTrue:wav_path=input(f'输入音频路径')ifwav_path=='exit':breakstart=time.time()res=m.inference([wav_path],**kwargs)end=time.time()inference_time_ms=(end-start)*1000print(f'转写耗时:{inference_time_ms:.2f}毫秒')text=res[0][0]["text"]print(text)print(50*"-")if__name__=="__main__":main()

1.2 SenseVoiceSmall 推理代码

# !/usr/bin/env python# _*_ coding utf-8 _*_# @Time: 2025/11/8 23:53# @Author: Luke Ewin# @Blog: https://blog.lukeewin.topfromfunasrimportAutoModelfromfunasr.utils.postprocess_utilsimportrich_transcription_postprocessimporttime model_dir="iic/SenseVoiceSmall"start_model=time.time()model=AutoModel(model=model_dir,device="cpu",disable_update=True,disable_log=True,disable_pbar=True,)end_model=time.time()load_time_ms=(end_model-start_model)*1000print(f'加载模型SenseVoiceSmall耗时{load_time_ms:.2f}毫秒')whileTrue:audio=input("请输入要处理的音频:")ifaudio=='exit':exit(0)else:start=time.time()res=model.generate(input=audio,cache={},language="auto",use_itn=True,batch_size_s=60,)end=time.time()inference_time_ms=(end-start)*1000print(f'转写耗时:{inference_time_ms:.2f}毫秒')text=rich_transcription_postprocess(res[0]["text"])print(text)print(50*"-")

1.3 Paraformer 推理代码

这里使用的 Paraformer 是 seaco-paraformer

# !/usr/bin/env python# _*_ coding utf-8 _*_# @Time: 2025/12/10 21:51# @Author: Luke Ewin# @Blog: https://blog.lukeewin.topfromfunasrimportAutoModelimporttime start_model=time.time()model=AutoModel(model="paraformer-zh",disable_update=True,disable_log=True,disable_pbar=True,device="cpu")end_model=time.time()load_time_ms=(end_model-start_model)*1000print(f'加载模型paraformer-zh耗时{load_time_ms:.2f}毫秒')whileTrue:wav_path=input(f'输入音频路径')ifwav_path=='exit':exit(0)start=time.time()res=model.generate(input=wav_path,batch_size_s=300,hotword='魔搭')end=time.time()inference_time_ms=(end-start)*1000print(f'转写耗时:{inference_time_ms:.2f}毫秒')print(res)print(50*"-")

2. 测试环境

CPUGPU内存硬盘
Intel® Xeon® Platinum 8470QNVIDIA RTX 509090GB80GB
25内核32GB显存

3. 方言识别测试

这里测试客家话,四川话,莆田话这三种方言的识别情况。

3.1 客家话

标注文本:

音频名音频内容音频时长
hakka_a你好,大家好,欢饮大家来到我的视频频道00:00:09.96
hakka_b你吃饭了吗?今晚你吃什么菜呢?00:00:08.48
hakka_test现在我来测试一下语音识别,看看识别的怎么样?00:00:08.66

paraformer 测试结果如下:

音频名转写结果转写耗时显存占用内存占用
hakka_a你 以 后 太 敢 后 我 眼 太 敢 来 到 然 后 的 心 频 很 痛1660.61 毫秒1590MiB3GB
hakka_b女 sydlijama 你 said mila china124.12 毫秒1590MiB3GB
hakka_test上 来 了 克 斯 汉 tae sept 怎 么 样126.03 毫秒1590MiB3GB

可以看到转写的结果很不理想,全都是错误的。

SenseVoiceSmall 测试结果如下:

音频名转写结果转写耗时显存占用内存占用
hakka_a如何太假呵稳人太假来到我的视频平托。1050.31 毫秒1578MiB1.2GB
hakka_b儿式花靓忙点呀儿式乜牙菜呢?62.43 毫秒1578MiB1.2GB
hakka_test地下奶来测试一下二唔识劈替替食劈的怎么样。61.10 毫秒1578MiB1.2GB

Fun-ASR-Nano 测试结果如下:

音频名转写结果转写耗时显存占用内存占用
hakka_a而后,泰甲后,阮用泰甲来到了的视频频道。872.05 毫秒3886MiB3.3GB
hakka_b儿识巴厘木,竟也儿识抹牙菜呢。361.80 毫秒3886MiB3.3GB
hakka_test接下来来测试一下语音识别,睇睇识别得怎么样?319.23 毫秒3886MiB3.3GB

3.2 四川话

标注文本:

音频名音频内容音频时长
sichuan_segment_017不想搞它了甩在这儿洗了不开等它搁那哦00:00:04.63
sichuan_segment_032你又不是找不到我找不到00:00:03.20
sichuan_segment_001我认为我老爸是一个非常有主意的人为啥子这么说呢00:00:04.97
sichuan_segment_040事情是这样子的我们这个厨房呢它属于农村厨房00:00:03.33
sichuan_segment_042它就会飘到这个灶台上面为了防止这个灰尘呢00:00:03.63
sichuan_segment_079我老爸的主意他还多得很他还想把我们这个厕所加猪圈拆了00:00:04.60

Paraformer 测试结果如下:

音频名转写结果转写耗时显存占用内存占用
sichuan_segment_017想 搞 头 了 乖 着 了 洗 了 不 开 那 可 能 哦1238.11 毫秒1590MiB3GB
sichuan_segment_032你 又 不 找 不 到 给 我 找 不 到113.02 毫秒1590MiB3GB
sichuan_segment_001我 认 为 我 老 汉 儿 是 一 个 非 常 有 主 意 的 人 为 啥 子 这 么 说 嘞104.00 毫秒1590MiB3GB
sichuan_segment_040之 前 是 这 样 子 的 我 们 这 个 厨 房 呢 它 属 于 农 村 厨 房88.34 毫秒1590MiB3GB
sichuan_segment_042它 就 会 飘 到 那 个 灶 台 上 面 为 了 防 止 这 个 灰 尘 呢92.38 毫秒1590MiB3GB
sichuan_segment_079老 汉 的 主 意 他 还 多 得 很 他 还 想 把 我 们 这 个 厕 所 加 猪 间 拆 了107.24 毫秒1590MiB3GB

SenseVoiceSmall 测试结果如下:

音频名转写结果转写耗时显存占用内存占用
sichuan_segment_017洗了不开那可能哦。1068.64 毫秒1578MiB1.3GB
sichuan_segment_032你又找不到我找不到。49.76 毫秒1578MiB1.3GB
sichuan_segment_001我认为我老汉儿是一个非常有主意的人,为啥子这么说呢?50.26 毫秒1578MiB1.3GB
sichuan_segment_040之前是这样子的,我们这个厨房呢,它属于农村厨房。46.75 毫秒1578MiB1.3GB
sichuan_segment_042它就会飘到那个灶台上面。为了防止这个灰尘呢。61.86 毫秒1578MiB1.3GB
sichuan_segment_079老汉儿的主意他还多得很,他还想把我们这个厕所加租件拆了。67.45 毫秒1578MiB1.3GB

Fun-ASR-Nano 测试结果如下:

音频名转写结果转写耗时显存占用内存占用
sichuan_segment_017想搞头啊,拐得了啊,洗了不开,那可能啊。715.69 毫秒3882MiB3.1GB
sichuan_segment_032我又不找不到,我找不到。201.04 毫秒3882MiB3.1GB
sichuan_segment_001我认为我老汉儿是一个非常有主意的人,为啥子这么说呢?373.36 毫秒3882MiB3.1GB
sichuan_segment_040事情是这样子的,我们这个厨房呢,它属于农村厨房。368.32 毫秒3882MiB3.1GB
sichuan_segment_042它就会飘到那个灶台上面,为了防止这个灰尘呢。349.89 毫秒3882MiB3.1GB
sichuan_segment_079我老汉儿的主意他还多得很,他还想把我们这个厕所加猪圈拆了。477.61 毫秒3882MiB3.1GB

3.3 莆田话

标注:

音频名音频内容音频时长
putian_xiao_2上午好,你今天忙不忙呀?00:00:04.59
putian_xiao_3嗨,这么巧碰到你啦!00:00:04.65

Paraformer 转写结果如下:

音频名转写结果转写耗时显存占用内存占用
putian_xiao_2哦 吼 the 今 我 on 不 on 啊1267.43 毫秒1590MiB3GB
putian_xiao_3哎 这 杂 叫 碰 到 的99.52 毫秒1590MiB3GB

SenseVoiceSmall 转写结果如下:

音频名转写结果转写耗时显存占用内存占用
putian_xiao_2哦吼,汝今晚红毋旺啊。1059.76 毫秒1578MiB1.3GB
putian_xiao_3唉,即系左只碰够嘟。50.68 毫秒1578MiB1.3GB

Fun-ASR-Nano 转写结果如下:

音频名转写结果转写耗时显存占用内存占用
putian_xiao_2好好啊,汝今晚安毋安啊?597.70 毫秒3880MiB3.1GB
putian_xiao_3诶即作者有碰到著。230.47 毫秒3880MiB3.1GB

4. 带噪音的录音转写测试

Paraformer 模型转写:

音频名音频时长标注文本转写结果转写耗时显存占用内存占用
telephone_100:00:06.64最近这块资金有需要了解咨询的吗?最近,最近,(后面我也听不清)您 这 块 最 近 有 需 要 了 解 事 情 的 吗 啊 最 近 最 近 是 有 需 要 你 不 是 那 个 哪 哪 边 的 嗯1250.00 毫秒1590MiB3GB
telephone_200:00:04.42嗯,嗯,时间蛮长的,你平时有时间开票交税吗?啊 啊 是 这 样 蛮 长 的 嗯 平 时 有 开 票 交 税 吗96.50 毫秒1590MiB3GB
telephone_short00:00:20.10你好,12306有什么可以帮您。欸,你好,我要咨询一下你 好 幺 二 三 零 六 请 问 什 么 可 以 帮 您 哎 你 好 我 要 咨 询 下196.79 毫秒1590MiB3GB
telephone_long00:11:16.86哦 对 登 话 是 企 个 企 业 营 户 证 不 我 我 我 我 办 办 办 在 企 业 业 户 营 办 户 户 户 不 我 我 我 话 现 在 企 办 的 账 话…5804.39 毫秒1592MiB3GB

SenseVoiceSmall 模型转写:

音频名音频时长标注文本转写结果转写耗时显存占用内存占用
telephone_100:00:06.64最近这块资金有需要了解咨询的吗?最近,最近,(后面我也听不清)最近这块最近有需要了解事情的吗最近最近是有需啊,你不是那个哪哪辆吗啊。😊1043.98 毫秒1578MiB1.2GB
telephone_200:00:04.42嗯,嗯,时间蛮长的,你平时有时间开票交税吗?啊哦是这样蛮长的。嗯,平时有开票交税吗?😊53.67 毫秒1578MiB1.2GB
telephone_short00:00:20.10你好,12306有什么可以帮您。欸,你好,我要咨询一下你好,12366,请问什么可以帮您哎,你好,我要咨询下。70.44 毫秒1578MiB1.2GB
telephone_long00:11:16.86个公税务业执照个工商个记了没有税务的问题的直接描述个工户务搞不懂个发票用需有个搜功能个能有个申请代的是企业业务还是自然业务呢录电子税务的登录是企业业务是自然业务呢登录营业执照户中心户中心户中心去过后有个份换接个工企企业开了个子。😊2304.22 毫秒1578MiB1.2GB

Fun-ASR-Nano 模型转写:

音频名音频时长标注文本转写结果转写耗时显存占用内存占用
telephone_100:00:06.64最近这块资金有需要了解咨询的吗?最近,最近,(后面我也听不清)最近这块最近有需要了解事情的吗?最近最近是有需要,你不是那个哪哪边呢?828.42 毫秒3894MiB3.1GB
telephone_200:00:04.42嗯,嗯,时间蛮长的,你平时有时间开票交税吗?啊啊,时间蛮长的。嗯,平时有开票交税吗?402.94 毫秒3894MiB3.1GB
telephone_short00:00:20.10你好,12306有什么可以帮您。欸,你好,我要咨询一下你好,幺二三零六,请问什么可以帮您?哎,你好,我想咨询一下。485.07 毫秒3894MiB3.1GB
telephone_long00:11:16.86,等。等,等,等。等。等,等,等。等,等。等。等,等,等。等。等。等,等。等,等,等,等。等。等。等,等。等。等。等,等,等。等,等,等,等,等,等。等,等,等。等。等,等,等,等,多。等,多,等。多11641.66 毫秒27460MiB3.1GB

这里发现一个问题,当输入长音频的时候,比如上面输入了11分钟多的音频,这个 Fun-ASR-Nano 的显存会涨很多,并且转写结束之后,不会恢复到之前的显存占用大小。并且这个输出的结果是完成不对的,如果使用的是 SenseVoiceSmall 则会进行截断,不会出现完全错误的结果,如果使用的 Paraformer 就会出现大量的重叠字。

5. 总结

准确率(由高到低排序)转写速度(由快到慢排序)资源占用(由多到少排序)
Fun-ASR-NanoSenseVoiceSmallFun-ASR-Nano
SenseVoiceSmallFun-ASR-NanoParaformer
ParaformerParaformerSenseVoiceSmall

6. 其它

Paraformer、SenseVoiceSmall、Fun-ASR-Nano 深度对比测试演示视频可以点击这观看。

基于 205 小时四川话数据集训练的 Paraformer 模型,可点击这里获取。

基于 2231 条客家话数据集训练的 SenseVoiceSmall 模型,可点击这里获取。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 5:42:54

AI应用架构师视角:企业数据中心合作伙伴的选择策略

AI应用架构师视角:企业数据中心合作伙伴的选择策略——从技术适配到战略协同的全维度指南 副标题:基于AI负载特性、合规要求与长期演进的决策框架 第一部分:引言与基础 (Introduction & Foundation) 1. 引人注目的标题 (Compelling Title) 主标题:AI应用架构师视角:…

作者头像 李华
网站建设 2026/4/18 1:48:11

谁在捧杀豆包手机?

豆包手机发布之后,大众为它编写了一套脚踢腾讯、拳打阿里的剧本。有人说字节要掀桌子,有人断言微信要被豆包手机干成流量管道。微信、阿里、银行等应用拒绝被豆包手机助手调用,则被广泛理解成:大厂抱团抵制创新。豆包手机&#xf…

作者头像 李华
网站建设 2026/4/18 1:46:49

Kotaemon私有化部署成本分析:硬件需求估算

Kotaemon私有化部署成本分析:硬件需求估算 在金融、医疗和政务等对数据安全要求极高的领域,越来越多企业开始将智能对话系统从公有云迁移至本地环境。这种趋势的背后,是对合规性、隐私保护以及服务可控性的刚性需求。而随着 RAG(检…

作者头像 李华
网站建设 2026/4/18 1:50:25

【2025年终盘点】GPT-5.2跌落神坛?DeepSeek V3.2与Gemini 3 Pro强强围剿,开发者如何低成本用上最强模型(附Python实战)

2025年的年底。 对于AI圈来说,绝对是“诸神黄昏”的一年。 就在上个月。 OpenAI悄无声息地发布了GPT-5.2及其Pro版本。 紧接着。 Google不甘示弱,掏出了Gemini 3 Pro Preview。 也就是内部代号“Banana Pro”的怪物级模型。 Anthropic也更新了Cla…

作者头像 李华
网站建设 2026/4/17 12:11:39

搭建我的世界服务器——游戏云VPS搭建我的世界服务器实战

想和好朋友一起长期开荒《我的世界》,经常出现“房主电脑出问题全员掉线;只有房主在才能游玩,房主不能玩时其他人不能玩该存档;”等问题,能否有一个方法,能解决这些问题呢?有的,兄弟,有的&#…

作者头像 李华
网站建设 2026/4/18 1:50:24

43、ASP.NET 2.0 数据绑定全面解析

ASP.NET 2.0 数据绑定全面解析 1. ASP.NET 2.0 数据绑定概述 ASP.NET 2.0 的一个重要目标是显著减少程序员在设计丰富、交互式、数据绑定的 Web 用户界面时所需编写的应用程序代码量。为实现这一目标,.NET Framework 为 ASP.NET Web 表单添加了许多新的控件和组件,其中很多…

作者头像 李华