news 2026/4/17 18:09:03

GLM-ASR - 最强中文及方言语音识别利器 语音识别 语音转文字 支持50系显卡 一键整合包下载

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GLM-ASR - 最强中文及方言语音识别利器 语音识别 语音转文字 支持50系显卡 一键整合包下载

GLM-ASR 是智谱AI开源的一个语音识别模型,虽然体积小,只有1.5B的参数量,但识别速度快、准确率高,在中文和方言识别上表现非常突出,尤其擅长处理低音量、嘈杂环境下的语音,比很多同类模型更稳健。

GLM-ASR 支持 17 种语言,包括日、英、法、德、俄、西等主流语言,甚至连加泰罗尼亚语、立陶宛语这种小语种都支持,在中文和地方方言,比如粤语场景下远超老牌语音识别模型 Whisper。

今天分享的 GLM-ASR 一键包基于 智谱AI 最新开源的 GLM-ASR-Nano-2512 模型打包制作,WebUI包括单次转写和批量转写两个模块,支持音频/视频一键转写, 同时支持生成txt和srt字幕文件,方便二次创作。因视频转写效率不如直接音频转写,故新增视频转音频功能,如果是视频文件,建议先将视频转换为音频,再进行转写操作。

下载地址:点此下载



主要特点

开源且轻量:参数量 1.5B,相比一些超大模型运行速度更快,同时保持高精度。
方言支持强:不仅能识别普通话和英语,还特别优化了粤语等方言,解决了很多语音识别模型在方言上的短板。除标准普通话和英语外,模型针对粤语及其他方言进行了深度优化。对于做港剧字幕组、粤语客服质检的小伙伴来说,有效填补了方言识别领域的空白。
低音量识别能力:专门训练过“轻声/低音量”场景,即使说话很轻也能准确转写。它专门针对 "低语/轻声"场景进行训练,能够捕捉并准确转录传统模型难以识别的极低音量音频。以后开会偷偷录音(误),也不怕听不清了。
高性能:在中文语音识别的常见测试集(如 Wenet Meeting、Aishell-1)上,平均错误率只有 4.10%,优于 OpenAI Whisper V3 等模型。
多语言支持:支持 17 种语言,常见语种的识别错误率都在可用范围内(WER ≤ 20%)。包括日、英、法、德、俄、西等主流语言,甚至连加泰罗尼亚语、立陶宛语这种小语种都支持



应用领域

会议记录:在多人会议、嘈杂环境下依然能准确转写,适合企业会议纪要。
客服与呼叫中心:支持方言和低音量识别,能更好理解不同客户的语音输入。
教育与学习:帮助学生或研究者快速转写课堂、讲座内容。
媒体与字幕:为视频、播客自动生成字幕,尤其适合中文和粤语内容。
智能设备:在语音助手、智能家居中提升识别准确率,尤其在安静或嘈杂场景下。



使用教程:(建议N卡,显存4G起,支持50系显卡)

支持CPU和CUDA两种运行模式,CPU较慢,有条件建议使用CUDA(独立显卡)模式

支持音频、视频转换,支持批量音频转换。上传需要转写的音频/视频文件,点 开始识别 即可。
注意:视频识别不如音频识别准确率高,建议使用音频转写。视频文件可先用WebUI里的视频转音频,转换后音频文件保存在audio_temp目录,再使用转换后的音频转写。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 14:06:05

codex的效率命令也能提速?vLLM镜像赋能代码生成模型

vLLM镜像如何让代码生成快如闪电? 在现代软件开发中,AI驱动的代码补全正从“炫技功能”变成工程师的日常刚需。但当你在IDE里敲下几个字符、期待模型秒出建议时,背后可能正有一场关于显存利用率和吞吐量的“暗战”——尤其是面对Codex这类强大…

作者头像 李华
网站建设 2026/4/16 13:13:52

智能网页工作日历备忘录,集日程规划、任务管理、提醒功能于一体的个人效率提升工具

大飞哥智能网页工作日历备忘录:集日程规划、任务跟踪与数据管理于一体,高效提升时间管理效率软件搭载多元化日历视图体系,为用户提供全面且灵活的时间查看体验。不仅涵盖月视图、周视图、日视图三种核心模式,还支持同时展示多个月…

作者头像 李华
网站建设 2026/4/14 0:10:39

教育类独立站开发:课程展示、在线报名、付费课程与学员管理系统

在知识付费与在线教育的风口下,教育类独立站凭借 **“品牌自主、数据可控、变现灵活”的优势,成为教培机构、知识博主、职业教育品牌的核心获客与变现阵地。但多数教育独立站存在课程展示同质化、报名流程繁琐、付费转化低、学员管理混乱 ** 等问题 ——…

作者头像 李华
网站建设 2026/4/5 21:50:10

力扣刷题之102、二叉树的层序遍历

力扣刷题之102、二叉树的层序遍历 题目难度:中等 标签:树、广度优先搜索(BFS)、二叉树 题目描述 给你二叉树的根节点 root,返回其节点值的 层序遍历。(即逐层地,从左到右访问所有节点&#xff…

作者头像 李华
网站建设 2026/4/15 20:03:09

LobeChat是否支持表情符号?情感表达丰富度评估

LobeChat 是否支持表情符号?一场关于情感表达的技术深潜 在智能对话系统日益普及的今天,用户早已不再满足于“提问—回答”这种机械式的交互。我们希望 AI 能读懂语气里的犹豫,回应中的调侃,甚至能从一句“嗯……🤔”里…

作者头像 李华
网站建设 2026/4/18 1:35:19

周报 | 25.12.8-25.12.14文章汇总

为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。 集智书童 | 特征匹配迭代训练 | EM-DETR实现医学图像检测三大模态性能突破-CSDN博客 江大白 | 多模态训推标注一体化平台 X-AnyLabeling 3.0 正式发布: Qwen3-VL、SAM3、远程推理全升级&#xff0…

作者头像 李华