news 2026/4/26 18:33:35

[具身智能-462]:语音识别是把通过麦克风接收到的声波转化成语音波形,经过数字化后的语音文件转化成文字;语音合成是把文字转换成语音波形,然后通过speaker转换成声波。

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[具身智能-462]:语音识别是把通过麦克风接收到的声波转化成语音波形,经过数字化后的语音文件转化成文字;语音合成是把文字转换成语音波形,然后通过speaker转换成声波。

人机语音交互中“听”与“说”的完整闭环:

  • 语音识别 (ASR):是“听”的过程,即声波 →→ 数字信号 →→ 文字
  • 语音合成 (TTS):是“说”的过程,即文字 →→ 数字信号 →→ 声波

为了更透彻地理解这两个过程背后的技术细节,结合前面提到的流程,我们拆解一下这中间的“黑盒”里究竟发生了什么:

1. 语音识别 (ASR):从耳朵到大脑 🎧

“数字化后的语音文件转化成文字”,在技术内部其实是一场精密的数学映射。

  • 信号预处理与特征提取
    麦克风采集的声波是模拟信号,经过模数转换(采样率通常为16kHz或8kHz)变成数字波形。但计算机看不懂原始波形,所以需要通过傅里叶变换等数学工具,将声音“时间域”转换到“频率域”,提取出梅尔频率倒谱系数 (MFCC)滤波器组 (FBANK)特征。这相当于把声音变成了计算机能看懂的“声纹指纹”。
  • 声学模型 (Acoustic Model)
    这是ASR的“耳朵”。它利用深度学习模型(如ConformerTransformer),分析这些声纹特征,预测它们最可能对应的发音单元(音素)。例如,它判断出一段波形听起来像拼音中的 "zh" 或 "ong"。
  • 语言模型 (Language Model) 与解码
    这是ASR的“大脑”。光听清声音不够,还得听懂意思。比如声学模型听到了"ping guo"语言模型会根据上下文判断是水果“苹果”还是手机“Apple”。最后,解码器 结合声学概率和语言概率,计算出最合理的那句文字输出。

2. 语音合成 (TTS):从大脑到嘴巴 🗣️

“把文字转换成语音波形”,现在的技术已经能做到以假乱真,其核心在于模拟人类发声的生理机制。

  • 文本分析 (Text Analysis)
    这是TTS的“阅读理解”阶段。计算机不仅要读字,还要理解文本。它需要处理文本归一化(把 "100kg" 读成 "一百千克")多音字消歧(判断“行”是读 háng 还是 xíng),并预测韵律(哪里停顿、哪里重读、语调上扬还是下降)。
  • 声学模型 (Acoustic Model)
    这是TTS的“声带模拟”。现代模型(如FastSpeech 2VITS)接收文本特征,预测出声音的梅尔频谱图 (Mel-spectrogram)。频谱图就像是声音的“蓝图”,描述了声音在不同频率上的能量分布。
  • 声码器 (Vocoder)
    这是TTS的“嘴唇”。它负责把抽象的频谱图还原成真实音频波形。现在的神经声码器(如HiFi-GAN)能生成极其逼真的波形,甚至能模拟出人的呼吸声和颤音,最后通过扬声器(Speaker)震动空气,变回你听到的声波。

总结:技术的镜像对称

我们可以用一个表格来对比这两个互为镜像的过程:

表格

核心环节语音识别 (ASR)语音合成 (TTS)
输入麦克风采集的声波用户输入的文本
核心特征MFCC / FBANK (声音指纹)梅尔频谱图 (声音蓝图)
核心模型声学模型(听音辨字) +语言模型(语义纠错)声学模型(文本转频谱) +声码器(频谱转波形)
输出文本序列扬声器播放的声波

简单“转化”,背后其实是信号处理深度学习语言学的深度融合。现在的技术趋势(如端到端模型)甚至正在尝试跳过中间步骤,直接实现“语音到语音”的翻译,进一步模糊这两者的界限。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/26 18:30:42

告别外置EEPROM:用AT32F403A内部Flash存储配置参数(附完整代码)

告别外置EEPROM:AT32F403A内部Flash存储实战指南 在消费电子和IoT设备开发中,每分钱成本都关乎产品竞争力。传统方案依赖外置EEPROM存储配置参数,但一颗EEPROM芯片不仅增加$0.1-$0.5的BOM成本,还占用宝贵的PCB面积。AT32F403A作为…

作者头像 李华
网站建设 2026/4/26 18:15:23

终极指南:Downkyi轻松下载B站8K超高清视频

终极指南:Downkyi轻松下载B站8K超高清视频 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等)。 …

作者头像 李华
网站建设 2026/4/26 18:13:37

数组中的第K个最大元素

提示&#xff1a;注意一下本题题意与此处代码的避免差一错误的细节。class Solution { public:int findKthLargest(vector<int>& nums, int k) {quickSelect(nums, 0, nums.size() - 1, k - 1);return nums[k - 1];} ​void quickSelect(vector<int>& arr,…

作者头像 李华
网站建设 2026/4/26 18:09:21

在线教育平台中的个性化学习路径推荐

在线教育平台中的个性化学习路径推荐 随着互联网技术的飞速发展&#xff0c;在线教育平台已成为越来越多人获取知识的重要途径。面对海量的学习资源和多样化的学习需求&#xff0c;如何为每位学习者推荐最适合的个性化学习路径&#xff0c;成为提升学习效率的关键。个性化学习…

作者头像 李华