人机语音交互中“听”与“说”的完整闭环:
- 语音识别 (ASR):是“听”的过程,即声波 →→ 数字信号 →→ 文字。
- 语音合成 (TTS):是“说”的过程,即文字 →→ 数字信号 →→ 声波。
为了更透彻地理解这两个过程背后的技术细节,结合前面提到的流程,我们拆解一下这中间的“黑盒”里究竟发生了什么:
1. 语音识别 (ASR):从耳朵到大脑 🎧
“数字化后的语音文件转化成文字”,在技术内部其实是一场精密的数学映射。
- 信号预处理与特征提取:
麦克风采集的声波是模拟信号,经过模数转换(采样率通常为16kHz或8kHz)变成数字波形。但计算机看不懂原始波形,所以需要通过傅里叶变换等数学工具,将声音从“时间域”转换到“频率域”,提取出梅尔频率倒谱系数 (MFCC)或滤波器组 (FBANK)特征。这相当于把声音变成了计算机能看懂的“声纹指纹”。 - 声学模型 (Acoustic Model):
这是ASR的“耳朵”。它利用深度学习模型(如Conformer或Transformer),分析这些声纹特征,预测它们最可能对应的发音单元(音素)。例如,它判断出一段波形听起来像拼音中的 "zh" 或 "ong"。 - 语言模型 (Language Model) 与解码:
这是ASR的“大脑”。光听清声音不够,还得听懂意思。比如声学模型听到了"ping guo",语言模型会根据上下文判断是水果“苹果”还是手机“Apple”。最后,解码器 结合声学概率和语言概率,计算出最合理的那句文字输出。
2. 语音合成 (TTS):从大脑到嘴巴 🗣️
“把文字转换成语音波形”,现在的技术已经能做到以假乱真,其核心在于模拟人类发声的生理机制。
- 文本分析 (Text Analysis):
这是TTS的“阅读理解”阶段。计算机不仅要读字,还要理解文本。它需要处理文本归一化(把 "100kg" 读成 "一百千克")、多音字消歧(判断“行”是读 háng 还是 xíng),并预测韵律(哪里停顿、哪里重读、语调上扬还是下降)。 - 声学模型 (Acoustic Model):
这是TTS的“声带模拟”。现代模型(如FastSpeech 2或VITS)接收文本特征,预测出声音的梅尔频谱图 (Mel-spectrogram)。频谱图就像是声音的“蓝图”,描述了声音在不同频率上的能量分布。 - 声码器 (Vocoder):
这是TTS的“嘴唇”。它负责把抽象的频谱图还原成真实的音频波形。现在的神经声码器(如HiFi-GAN)能生成极其逼真的波形,甚至能模拟出人的呼吸声和颤音,最后通过扬声器(Speaker)震动空气,变回你听到的声波。
总结:技术的镜像对称
我们可以用一个表格来对比这两个互为镜像的过程:
表格
| 核心环节 | 语音识别 (ASR) | 语音合成 (TTS) |
|---|---|---|
| 输入 | 麦克风采集的声波 | 用户输入的文本 |
| 核心特征 | MFCC / FBANK (声音指纹) | 梅尔频谱图 (声音蓝图) |
| 核心模型 | 声学模型(听音辨字) +语言模型(语义纠错) | 声学模型(文本转频谱) +声码器(频谱转波形) |
| 输出 | 文本序列 | 扬声器播放的声波 |
简单“转化”,背后其实是信号处理、深度学习和语言学的深度融合。现在的技术趋势(如端到端模型)甚至正在尝试跳过中间步骤,直接实现“语音到语音”的翻译,进一步模糊这两者的界限。