空间音频处理技术揭秘：沉浸式声音背后的科学与工程-程序员充电站

空间音频处理技术背后的科学

每一次新设备的发布或升级，目标都是为使用者带来更佳且价格合理的音频体验。今年，引入了一项自主研发的空间音频处理技术，旨在增强兼容设备上的立体声效果。

以某款特定智能音箱为例，该版本的技术针对其扬声器的特定声学设计进行了定制，并采用了上混和虚拟化等数字处理方法，使得立体声音频、电视节目和电影原声带听起来更接近听众，具有更宽的声场、更高的清晰度和更强的临场感。它将该智能音箱转变为可与标准立体声参考配置相媲美的高保真音频系统。人声表演在中央声场中更为突出，左右声道中的乐器声也更为清晰，从而创造出更能还原艺术家意图的沉浸式声音体验。

本文将重点解析如何结合心理声学（人类感知声音的方式），利用串扰消除、扬声器波束赋形和上混等技术，构建这项空间音频处理技术，以创造充满房间的空间音频体验。

心理声学：宽度、深度与听音区

在整个开发过程中，我们通过心理声学特性来刻画立体声像，包括宽度、深度和听音区。我们研究了声波在不同形状和尺寸的房间中如何与听者互动，以及信号处理方法如何影响听者的体验。

宽度：指声像中可定位元素在水平面（方位角平面）上的角度范围（宽与窄）。

在确定声场宽度时，首先考虑可定位元素，例如一个点声源，它会在听者双耳处引起时间和声级差异的声学响应。为模拟这一现象，比较耳机聆听与扬声器聆听在左右耳响应分离上的差异会有所帮助。与扬声器聆听不同，耳机聆听缺乏串扰路径。为了使耳机聆听更真实，可以使用全通信号处理滤波器模拟点声源到一耳的串扰，而对另一耳使用延迟低通滤波器。这两个滤波器近似并参数化了听者相对于其头相关传递函数（HRTF）的耳响应，HRTF包含了人耳用于定位声音的重要线索。此外，滤波器设计确保对信号频谱（或音调平衡）的修改最小，从而保留了原始播放内容。

然而，与耳机不同，外部扬声器可以根据其摆放位置为听者产生自身的串扰。例如，某款智能音箱上的左右扬声器换能器（驱动器）在设备内间隔很近，而标准立体声对中的扬声器相对于听者则呈60度角分开。

借助该音箱上的空间音频处理技术，通过串扰消除方法对每个驱动器与听者双耳之间的方程组进行建模并求逆，从而解耦了驱动器对的串扰。如果拥有两个以上的驱动器，则更通用的公式称为零陷转向，即为所有驱动器设计滤波器，使其声学响应在一耳处相互抵消。在这两种情况下，都可以对滤波器设计进行归一化，以满足由同侧耳与对侧耳在各频率上的声能功率比定义的目标消除增益曲线。这可以防止消除效果对某个精确位置的过拟合，因为听者可能位于不同的距离或没有完全正对设备中心。

为立体声输入设计好驱动器的CTC滤波器后，可以将它们与引入符合立体声参考系统串扰量的近似HRTF滤波器结合。

深度：指感知声场距离听者的远近。

音频轨道中声音元素的定位距离与声源和听者双耳之间两个信号的相关性（或相干性）有关。例如，来自扬声器的简单左或右信号很容易理解，但如果音频与房间混响混合，音频清晰度会下降，声音听起来会显得靠后。

然而，在扬声器播放中，需要应对扬声器指向性及其与房间环境的相互作用。例如，扬声器与听者之间的直接声学路径保留了原始内容所需的清晰度。但当声学信号从墙壁反射时，相干性的损失会使感知声场靠后，并导致元素在空间上变得模糊。这就是为什么在消声室或耳机上听到的曲目听起来比在混响房间中通过外部扬声器听到的曲目更近（甚至像是在听者头部内部）、更清晰的原因。在第一种情况下，声学响应直接从驱动器传到听者耳朵，而外部扬声器则必须应对房间环境的影响。

作为定制空间音频技术的一部分，可以通过仔细的波束赋形来控制扬声器的指向性。对扬声器驱动器进行滤波，可以产生在轴上相干叠加、在轴外相抵消的声场指向性。也就是说，当听者正对扬声器时声学响应最强，反之，当听者位于侧面+/- 90度时最弱。

因此，设计这种指向性的一种方法是在+/- 90度角处放置两个零陷，并控制轴上/轴外功率响应之间的消除增益或零陷形状随方位角的变化。由此产生的波束模式是：主瓣足够宽，以便在高达+/- 45度方位角的听音窗口内，直达声路径很强，然后迅速衰减，以尽量减少更远轴外（会从墙壁反射）的声能。

这具有预期的效果，使立体声音频在未经声学处理的听音环境（如客厅）中，听起来比通常更接近听者，且清晰度更高。其效果类似于剧院如何在不同的座位区域再现前方声场，尽管扬声器距离很远。

听音区：指听音区域与立体声声场之间的映射关系。

一个听音“皇帝位”——即高保真音频系统中参考立体声对的最佳立体声像——在听者位置与立体声扬声器对构成等边三角形时能得到最佳再现。如果听者角度超过+/- 30度，由于房间反射增强导致扬声器间到耳的相干性丧失，会在听者的幻象中心产生空洞。音频混音中的重要元素，如人声，会失去其存在感。如果听者角度小于+/- 30度，则声像变窄，声音元素向中心靠拢。如果听者位置偏离中心轴，则立体声像会偏向一侧。

为了解决这个问题，我们的空间音频技术旨在在最大的听音区域内再现立体声像。实际上，经CTC滤波处理的播放的预期听音区域与控制扬声器指向性的波束赋形设计目标存在冲突。可以通过执行立体声上混，然后对每个声道应用不同的波束赋形滤波器来达成折衷。例如，可以上混为左、右和中央声道，其中中央声道与经中/侧分解得到的左减右信号相关性最小。

上混后的左声道经过虚拟化后消除右耳串扰的CTC滤波器处理，上混后的右声道消除左耳串扰，而中央声道则采用具有宽主瓣的波束赋形。这意味着人声表演在中央更为突出，而左右声像中的乐器声在两侧更为清晰，为听者创造了更沉浸的声音体验。

我们正在持续迭代和完善整个设备系列的技术，以为使用者带来最佳的音频体验。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

空间音频处理技术揭秘：沉浸式声音背后的科学与工程

空间音频处理技术背后的科学

心理声学：宽度、深度与听音区

揭秘Java模块系统的类文件操作：5个你必须掌握的高效读写方法

Java开发者必看，如何用AI重构飞算需求描述流程？

开发者必备：集成VoxCPM-1.5-TTS-WEB-UI到你的Web应用中

Java实现ML-KEM密钥封装全攻略（后量子安全新标准）

基于PID的四旋翼无人机轨迹跟踪控制仿真程序：MATLAB Simulink S-Functi...

客户服务质检：AI用VoxCPM-1.5-TTS-WEB-UI重放并点评坐席对话