news 2026/4/18 7:10:47

ITU-T G.723 与 G.723.1 语音编码标准综合研究报告:从传统 ADPCM 到多媒体双速率编码的演进与技术深度解析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ITU-T G.723 与 G.723.1 语音编码标准综合研究报告:从传统 ADPCM 到多媒体双速率编码的演进与技术深度解析

ITU-T G.723 与 G.723.1 语音编码标准综合研究报告:从传统 ADPCM 到多媒体双速率编码的演进与技术深度解析

1. 执行摘要

在数字通信的历史长河中,国际电信联盟(ITU-T)制定的 G.723 系列标准占据着极为特殊且复杂的地位。本报告旨在对“G.723”这一术语背后所涵盖的两个截然不同但技术上一脉相承的标准——即已废止的 G.723(ADPCM 扩展)和现行的 G.723.1(双速率多媒体语音编码)——进行详尽的对比研究与技术剖析。尽管在现代 VoIP 语境下,人们提及“G.723”时通常指代 G.723.1,但厘清二者的历史沿革对于理解数字语音压缩技术的发展脉络至关重要。

本报告将首先澄清标准命名的混淆,随后深入 G.723.1 的核心架构,详细解构其基于线性预测分析合成(Analysis-by-Synthesis)的混合编码机制。重点章节将涵盖 6.3 kbit/s 多脉冲最大似然量化(MP-MLQ)与 5.3 kbit/s 代数码激励线性预测(ACELP)的算法差异、Annex A 附件中的静音检测(VAD)与舒适噪声生成(CNG)机制、以及其在 H.323 和 H.324 协议栈中的关键作用。此外,报告还将结合现代 DSP 实现挑战、丢包隐藏(PLC)策略以及与 G.729、Opus、MELPe 等竞品的性能对比,探讨 G.723.1 在当前宽带与卫星通信环境下的生存现状与专利法律状态。

2. 历史背景与标准演进

2.1 术语的澄清:G.723 与 G.723.1 的历史分野

在深入技术细节之前,必须首先解决电信工程领域长期存在的一个术语混淆问题:ITU-T 实际上发布过两个代号含有“723”的标准,它们服务于不同的时代背景和应用需求。

G.723(旧版,已废止):
该标准全称为“Extensions of Recommendation G.721 adaptive differential pulse code modulation to 24 and 40 kbit/s for digital circuit multiplication equipment application”(用于数字电路倍增设备的 G.721 自适应差分脉冲编码调制扩展)1。G.723 最初发布于 1988 年,它是 G.721(32 kbit/s ADPCM)的直接衍生品。G.721 及其扩展 G.723 的设计初衷是为了在早期的数字中继线路上通过压缩增加话路容量,特别是针对数字电路倍增设备(DCME)。该技术基于波形编码,利用信号样本间的相关性进行差分量化。然而,随着技术的整合,ITU-T 最终将 G.721、G.723 以及相关的 16 kbit/s 编码方案合并为一个统一的新标准——G.726。因此,原始的 G.723 标准已被正式废止,不再用于新系统的设计。
G.723.1(现行,VoIP 基石):
1996 年,ITU-T 发布了 G.723.1 标准,全称为“Dual rate speech coder for multimedia communications transmitting at 5.3 and 6.3 kbit/s”(用于以 5.3 和 6.3 kbit/s 传输的多媒体通信的双速率语音编码器)3。这是一个全新的、基于参数编码与波形编码混合模型(Hybrid Coder)的标准,专为极低比特率应用设计。它的出现是为了满足 H.324 视听通信终端在模拟电话线(PSTN)上进行视频会议的需求。由于 PSTN 线路带宽极其受限(通常最高 33.6 kbit/s),视频流占据了绝大部分带宽,音频流必须被压缩至 6 kbit/s 以下。
结论:本报告随后的篇幅将主要聚焦于G.723.1,即现代 VoIP、视频会议和无线通信中广泛使用的双速率编解码器。除特别说明外,下文中的“G.723”均指代“G.723.1”。

2.2 标准化动机与多媒体通信的兴起

20 世纪 90 年代中期,互联网与多媒体通信开始萌芽。传统的 G.711(64 kbit/s)虽然音质好、延迟低,但带宽占用过高,无法适应当时的拨号上网环境。G.723.1 的设计目标是在极低的比特率下提供“电信级”(Toll Quality)的语音质量。

  • H.324 协议族的核心:G.723.1 是 H.324 标准(PSTN 视频电话)的强制性音频编解码器。这意味着任何合规的 H.324 终端都必须支持 G.723.1 的编码和解码。
  • H.323 与 VoIP 的爆发:随着 IP 电话(VoIP)的兴起,H.323 协议成为早期的主导标准。G.723.1 因其极高的压缩效率(仅需 5.3/6.3 kbps),成为早期 VoIP 网关、长途 IP 电话卡业务的首选。在带宽昂贵的跨洋链路中,使用 G.723.1 可以将原本只能承载 1 路 G.711 语音的 64k 专线扩展为承载 8-10 路语音,极大地降低了运营成本。

3. G.723.1 核心技术架构

G.723.1 采用了一种混合编码架构,属于线性预测分析合成(Analysis-by-Synthesis, AbS)编码类别。这种架构结合了线性预测编码(LPC)对声道模型的描述能力,以及通过闭环搜索确定的激励信号对残差的精细量化能力。

3.1 编码器总体流程与参数指标

编码器的工作流程是基于帧(Frame)的。G.723.1 定义了一个相对较长的帧结构,以换取更高的编码效率。

表 3.1.1: G.723.1 关键技术参数

参数规格描述技术影响分析
采样频率8000 Hz典型的窄带语音采样,覆盖 300-3400 Hz 人声频率范围。
编码算法6.3 kbit/s: MP-MLQ 5.3 kbit/s: ACELP双速率设计允许系统根据网络拥塞情况动态调整速率和质量。
帧长30 ms (240 样本)较长的帧长提高了频谱参数的编码效率,但也增加了固有延迟。
子帧结构4 个子帧 (每个 7.5 ms / 60 样本)激励信号(Excitation)在子帧级别进行优化和更新。
前瞻 (Look-ahead)7.5 ms用于 LPC 分析的平滑过渡,确保帧边界的连续性。
算法总延迟37.5 ms30 ms 帧长+ 7.5 ms 前瞻。不包括处理延迟和传输延迟。
复杂度~16-25 MIPS相比 G.729 (15 MIPS) 略高,主要消耗在码本搜索上。
MOS 分 (PSQM)~3.9 (6.3k), ~3.62 (5.3k)6.3k 模式接近 G.729 和 G.711 的主观质量。

3.2 预处理与线性预测 (LPC) 分析

信号进入编码器后,首先经过一个高通滤波器(High-pass Filter)以去除直流分量和超低频噪声。随后进行线性预测分析,这是整个编码器的基础。

  1. LPC 计算:编码器对每个子帧(60 样本)进行 10 阶 LPC 分析。LPC 系数模拟了人类声道的共振特性(共振峰)。通过汉明窗(Hamming Window)对以子帧为中心的 180 个样本进行加权,计算自相关系数,进而利用 Levinson-Durbin 递归算法求解 LPC 系数。
  2. LSP 转换与量化:为了保证滤波器在量化后的稳定性及提高传输效率,LPC 系数被转换为线谱对(Line Spectral Pairs, LSP)频率。
    • 预测分裂矢量量化 (PSVQ):仅对每一帧的最后一个子帧的 LSP 系数进行量化传输。G.723.1 使用预测分裂矢量量化技术,利用上一帧的 LSP 值进行预测,仅量化残差。
    • 插值:前三个子帧的 LSP 系数通过当前帧和上一帧量化后的 LSP 进行线性插值获得。这种方法大幅减少了描述频谱包络所需的比特数(仅需 24 bits/帧)。

3.3 感知加权与开环基音估计

为了利用人耳的听觉掩蔽效应(Masking Effect),编码器构建了一个感知加权滤波器W ( z ) W(z)W(z)。该滤波器会压低共振峰区域的量化噪声,使其被高能量的语音信号掩盖,同时允许在波谷区域(人耳不敏感区域)存在较多噪声。

开环基音搜索 (Open-Loop Pitch Search):在进行精细的闭环搜索前,编码器首先进行一次粗略的基音周期估计。

  • 频率:每两个子帧(120 样本,即 15 ms)进行一次。
  • 方法:在感知加权后的语音信号上计算自相关函数,搜索范围通常为 18 到 142 个样本(对应约 56 Hz 到 444 Hz 的基音频率)。
  • 作用:这一步得到的开环基音延迟L O L L_{OL}LOL极大地缩小了后续闭环搜索的范围,降低了计算复杂度。

3.4 闭环分析:自适应码本与固定码本

这是 G.723.1 算法的核心,遵循分析-合成(AbS)环路。

  1. 自适应码本 (Adaptive Codebook) 搜索:
    • 目的:模拟语音信号中的长时相关性,即周期性成分(Pitch)。
    • 过程:编码器在开环基音L O L L_{OL}LOL附近的小范围内搜索最佳的闭环基音延迟(Lag)和增益(Gain)。
    • 五阶基音预测器:为了提高精度,G.723.1 使用了一个 5 阶的基音预测滤波器,这不仅能匹配整数延迟,还能通过多相插值模拟分数延迟,从而更准确地重构周期性波形。
    • 子帧处理:第 1 和第 3 子帧传输完整的基音周期(各 7 bits),而第 2 和第 4 子帧传输相对于前一子帧的差分值(各 2 bits),以此节省带宽。
  2. 固定码本 (Fixed Codebook) 搜索:
    从目标信号中减去自适应码本的贡献后,剩余的残差信号(通常包含非周期性成分和噪声)由固定码本进行建模。这是 6.3 kbps 和 5.3 kbps 两种模式产生本质区别的地方。

4. 双速率算法详解:MP-MLQ 与 ACELP

G.723.1 的独特之处在于它在同一个标准框架下集成了两种不同的激励量化机制。系统可以在每一帧的边界处动态切换这两种模式,且共享相同的 LPC 分析和基音搜索模块。

4.1 6.3 kbit/s 模式:多脉冲最大似然量化 (MP-MLQ)

高比特率模式采用MP-MLQ (Multi-Pulse Maximum Likelihood Quantization)算法。MP-MLQ 的核心思想是不使用预先存储的固定随机码本,而是通过计算在每个子帧中确定少数几个脉冲的最佳位置和幅度,来尽可能逼近残差信号。

  • 脉冲分布:
    • 对于偶数子帧,MP-MLQ 寻找6 个最佳脉冲位置。
    • 对于奇数子帧,MP-MLQ 寻找5 个最佳脉冲位置。
  • 栅格限制:脉冲位置被限制在特定的栅格(Grid)上,通常分为奇数位置栅格和偶数位置栅格。通过传输一个“栅格索引”位,可以指示所有脉冲是位于偶数位置还是奇数位置。
  • 复杂性与质量:MP-MLQ 允许脉冲在子帧内具有较高的位置自由度,因此能够更精确地重构语音的时域波形,特别是对于浊音段的瞬态特性保持较好。这解释了为何 6.3k 模式的 MOS 分(3.9)高于 5.3k 模式。然而,搜索最佳脉冲位置涉及复杂的卷积和互相关运算,占据了编码器约 50% 的运算量。

4.2 5.3 kbit/s 模式:代数码激励线性预测 (ACELP)

低比特率模式采用ACELP (Algebraic Code-Excited Linear Prediction)算法。ACELP 是现代语音编码(如 G.729, AMR, EVS)中最主流的技术,但在 G.723.1 中被用于低速率档位。

  • 代数结构:ACELP 不存储庞大的码本,而是通过代数规则生成激励向量。
  • 脉冲结构:每个子帧(60 样本)包含4 个非零脉冲。每个脉冲都有固定的符号(+1 或 -1)和受限的位置轨道(Track)。例如,脉冲 0 可能只能放置在位置 0, 8, 16…,脉冲 1 只能放置在 1, 9, 17… 等。
  • 优势:
    • 存储效率:无需 ROM 存储码本。
    • 搜索效率:利用这种结构化的稀疏性,可以采用快速搜索算法(如深度优先树搜索或聚焦搜索)来确定脉冲位置。
    • 比特率:由于位置受到严格限制,编码这些位置所需的比特数远少于 MP-MLQ(5.3k 模式每子帧仅需 12 bits 用于位置,而 6.3k 需要更多)。

4.3 比特分配深度解析

为了实现 15,000 字级别的深度报告,我们需要详细剖析每一帧数据的比特构成。表 4.3.1 展示了两种速率下 30ms 帧的详细比特分配。

表 4.3.1: G.723.1 帧比特分配详解

参数组描述6.3 kbit/s (192 bits/帧)5.3 kbit/s (160 bits/帧)
LPC 参数线性预测系数 (LSP 索引)24 bits24 bits
自适应码本 (ACL)基音周期 (Lag)子帧 0,2: 各 7 bits 子帧 1,3: 各 2 bits共 18 bits同左共 18 bits
固定/自适应增益混合增益量化索引12 bits × 4 子帧共 48 bits12 bits × 4 子帧共 48 bits
脉冲位置 (Grid/Pos)固定码本脉冲位置73 bits(非均匀分配)12 bits × 4 子帧共 48 bits
脉冲符号 (Signs)脉冲极性22 bits4 bits × 4 子帧共 16 bits
栅格索引 (Grid Idx)奇/偶栅格指示2 bits(仅用于部分子帧)4 bits(每子帧 1 bit)
其他/保留保留位/校验位5 bits2 bits
总计192 bits (24 Bytes)160 bits (20 Bytes)

分析:从表中可以看出,LPC 和自适应码本(基音)在两种模式下占用相同的比特数,这保证了两种模式在频谱包络和基音周期描述上的一致性。主要的比特节省来自于固定码本部分:ACELP 通过严格限制脉冲位置(仅 48 bits 用于位置,16 bits 用于符号),比 MP-MLQ(73 bits 用于位置,22 bits 用于符号)节省了约 32 bits,从而实现了从 6.3k 到 5.3k 的压缩。

5. Annex A: 增强的静音压缩机制 (VAD/CNG/DTX)

G.723.1 的 Annex A (G.723.1A) 是该标准在实际部署中最重要的附件。它引入了不连续传输(DTX)机制,利用语音通信中的静默期大幅降低平均带宽。

5.1 语音活动检测 (VAD) 的决策逻辑

VAD 的核心任务是实时判断当前帧是“语音(Active Voice)”还是“噪声/静音(Noise/Silence)”。G.723.1 Annex A 采用了一种基于能量和频谱特征的综合判决逻辑。

  1. 特征提取:
    • 全带能量(Full-band Energy):计算当前帧的均方根能量。
    • 逆滤波能量:信号通过 LPC 逆滤波器后的残差能量。这有助于区分高能量的语音共振峰和宽带噪声。
    • 噪声估计:算法维护一个背景噪声的能量估计值,该值在静音段缓慢更新。
  2. 阈值比较机制:VAD 使用自适应阈值来做决策。
    • 公式逻辑:若当前帧能量E c u r r > k ⋅ E n o i s e E_{curr} > k \cdot E_{noise}Ecurr>kEnoise,则判定为语音(VAD=1),其中k kk是一个根据信噪比(SNR)动态调整的比例因子。
    • Hangover(挂起)机制:为了避免语音切尾(Clipping),特别是在语音能量较低的尾部(如送气音),VAD 在检测到从“语音”转为“静音”时,会强制保持若干帧的“语音”状态。G.723.1A 通常使用 2-3 帧的 Hangover。

5.2 舒适噪声生成 (CNG) 与 SID 帧

当 VAD 判定进入静音状态时,编码器停止发送 20 或 24 字节的语音帧,转而发送SID (Silence Insertion Descriptor)帧。

  • SID 帧结构:4 字节(32 bits)。它包含:
    • 更新的 LPC 参数(描述背景噪声的频谱形状)。
    • 增益参数(描述背景噪声的能量水平)。
  • CNG 机制:解码器接收到 SID 帧后,利用其中的参数生成随机噪声,并通过 LPC 合成滤波器,产生与发送端背景环境听感一致的“舒适噪声”。
  • 带宽影响:在典型的双向对话中,静音期约占 50%-60%。启用 Annex A 后,G.723.1 的平均比特率可降至 3-4 kbps 左右,这对于按流量计费的卫星链路或拥塞的 IP 网络至关重要。

6. DSP 实现与优化挑战

G.723.1 的高复杂度(相对于 G.711)给早期的嵌入式系统设计带来了巨大挑战。本节分析其在数字信号处理器(DSP)上的实现细节。

6.1 定点运算与精度

ITU-T 参考代码通常基于定点(Fixed-point)数学运算。这是因为早期的 DSP(如 TI TMS320C54x)主要是定点处理器。

  • 挑战:LPC 递归和码本搜索涉及大量的乘加运算(MAC)。在 16 位定点 DSP 上,必须精心设计缩放因子(Scaling Factors)以防止溢出或下溢,同时保持足够的精度以避免量化噪声劣化音质。
  • MP-MLQ 优化:原始的 MP-MLQ 搜索需要极高的运算量。研究表明,通过剔除与零值的乘法运算(因为脉冲是稀疏的)以及利用奇偶位置的互斥性,可以将关键循环的运算量降低 50% 以上。

6.2 资源消耗分析

不同的 DSP 架构对 G.723.1 的资源消耗表现不同。下表展示了在德州仪器(TI)主流 DSP 平台上的典型性能数据。

表 6.2.1: G.723.1 在 TI DSP 上的资源占用 (Annex A)

DSP 平台编码模式MCPS (百万周期/秒)程序存储器 (Bytes)表存储器 (Bytes)数据存储器 (Bytes)
C64x+5.3 k Encoder~7.8 MCPS~97 KB~42 KB~3.2 KB
C64x+6.3 k Encoder~8.0 MCPS~97 KB~42 KB~3.2 KB
C64x+Decoder~0.9 MCPS(共享)(共享)~0.5 KB
C54x (Legacy)Encoder~18-24 MIPS---

分析:

  • 编码器的复杂度远高于解码器(约 8-10 倍)。
  • 在现代高性能 DSP(如 C64x+)上,G.723.1 仅占用极小部分的算力(<10 MCPS),允许单芯片支持数百路并发转码。
  • 但在 90 年代的 C54x 时代,单芯片仅能支持 2-4 路,这使得 G.723.1 网关的成本在当时居高不下。

7. 网络传输与系统集成

G.723.1 不仅仅是一个算法,更是通信系统中的一个组件。理解其在网络层的封装和交互至关重要。

7.1 RTP 载荷格式与带宽计算

在 VoIP 中,语音帧被封装在 RTP (Real-time Transport Protocol) 包中。

  • 打包策略:由于 30 ms 的帧长较长,通常每个 RTP 包仅携带1 个G.723.1 帧。相比之下,G.729(10 ms 帧)通常每包携带 2 个帧(20 ms)以平衡头部开销。
  • 带宽开销:这一点常被误解。尽管 6.3 kbps 远低于 64 kbps,但 IP/UDP/RTP 头部(通常 40 字节)是巨大的开销。

表 7.1.1: 实际网络带宽占用对比 (Ethernet, 1 帧/包)

编解码器载荷 (Bytes)包间隔 (ms)PPS (包/秒)载荷速率 (kbps)头部速率 (kbps)*总带宽 (kbps)
G.723.1 (6.3k)243033.36.410.617.0
G.723.1 (5.3k)203033.35.310.615.9
G.729 (8k)20 (2帧)2050.08.016.024.0
G.711 (64k)1602050.064.016.080.0

*注:头部速率假设为 40 字节 (IP+UDP+RTP) × 8 bits × PPS。不含以太网链路层开销。

深度洞察:表 7.1.1 揭示了 G.723.1 的一个隐性优势——低包率 (Low Packet Rate)。由于每秒只发 33.3 个包,相比 G.729 的 50 个包,G.723.1 在头部开销上节省了约 35% (10.6k vs 16.0k)。这使得它在总带宽上比 G.729 节省了近 30% (17k vs 24k),这对于按流量计费的卫星链路(如 Inmarsat BGAN 或 Iridium Certus)具有决定性意义。

7.2 丢包隐藏 (PLC) 机制详解

在尽力而为(Best-effort)的 IP 网络上,丢包在所难免。G.723.1 内置了鲁棒的 PLC 算法。

  1. 参数重复与外推:当检测到丢包时,解码器使用上一帧的 LSP 参数和基音周期作为当前帧的估计值。
  2. 激励生成:
    • 浊音(Voiced):根据上一帧的基音周期,周期性地重复之前的激励信号。
    • 清音(Unvoiced):使用随机噪声发生器产生激励,保持能量水平与上一帧相似。
  3. 能量衰减(Muting):如果发生连续丢包,PLC 会逐步降低合成信号的增益(例如每帧衰减 2.5 dB),直到完全静音。这防止了在长时间网络中断时产生持续的、令人不适的机械音或啸叫。
  4. 性能边界:实验表明,G.723.1 的 PLC 在 5% 的随机丢包率下能保持 MOS 分仅下降约 0.5。但对于超过 3 帧(90 ms)的连续丢包,音质会迅速变得不可接受。

8. 与现代及专用编解码器的横向对比

为了全面评估 G.723.1 的价值,必须将其置于更广阔的坐标系中,与军事/卫星专用标准(MELPe)及现代互联网标准(Opus)进行对比。

8.1 G.723.1 vs MELPe (军事/超低速率)

MELPe (Mixed Excitation Linear Prediction Enhanced, MIL-STD-3005) 是北约和美军使用的标准,专为战术无线电设计。

  • 速率:MELPe 提供 2400 bps, 1200 bps 甚至 600 bps 的速率,远低于 G.723.1 的 5.3k。
  • 原理:MELPe 采用混合激励模型,将频带分为多个子带,分别判定清/浊音,从而更自然地合成嘶哑声和混合声。而 G.723.1 的 ACELP 模型在低速率下往往产生“金属音”。
  • 适用性:G.723.1 无法在 2.4k 速率下工作。如果链路带宽只有 3-4 kbps(如 HF 无线电),MELPe 是唯一选择。如果在 16-32 kbps 的卫星链路,G.723.1 因其免费和广泛支持而更具优势。

8.2 G.723.1 vs G.729 (VoIP 双雄)

  • 质量:G.729 (8k) 的 MOS 分 (4.0) 略高于 G.723.1 6.3k (3.9),听感上 G.729 更饱满,不易疲劳。
  • 延迟:G.729 的 15ms 算法延迟远优于 G.723.1 的 37.5ms。这使得 G.729 更适合交互式对话。
  • 结论:G.729 赢得了主流 VoIP 市场,而 G.723.1 退守至对带宽最敏感的边缘市场。

8.3 G.723.1 vs Opus (现代全能王)

  • 代差:Opus (RFC 6716) 是 2012 年发布的下一代标准,结合了 SILK (Skype) 和 CELT 技术。
  • 性能:在 6 kbps 速率下,Opus 的窄带语音质量明显优于 G.723.1。Opus 支持全频带(Full-band, 48 kHz 采样),而 G.723.1 仅限窄带。
  • 现状:在 WebRTC 和 OTT 应用(如 WhatsApp, Discord)中,Opus 已完全取代 G.723.1。但在旧式硬件 SIP 电话和 H.323 视频会议终端中,G.723.1 仍作为“最小公分母”存在。

9. 知识产权与法律状态

G.723.1 的普及与其复杂的专利历史密切相关。

  • 专利池:G.723.1 的核心专利曾由AudioCodes, Orange SA, Université de Sherbrooke, Nippon Telegraph and Telephone (NTT), Nokia等巨头持有,并由Sipro Lab Telecom管理授权。在 2017 年之前,每个并发通道通常需要支付约 1-5 美元的授权费。
  • 过期与解放:关键的时间节点是2017 年 1 月 1 日。Sipro Lab 官方宣布,G.723.1 的绝大多数核心专利已到期。专利持有者同意从该日期起,对现有授权协议下的专利实行免版税 (Royalty-Free)许可。
  • 影响:这一变化消除了开源软件(如 Asterisk, FreeSWITCH, FFmpeg)集成 G.723.1 的法律障碍。虽然对于新应用来说 Opus 是更好的免费选择,但对于需要维护旧系统的集成商来说,这是一个重大利好。

10. 结论与未来展望

ITU-T G.723.1 标准是数字语音编码史上的丰碑。它在 DSP 处理能力受限、网络带宽昂贵的 90 年代,通过巧妙的 MP-MLQ 和 ACELP 混合架构,成功地将语音通信的门槛降低到了 5-6 kbps 的水平。它不仅是 H.324 和 H.323 标准的基石,更是早期 VoIP 产业爆发的关键推手。

主要结论:

  1. 技术成就:G.723.1 证明了在极低速率下实现电信级语音质量是可能的,其采用的 LSP 量化、感知加权和代数码本思想深刻影响了后续的 AMR 和 EVS 标准。
  2. 带宽效率:得益于 30ms 的长帧结构,G.723.1 在实际 IP 网络中拥有极低的头部开销和包率,使其在卫星通信和极窄带物联网语音中仍具有不可替代的优势。
  3. 生存现状:虽然在音质和延迟上已无法与 Opus 抗衡,且缺乏宽带支持,但庞大的存量设备(Legacy Devices)和免专利费的特性,确保了 G.723.1 在未来 5-10 年内仍将作为“兼容性回退选项”存在于通信网络中。

对于当今的电信工程师而言,G.723.1 或许不再是新设计的首选,但理解其设计哲学——如何在延迟、复杂度和比特率之间进行极限平衡——仍然是通往高阶音频处理技术的必经之路。


报告撰写基于截至 2025 年的技术标准文档与行业分析。

引用的著作
  1. G.723 - Wikipedia, 访问时间为 十二月 13, 2025, https://en.wikipedia.org/wiki/G.723
  2. G.723.1 | Speech Codecs: Pros & Cons, 访问时间为 十二月 13, 2025, https://speechcodecs.wordpress.com/tag/g7231/
  3. EP1221162A1 - G.723.1 audio encoder - Google Patents, 访问时间为 十二月 13, 2025, https://patents.google.com/patent/EP1221162A1/en
  4. G.723.1 - Wikipedia, 访问时间为 十二月 13, 2025, https://en.wikipedia.org/wiki/G.723.1
  5. G.723.1 Software | VOCAL Technologies, 访问时间为 十二月 13, 2025, https://vocal.com/speech-coders/g-723-1/
  6. H.323 - Wikipedia, 访问时间为 十二月 13, 2025, https://en.wikipedia.org/wiki/H.323
  7. ENCODING SPEECH INTO VOIP CALLS - EE Times, 访问时间为 十二月 13, 2025, https://www.eetimes.com/encoding-speech-into-voip-calls/
  8. VoIP codec list: bandwidth, quality, and licensing - Telnyx, 访问时间为 十二月 13, 2025, https://telnyx.com/resources/voip-codec-list
  9. G.723.1 (05/2006) - ITU-T Recommendation database, 访问时间为 十二月 13, 2025, https://www.itu.int/itu-t/recommendations/rec.aspx?rec=8813
  10. G.729 - Wikipedia, 访问时间为 十二月 13, 2025, https://en.wikipedia.org/wiki/G.729
  11. G 723 1 | PDF | Data Compression | Algorithms - Scribd, 访问时间为 十二月 13, 2025, https://www.scribd.com/document/282271381/G-723-1
  12. INSTRUCTION AND HARDWARE ACCELERATION FOR MP-MLQ IN G.723.1 Mikael Olausson, Dake Liu Computer Engineering Department of Electri, 访问时间为 十二月 13, 2025, https://www.da.isy.liu.se/pubs/mikol/mikol-sips2002.pdf
  13. Research on covert communication channel based on modulation of common compressed speech codec - PMC - NIH, 访问时间为 十二月 13, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC7153697/
  14. An efficient transcoding algorithm for G.723.1 and EVRC speech coders - CS@Columbia, 访问时间为 十二月 13, 2025, http://www.cs.columbia.edu/~hgs/papers/others/EVRC_G723.pdf
  15. Iranian Journal of Information Science and Technology - REAL-TIME IMPLEMENTATION OF G.723.1 SPEECH CODER USING, 访问时间为 十二月 13, 2025, https://ijism.isc.ac/article_698046_82004f4cddedeb0b1af27dbcf3568016.pdf
  16. US6738733B1 - G.723.1 audio encoder - Google Patents, 访问时间为 十二月 13, 2025, https://patents.google.com/patent/US6738733B1/en
  17. an efficient transcoding scheme for g.729 and g.723.1 speech codecs: interoperability over the internet - ijicic, 访问时间为 十二月 13, 2025, http://www.ijicic.org/ijicic-10-07038.pdf
  18. Voice Activity Detection for Speech Enhancement Applications, 访问时间为 十二月 13, 2025, https://ojs.cvut.cz/ojs/index.php/ap/article/download/1251/1083/0
  19. Approach for Energy-Based Voice Detector with Adaptive Scaling Factor - IAENG, 访问时间为 十二月 13, 2025, https://www.iaeng.org/IJCS/issues_v36/issue_4/IJCS_36_4_16.pdf
  20. Steganography in Inactive Frames of VoIP Streams Encoded by Source Codec - SciSpace, 访问时间为 十二月 13, 2025, https://scispace.com/pdf/steganography-in-inactive-frames-of-voip-streams-encoded-by-1harygnlpp.pdf
  21. G723.1 Voice Coder - Signalogic, 访问时间为 十二月 13, 2025, https://www.signalogic.com/index.pl?page=g723
  22. Which is the best codec? - Mizu VoIP, 访问时间为 十二月 13, 2025, https://www.mizu-voip.com/Support/Blog/tabid/100/Post/3763/Which-is-the-best-codec
  23. Voice Codecs and Bandwidth Calculations - mulgar.net, 访问时间为 十二月 13, 2025, https://www.mulgar.net/2014/03/25/voice-codecs-and-bandwidth-calculations/
  24. Codec Information and Bandwidth Calculations, 访问时间为 十二月 13, 2025, https://kb.clearlyip.com/XCast/Codec-Information-and-Bandwidth-Calculations.html
  25. Assessment of objective voice quality over best-effort networks, 访问时间为 十二月 13, 2025, https://ptacts.uspto.gov/ptacts/public-informations/petitions/1556484/download-documents?artifactId=Sn5jboxGJQgT1uoLx6e1_EsYvhhdqTnZWXoktzI9eFTJW_2bvKXK7FA
  26. Burst Packet Loss Concealment Using Multiple Codebooks and Comfort Noise for CELP-Type Speech Coders in Wireless Sensor Networks - NIH, 访问时间为 十二月 13, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC3231404/
  27. Mixed-excitation linear prediction - Wikipedia, 访问时间为 十二月 13, 2025, https://en.wikipedia.org/wiki/Mixed-excitation_linear_prediction
  28. MELPe Vocoder: About MELP and MELPe, 访问时间为 十二月 13, 2025, https://melpe.org/
  29. CODEC2 vs MELPe vs TWELP at 1200 bps - DSP Innovations, 访问时间为 十二月 13, 2025, https://dspini.com/twelp/codec2-vs-melpe-vs-twelp-1200
  30. Implementation and Performance Analysis of G.723.1 Speech Codec - ResearchGate, 访问时间为 十二月 13, 2025, https://www.researchgate.net/publication/328835189_Implementation_and_Performance_Analysis_of_G7231_Speech_Codec
  31. G.711 vs G.729: Comparing VoIP Codec Options - Lightyear.ai, 访问时间为 十二月 13, 2025, https://lightyear.ai/tips/g711-versus-g729
  32. VoIP Monitoring: The Codec Challenge - Voipfuture, 访问时间为 十二月 13, 2025, https://www.voipfuture.com/wp-content/uploads/2022/02/Voipfuture_Whitepaper_CodecChoice_2020-1.pdf
  33. It’s Official! The patents on G.729 have expired - Graves On SOHO Technology, 访问时间为 十二月 13, 2025, https://www.mgraves.org/2017/03/its-official-the-patents-on-g-729-have-expired/
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 18:09:52

AI图像增强革命:超分辨率技术如何让模糊照片瞬间清晰

AI图像增强革命&#xff1a;超分辨率技术如何让模糊照片瞬间清晰 【免费下载链接】Dreambooth-Stable-Diffusion Implementation of Dreambooth (https://arxiv.org/abs/2208.12242) with Stable Diffusion 项目地址: https://gitcode.com/gh_mirrors/dr/Dreambooth-Stable-D…

作者头像 李华
网站建设 2026/4/17 13:56:05

为什么Collections.singletonList比new ArrayList更高效?

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 创建一个Java性能对比项目&#xff0c;详细比较Collections.singletonList与new ArrayList的性能差异。要求&#xff1a;1. 内存占用对比测试&#xff1b;2. 迭代性能测试&#xff…

作者头像 李华
网站建设 2026/4/16 20:34:59

System Informer 3大核心功能:终极系统监控与安全管理指南

System Informer 3大核心功能&#xff1a;终极系统监控与安全管理指南 【免费下载链接】systeminformer A free, powerful, multi-purpose tool that helps you monitor system resources, debug software and detect malware. Brought to you by Winsider Seminars & Solu…

作者头像 李华
网站建设 2026/4/15 7:54:57

CANopen协议图解入门:小白也能懂的通信原理

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 制作一个CANopen交互式学习DEMO&#xff0c;包含&#xff1a;1. 用快递包裹比喻解释PDO/SDO差异的动画 2. 可点击的对象字典树形结构图 3. 实时显示报文流动的网络拓扑沙盘 4. 带错…

作者头像 李华
网站建设 2026/4/18 4:59:51

EFI网络启动:传统vsAI辅助效率对比

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 创建一个EFI网络启动配置效率对比工具&#xff0c;功能包括&#xff1a;1. 传统手动配置流程模拟&#xff1b;2. AI自动配置流程&#xff1b;3. 时间消耗统计和对比图表&#xff1b…

作者头像 李华
网站建设 2026/4/15 19:11:02

精准定位视角下的行波测距技术及应用研究

随着时代的发展&#xff0c;社会的正常运转离不开电力网络&#xff0c;一旦电网发生故障&#xff0c;快速定位故障点至关重要。行波测距技术便是电力系统中实现故障定位的主流技术之一&#xff0c;它凭借快速、精准的优势&#xff0c;为故障抢修赢得宝贵时间。今天&#xff0c;…

作者头像 李华