news 2026/5/3 3:45:33

残差链接(Residual Connection)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
残差链接(Residual Connection)

残差连接(Residual Connection)的数学原理核心是通过残差映射和恒等映射的结合,解决深度神经网络训练中的梯度消失问题。其本质是将传统的网络层学习任务从直接拟合目标函数H(x)H(x)H(x)转变为学习残差F(x)=H(x)−xF(x)=H(x)-xF(x)=H(x)x,从而保证梯度在深层网络中能够有效传播。

1.基本数学表达

残差连接的基本形式为:y=F(x)+xy=F(x)+xy=F(x)+x,其中:

  • xxx是当前层的输入
  • F(x)F(x)F(x)是当前层子网络(如卷积层、全连接层等)学习的残差函数
  • yyy是当前层的输出

关键洞察:传统网络要求子网络直接学习完整的映射H(x)H(x)H(x),而残差网络只需学习输入与输出的差异F(x)=H(x)−xF(x)=H(x)-xF(x)=H(x)x。当子网络未学到有效特征时,F(x)F(x)F(x)可以近似为0,此时y≈xy\approx xyx,即网络退化为恒等映射,保证模型性能不会因深度增加而下降。

2.梯度传播的数学分析

残差连接的核心优势在于梯度的稳定传播。假设损失函数为L\mathcal{L}L,对输出yyy的梯度为∂L∂y\frac{\partial \mathcal{L}}{\partial y}yL,则根据链式法则,对输入xxx的梯度为:

∂L∂x=∂L∂y⋅∂y∂x=∂L∂y(∂F(x)∂x+1)\frac{\partial \mathcal{L}}{\partial x} = \frac{\partial \mathcal{L}}{\partial y}\cdot \frac{\partial y}{\partial x} = \frac{\partial \mathcal{L}}{\partial y}\left(\frac{\partial F(x)}{\partial x}+1\right)xL=yLxy=yL(xF(x)+1)

梯度保护机制:

当子网络的梯度∂F(x)∂x\frac{\partial F(x)}{\partial x}xF(x)趋近于0时,总梯度∂L∂x≈∂L∂y\frac{\partial \mathcal{L}}{\partial x}\approx \frac{\partial \mathcal{L}}{\partial y}xLyL,避免了梯度消失。

即使子网络的梯度为负(如∂F(x)∂x=−0.5\frac{\partial F(x)}{\partial x}=-0.5xF(x)=0.5),总梯度仍为0.5,不会完全消失。

3.深层网络的递归展开

对于包含n个残差块的深层网络,其输出可递归展开为:

yn=x+F1(x)+F2(y1)+⋯+Fn(yn−1)y_n=x+F_1(x)+F_2(y_1)+\cdots+F_n(y_{n-1})yn=x+F1(x)+F2(y1)++Fn(yn1)

其中yi=x+∑k=1iFk(yk−1)y_i=x+\sum_{k=1}^iF_k(y_{k-1})yi=x+k=1iFk(yk1)y0=xy_0=xy0=x

展开后的特性:

  • 每一层的输出都包含初始输入的直接贡献,打破了传统网络的链式依赖。
  • 反向传播时,梯度可以通过所有残差块的恒等映射路径直接传递到输入层,如:

∂L∂x=∂L∂yn+∑i=1n∂L∂yn ∏k=i+1n∂Fk∂yk−1\frac{\partial \mathcal{L}}{\partial x} = \frac{\partial \mathcal{L}}{\partial y_n}+ \sum_{i=1}^{n} \frac{\partial \mathcal{L}}{\partial y_n}\, \prod_{k=i+1}^{n} \frac{\partial F_k}{\partial y_{k-1}}xL=ynL+i=1nynLk=i+1nyk1Fk

其中第一项∂L∂yn\frac{\partial \mathcal{L}}{\partial y_n}ynL是通过恒等映射直接传递的梯度,后续项是通过子网络传递的梯度。

4.恒等映射的重要性

残差连接的有效性依赖于恒等映射的严格满足。若子网络的输出维度与输入维度不一致(如通道数变化),则需要引入投影矩阵WWW进行维度匹配:y=F(x)+Wxy=F(x)+Wxy=F(x)+Wx但研究表明,直接恒等映射(W=I)(W=I)(W=I)的效果最优。当使
用投影矩阵时,模型性能会略有下降,因为投影操作破坏了原始输入的直接传递。

5.与传统网络的对比

特性传统网络残差网络
学习目标直接拟合H(x)H(x)H(x)拟合残差F(x)=H(x)−xF(x)=H(x)-xF(x)=H(x)x
梯度传播链式乘积,易消失(如0.9100≈00.9^{100}\approx 00.91000包含恒等项,梯度稳定(如0.9+1=1.9)
网络深度通常不超过20层可轻松扩展到1000层以上
性能退化深度增加时性能下降深度增加时性能稳步提升

总结

残差连接的数学原理可概括为:

  1. 残差映射:将学习任务简化为拟合输入与输出的差异,降低学习难度。
  2. 恒等映射:通过直接传递输入,保证梯度在深层网络中不消失。
  3. 递归展开:深层网络的输出是所有残差块的叠加,保留了各层的特征贡献。

这种简洁而深刻的设计,使得残差网络成为深度学习领域
的基石,广泛应用于图像识别(ResNet)、自然语言处
理(Transformer)等任务中。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/2 21:19:08

比传统调试快10倍:AI辅助内核开发新方法

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个效率对比工具,能够记录开发者解决内核模块构建错误(如ERROR: AN ERROR OCCURRED WHILE PERFORMING THE STEP: \BUILDING KERNEL MODULES&#xff0…

作者头像 李华
网站建设 2026/5/1 6:22:45

是否需要自建TTS?Sambert-Hifigan开源方案比百度API节省长期成本

是否需要自建TTS?Sambert-Hifigan开源方案比百度API节省长期成本 引言:中文多情感语音合成的现实需求 随着智能客服、有声读物、虚拟主播等应用场景的普及,高质量的中文多情感语音合成(Text-to-Speech, TTS) 已成为A…

作者头像 李华
网站建设 2026/5/1 9:13:04

Llama Factory损失函数选择:如何根据任务特点挑选合适的损失函数

Llama Factory损失函数选择:如何根据任务特点挑选合适的损失函数 作为一名数据科学家,面对大模型微调任务时,选择合适的损失函数往往是影响模型性能的关键因素。本文将结合Llama Factory框架,分享如何根据任务特点挑选合适的损失函…

作者头像 李华
网站建设 2026/4/23 15:08:27

企业级OCR部署:CRNN+REST API快速集成方案

企业级OCR部署:CRNNREST API快速集成方案 📖 技术背景与行业痛点 在数字化转型加速的今天,非结构化图像数据中的文字提取已成为企业自动化流程的核心需求。无论是财务票据识别、合同文档归档,还是工业表单录入,传统人工…

作者头像 李华
网站建设 2026/4/20 1:16:25

Llama Factory揭秘:如何用低代码方案打造专业级AI模型

Llama Factory揭秘:如何用低代码方案打造专业级AI模型 对于小型企业主来说,想要尝试AI解决方案却面临高昂的技术门槛和成本压力,Llama Factory提供了一种经济实惠且低代码的模型定制方式。本文将带你深入了解如何利用这个开源框架&#xff0…

作者头像 李华
网站建设 2026/5/1 4:23:19

如何用AI插件提升IntelliJ IDEA开发效率

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个IntelliJ IDEA插件,利用AI技术提供智能代码补全、错误检测和重构建议。插件应支持多种编程语言,能够分析代码上下文,提供准确的建议。插…

作者头像 李华