news 2026/4/18 11:57:32

大模型从0到精通:误差反向传播——神经网络中的“责任追溯”系统

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型从0到精通:误差反向传播——神经网络中的“责任追溯”系统

本文是《大模型从0到精通》系列第一卷“奠基篇”的第五章,也是奠基篇的收官之作。前四章我们建立了完整框架:模型→损失→优化→网络结构。但神经网络有那么多参数,当预测出错时,怎么知道该调整哪个参数?本章将深入讲解反向传播——神经网络中的“责任追溯”系统,这是梯度下降能在深度网络中实现的关键算法。

一、深度网络的“责任分配”难题

我们的两层神经网络有10个参数:

  • 第一层:a₁,b₁, a₂,b₂, a₃,b₃
  • 第二层:c₁,c₂,c₃,d

当最终预测出错时(损失很大),我们面临核心难题:

该拧动第一层的哪个旋钮?还是第二层的哪个旋钮?每个旋钮该为错误负多少“责任”?

类比:公司业绩复盘

一家公司季度业绩不达标(损失很大):

  • CEO(输出层)决策错误
  • 但错误可能源于:A总监报告有误 → B经理数据有问题 → C员工收集错误
  • 需要一套系统,将总误差公平地“分摊”给每个责任人

这就是反向传播要解决的问题:将输出层的总误差,沿着网络连接反向追溯,精确计算每个参数的“责任梯度”。

二、前向传播复习:数据如何流动

网络结构回顾

输入 x → 第一层:h₁ = a₁x+b₁ → r₁ = ReLU(h₁) h₂ = a₂x+b₂ → r₂ = ReLU(h₂) h₃ = a₃x+b₃ → r₃ = ReLU(h₃) 第二层:y = c₁r₁ + c₂r₂ + c₃r₃ + d 输出 y

前向传播:执行计算

给定输入x=25(气温25℃):

  1. 第一层计算:
    h₁ = a₁×25 + b₁ → r₁ = ReLU(h₁) h₂ = a₂×25 + b₂ → r₂ = ReLU(h₂) h₃ = a₃×25 + b₃ → r₃ = ReLU(h₃)
  2. 第二层计算:
    y = c₁×r₁ + c₂×r₂ + c₃×r₃ + d
  3. 得到预测值y_pred

就像公司项目执行:数据从基层上报,经中层处理,CEO做出决策。

三、反向传播核心:链式法则

数学工具:链式求导

复合函数求导法则:

如果 z = f(y), y = g(x) 那么 dz/dx = dz/dy × dy/dx

直观理解:误差传播就像多米诺骨牌,每层都对最终误差有“贡献度”。

神经网络中的链式法则

我们的网络:损失L → 依赖于y → 依赖于c₁,c₂,c₃,d,r₁,r₂,r₃ → 依赖于a₁,b₁,a₂,b₂,a₃,b₃ → 依赖于x

要计算 ∂L/∂a₁(损失对参数a

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 5:24:44

嵌入式代码优化实战

嵌入式代码优化实战技术文章大纲引言嵌入式系统资源限制(内存、CPU、功耗)代码优化的核心目标:性能提升、资源节省、稳定性增强适用场景:实时系统、低功耗设备、高并发嵌入式应用优化前的分析与评估性能瓶颈定位:使用性…

作者头像 李华
网站建设 2026/4/18 6:30:40

drop delete和truncate的区别?

操作性质差异DELETE 是数据操作语言(DML),逐行删除数据,可触发触发器,支持条件筛选(WHERE子句)。 TRUNCATE 是数据定义语言(DDL),通过释放数据页直接清空表&a…

作者头像 李华
网站建设 2026/3/22 18:45:38

永磁同步电机旋转高频信号注入法零低速无位置控制仿真探秘

永磁同步电机旋转高频信号注入法零低速无位置控制仿真,相比高频方波信号注入法,旋转高频信号注入法噪声更小损耗更低,该模型注入1000Hz旋转高频电压信号到电机中用于产生激励电流,在低速100rpm下无感运行。 带有自己搭建的PMSM模型…

作者头像 李华
网站建设 2026/4/18 8:49:31

群的阶、元素的阶和基点G的阶详解

这些概念听起来抽象,但其实就像“团队规模”和“个人耐力”一样简单。我来用通俗比喻、例子和图一步步解释。回忆一下:在椭圆曲线密码(ECC 椭圆曲线非对称加密的原理)中,一切建立在椭圆曲线的“点群”上,…

作者头像 李华
网站建设 2026/4/18 7:39:45

从零构建AI镜像,缓存命中率提升至95%的3个核心技巧

第一章:AI 模型的 Docker 缓存策略在构建 AI 模型服务镜像时,Docker 的缓存机制能显著提升构建效率。合理的缓存策略可以避免重复下载大型依赖包(如 PyTorch、TensorFlow),从而缩短 CI/CD 流程中的构建时间。分层缓存原…

作者头像 李华