news 2026/6/10 13:15:00

DeepSeek 的 mHC

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek 的 mHC

DeepSeek 的 mHC

纪牛牛 吃果冻不吐果冻皮2026年1月9日 22:43四川

在小说阅读器中沉浸阅读

原文:https://zhuanlan.zhihu.com/p/1991140563672664024

大约在去年同一时间段(2025年1月初),DeepSeek 凭借 R1 的发布彻底革新了AI 行业。

如今,DeepSeek 又为2026年开了个好头,发布了一篇引人瞩目的新论文《mHC: Manifold-Constrained Hyper-Connections[1]》,该论文目前已引发广泛关注,有望成为2026年下一次重大人工智能突破的关键推动力。论文建立在字节早先一篇名为《Hyper-Connections[2]》的论文基础之上。

在深入探讨之前,我们需先厘清“残差连接”(Residual Connections)的概念,从而准确理解其研究动机。

下图左一展示了一个标准残差连接,它最初于2016年随ResNet提出。该图并非展示完整模型,而仅示意一个残差块(residual block),用以说明单条残差连接的原理。底部输入为第 l 层的信号 (来自模型前一层),该信号随后分两路流动:

  • • 右侧:输入经模块 layer-F 处理。此模块可为前馈网络、自注意力模块,或其他任意架构单元;

  • • 左侧:残差流(residual stream)直接将原始输入无修改地向前传递

两路信号随后按element wise相加,形成该块的输出,其数学表达为: 。

大模型中为什么要有这样的结构讨论的不多,可以这样来直观理解:虽然图中仅绘出单层结构,但当多层堆叠时,残差连接能确保原始输入信号深入网络内部的同时有效防止信息丢失

核心原因在于它有效缓解了“梯度消失”问题:原始输入的无损传递,相当于在优化目标函数中额外引入了一个恒等映射,其梯度恒为1;即便模块layer-F 的梯度趋近于零整体梯度仍能保持稳定。

在此基础上,字节的团队在2025年提出超连接(Hyper-Connections)的概念,旨在对残差连接进行泛化,(上图中间这个结构)。

核心思想就是通过拓宽残差流自身来扩展残差连接,即不再仅传递单一残差向量,而是将其扩展为多个分量,并在每一层通过可学习映射动态混合,来增强表达能力。

  • • 底部输入被复制扩展(图例中为4份),构成模型维护的拓宽残差流(初始均为原始输入的副本)

  • • 左侧:拓宽后的残差流通过一个可学习的残差映射矩阵进行混合。这意味着不再依赖各层固定的恒等路径,而是让模型自主学习信息如何在残差流中混合与传播;这样做计算开销增幅极小,因扩展倍率通常很小(如本例中的4倍);

  • • 右侧:扩展后的输入先被投影回原模型维度,再送入layer-F模块处理,从而避免昂贵模块(如注意力或FFN)承担高维计算负担;

  • 模块 layer-F 的输出再经另一可学习矩阵扩展,最终与残差分量相加,形成本层输出,并作为下一层输入。

毋庸置疑,该设计大幅提升了模型沿残差路径的信息表达能力,即信息跨层流动更加灵活。

然而,这种灵活性也是有代价的:在原始的标准残差连接中,架构本身保证了恒等映射的存在,这对大规模深层网络训练至关重要。

而DeepSeek指出,超连接破坏了这一保障,因其依赖无约束的可学习混合权重矩阵,残差流可能偏离开恒等路径,导致信号在前向或反向传播中发生爆炸或衰减,动摇残差学习赖以成立的“无阻碍信号流”根本前提,进而引发模型训练不稳定。

这正是DeepSeek提出流形约束超连接(manifold-Constrained HC) 所要解决的核心问题。

为应对超连接带来的不稳定性,DeepSeek并未牺牲其灵活性,其核心思想是在完全保留超连接表达能力的前提下,重建残差连接赖以成功的恒等性保障

细看最右图:mHC块与HC块结构几乎一致,信息流路径相同,唯一关键区别在于残差混合矩阵,它不再无约束,而是施加了特定结构约束,以稳定跨层信号传播。mHC残差混合矩阵中所有元素非负;每行、每列元素之和均为 1。

满足上述性质的矩阵称为双随机矩阵(doubly stochastic);实践中,可通过1967年经典的Sinkhorn–Knopp算法强制实现该约束,即:

  • • 每个输出残差分量接收等量的总输入信号;

  • • 每个输入残差分量对输出的总贡献量相同。

这样下来,即便信息可在多路径间自由混合,拓宽后的残差流仍在全局层面保持了“类恒等”特性。

同时,投影矩阵(扩展前/后的线性映射)也与标准HC不同:DeepSeek通过Sigmoid函数强制其非负。

这里的动机在于若投影中正负系数共存,可能导致信号相互抵消,进而引发大规模训练不稳定。

最后是实验效果,他们在预训练中评估了三种变体:

  • 基线模型(无超连接)

  • 标准超连接(HC)模型

  • • 论文提出的流形约束超连接(mHC)模型。

所有模型均采用受DeepSeek-V3启发的混合专家(MoE)架构;HC与mHC均采用4倍扩展的残差流。

上表对比了参数量均为27B的三类模型在多项下游任务上的表现。两种超连接模型均优于基线,验证了拓宽残差流可提升性能。

更重要的是,mHC在所有任务中持续取得最优结果(见表格最后一行)。表明 mHC在保留超连接优势的同时,实现了更全面的下游性能提升。

引用链接

[1]mHC: Manifold-Constrained Hyper-Connections:https://arxiv.org/abs/2512.24880
[2]Hyper-Connections:https://arxiv.org/abs/2409.19606

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 13:10:53

agent系统:架构、应用与评估全景综述

agent系统:架构、应用与评估全景综述 原创 无影寺 AI帝国 2026年1月9日 22:05 广东 背景与核心问题 基础模型已使自然语言成为计算的实用接口,但大多数现实任务并非单轮问答。这些任务涉及从多个来源收集信息、随时间维护状态、在工具间进行选择&#…

作者头像 李华
网站建设 2026/5/31 21:28:11

企业级域名 SSL 证书信息采集与巡检

背景 在当前数字化时代,SSL 证书是保障企业网络传输安全、验证网站身份及维护用户信任的基石。尤其对于拥有众多域名的企业而言,SSL 证书的有效性直接关系到业务的连续性与安全性。传统手动管理方式难以应对证书数量多、易遗漏的挑战,证书一…

作者头像 李华
网站建设 2026/6/6 14:13:54

Windows下I2C HID驱动加载原理通俗解释

深入理解Windows下的I2C HID驱动加载机制 你有没有遇到过这样的情况:笔记本合盖休眠后,轻点一下触摸板就能唤醒系统?或者在低功耗待机(Modern Standby)状态下,手指滑动依然灵敏响应?这些看似平…

作者头像 李华
网站建设 2026/6/4 6:03:38

WPF 布尔属性命名指南:何时使用 Is 前缀?

在 WPF 开发中,我们经常需要定义布尔类型的依赖属性或附加属性。一个常见的困惑是:布尔属性是否都应该以 Is 开头?最近在开发一个重置功能时,我遇到了这个问题。我需要为控件添加一个附加属性,用于标记该控件是否应该跳…

作者头像 李华
网站建设 2026/6/9 23:04:41

SSM校园快件配送系统80rnf(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面

系统程序文件列表系统项目功能:配送员,机会信息,配送订单,配送处理,客户,配送分配,配送反馈,客户投诉,配送员投诉,公告信息,联系结果SSM校园快件配送系统开题报告一、课题研究背景与意义(一)研究背景随着高校校园快件量逐年激增,现…

作者头像 李华
网站建设 2026/6/10 13:07:02

黄仁勋:物理AI的“ChatGPT时刻”,即将到来

来源:中国企业家俱乐部CES 2026最具热度的演讲,无疑属于英伟达创始人兼CEO黄仁勋。他抛出核心判断:“物理AI的‘ChatGPT时刻’,即将到来。”黄仁勋指出,计算机行业正经历十年一遇的“平台重置”:我们正从“…

作者头像 李华