news 2026/6/20 12:45:01

deepseek的mHC与Hyper-Connections讲解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
deepseek的mHC与Hyper-Connections讲解

deepseek在2026年1月1日出了一篇文章叫做 mHC: Manifold-Constrained Hyper-Connections,其本质其实就是在2024年字节的另一篇Hyper-Connections的文章上做的一点点算法上的改进和大量工程上的改进,其实只需要知道Hyper-Connections就能明白mHC了

Hyper-Connections

传统的residual connection其实就是在feature经过layer的基础上加上了1份残差连接

Hyper-Connections的思想就是:

1,把输入复制n份,用一个可学习的权重矩阵A_m把这n份向量合到一起,送到原来的layer

2,对于输出的值,把它用一个可学习的分配矩阵B再次分配成n份,保持输入输出一致

对于残差连接部分:

通过一个A_r矩阵,将输入的每个channel按照A_r的可学习的权重来混合其他channel的信息

Hyper-Connections其实就是residual connection的扩展版本,使得residual的连接更为灵活,在输入端可以是input feature的不同倍数,在输出端也可以分配不同的倍数,使得最终的残差连接更为灵活。

Hyper-Connections总览图:

Hyper-Connections在残差连接上提供了更多样化的路径

mHC:Manifold-Constrained Hyper-Connections

mHC其实就是对Hyper-Connections的权重矩阵做了更多的约束,使得训练更稳定,本质上和Hyper-Connections其实一样。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 13:04:14

Qwen3-14B-MLX-4bit:智能切换推理模式的AI新体验

导语 【免费下载链接】Qwen3-14B-MLX-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-14B-MLX-4bit Qwen3-14B-MLX-4bit大语言模型正式发布,凭借创新的双推理模式切换机制和14.8B参数规模,重新定义了AI在复杂推理与高效对话间的平…

作者头像 李华
网站建设 2026/6/12 12:44:25

贴片LED灯正负极识别技巧:万用表深度剖析

贴片LED极性不会判?一招教你用万用表“听”出正负极你有没有遇到过这种情况:手里捏着一颗芝麻大的0603贴片LED,焊盘两边长得一模一样,肉眼根本分不清哪边是正、哪边是负?上电一试——不亮。再一测,坏了。别…

作者头像 李华
网站建设 2026/6/20 0:27:44

5个必学技巧:用Dism++让Windows系统维护变得轻松高效

5个必学技巧:用Dism让Windows系统维护变得轻松高效 【免费下载链接】Dism-Multi-language Dism Multi-language Support & BUG Report 项目地址: https://gitcode.com/gh_mirrors/di/Dism-Multi-language 还在为电脑运行缓慢、磁盘空间不足而烦恼吗&…

作者头像 李华
网站建设 2026/6/10 10:46:07

Elasticsearch下载场景下Logstash性能调优建议

如何让 Logstash 在 Elasticsearch 数据导出中跑得更快?你有没有遇到过这种情况:想从 Elasticsearch 导出几亿条日志做离线分析,结果 Logstash 跑了一天一夜才完成一半?CPU 占用不到 30%,内存稳如老狗,网络…

作者头像 李华
网站建设 2026/6/15 13:01:41

AXI DMA操作指南:初学者的完整实践路径

AXI DMA实战指南:从零开始掌握FPGA与处理器的高效数据搬运你有没有遇到过这样的场景?摄像头源源不断地输出图像数据,CPU却在轮询采样、频繁中断中疲于奔命;ADC每秒产生几百万个采样点,还没来得及处理就已经溢出丢失。问…

作者头像 李华
网站建设 2026/6/20 7:51:26

百度搜不到的黑科技:Fun-ASR语音识别隐藏功能揭秘

百度搜不到的黑科技:Fun-ASR语音识别隐藏功能揭秘 在远程办公、在线教育和智能硬件日益普及的今天,语音转文字几乎成了每台设备的“标配”能力。但你有没有遇到过这样的尴尬?会议录音上传到云端后迟迟不返回结果,或者更糟——敏感…

作者头像 李华