news 2026/6/19 0:35:10

字节:香农视角下的LLM缩放律

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
字节:香农视角下的LLM缩放律

📖标题:LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws
🌐来源:arXiv, 2605.23901v1

🛎️文章简介
🔸研究问题:现有单调幂律缩放法则无法解释大模型在过训练或量化时出现的性能非单调下降(U型曲线)现象,如何建立统一理论框架来刻画这一行为?
🔸主要贡献:论文提出香农缩放律,将LLM训练建模为噪声信道信息传输,统一解释了单调提升与U型退化现象,并在多种扰动下实现高精度拟合与外推。

📝重点思路
🔸理论映射:基于香农-哈特利定理,将模型参数量映射为信道带宽,训练Token数映射为信号功率,数据噪声、模型交互噪声及不可约噪声构成总噪声,定义LLM容量。
🔸公式构建:推导香农缩放律公式,认为Loss与容量成反比。该公式显式捕捉了学习信号与内在噪声的交互,指出若信噪比不足,盲目扩大规模会放大噪声导致性能崩塌。
🔸实验验证:在Pythia和OLMo2模型上,针对高斯噪声、监督微调(SFT)及量化三种扰动源进行实验,对比传统幂律及近期扰动感知法则,评估拟合优度与外推能力。

🔎分析总结
🔸拟合优势:香农缩放律在所有噪声水平下均优于基线方法,平均R²超过0.95。特别是在高噪声(如低比特量化、高学习率SFT)导致的U型损失盆地中,传统单调法则失效,而本法能准确捕捉性能拐点。
🔸外推能力:在小规模模型(≤6.9B)和少量Token(≤180B)上拟合后,能准确预测未见过的12B模型在307B Token下的表现( pooled R²=0.847),而Chinchilla等基线在外推时彻底崩溃。
🔸机制揭示:指数分析表明,当扰动增强时,模型噪声增长速度快于带宽增益,导致扩展模型尺寸反而有害;且数据噪声累积效应始终存在,证实了U型退化的普遍性。

💡个人观点
论文跳出经验主义的幂律拟合,从信息论第一性原理出发,解决了“灾难性过训练”等异常现象的建模难题。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 11:32:36

链式思维(CoT)原理与工程落地:从提示词设计到效果验证

1. 什么是链式思维(Chain-of-Thought)?它真能“教会”大模型像人一样思考吗?链式思维(Chain-of-Thought,简称CoT)不是某个新发布的API接口,也不是OpenAI偷偷塞进o1模型里的黑箱模块—…

作者头像 李华
网站建设 2026/6/9 11:32:31

原神PC帧率解锁终极指南:3步轻松突破60FPS限制

原神PC帧率解锁终极指南:3步轻松突破60FPS限制 【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 想要在原神中体验更流畅的战斗和探索吗?genshin-fps-unlock是一款专…

作者头像 李华
网站建设 2026/6/9 11:26:16

Python写的飞行棋游戏源码包:带图标、截图、说明文档,开箱即用

本文还有配套的精品资源,点击获取 简介:这是一个可以直接运行的Python飞行棋对战小游戏,支持2-4人轮流操作,颜色为红、黄、蓝、绿,按顺时针顺序掷骰子(空格键触发)、选择飞机出场、移动棋子、…

作者头像 李华
网站建设 2026/6/9 11:24:52

156.手机底层刷写脚本开发|基于subprocess实时日志输出,精准排查刷机异常

摘要 本文面向具备基础Linux命令行操作能力的Android/iOS设备维修技术人员,系统阐述多品牌手机刷机与底层维修的核心原理与标准化操作流程。内容覆盖高通平台EDL模式刷写、MTK平台BROM模式刷机、苹果DFU模式固件恢复三大技术路线,提供可直接运行的Python自动化脚本,并针对变…

作者头像 李华