字节：香农视角下的LLM缩放律-程序员充电站

📖标题：LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws
🌐来源：arXiv, 2605.23901v1

🛎️文章简介
🔸研究问题：现有单调幂律缩放法则无法解释大模型在过训练或量化时出现的性能非单调下降（U型曲线）现象，如何建立统一理论框架来刻画这一行为？
🔸主要贡献：论文提出香农缩放律，将LLM训练建模为噪声信道信息传输，统一解释了单调提升与U型退化现象，并在多种扰动下实现高精度拟合与外推。

📝重点思路
🔸理论映射：基于香农-哈特利定理，将模型参数量映射为信道带宽，训练Token数映射为信号功率，数据噪声、模型交互噪声及不可约噪声构成总噪声，定义LLM容量。
🔸公式构建：推导香农缩放律公式，认为Loss与容量成反比。该公式显式捕捉了学习信号与内在噪声的交互，指出若信噪比不足，盲目扩大规模会放大噪声导致性能崩塌。
🔸实验验证：在Pythia和OLMo2模型上，针对高斯噪声、监督微调（SFT）及量化三种扰动源进行实验，对比传统幂律及近期扰动感知法则，评估拟合优度与外推能力。

🔎分析总结
🔸拟合优势：香农缩放律在所有噪声水平下均优于基线方法，平均R²超过0.95。特别是在高噪声（如低比特量化、高学习率SFT）导致的U型损失盆地中，传统单调法则失效，而本法能准确捕捉性能拐点。
🔸外推能力：在小规模模型（≤6.9B）和少量Token（≤180B）上拟合后，能准确预测未见过的12B模型在307B Token下的表现（ pooled R²=0.847），而Chinchilla等基线在外推时彻底崩溃。
🔸机制揭示：指数分析表明，当扰动增强时，模型噪声增长速度快于带宽增益，导致扩展模型尺寸反而有害；且数据噪声累积效应始终存在，证实了U型退化的普遍性。

💡个人观点
论文跳出经验主义的幂律拟合，从信息论第一性原理出发，解决了“灾难性过训练”等异常现象的建模难题。

原神PC帧率解锁终极指南：3步轻松突破60FPS限制

原神PC帧率解锁终极指南：3步轻松突破60FPS限制【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 想要在原神中体验更流畅的战斗和探索吗？genshin-fps-unlock是一款专…

李华

电影票房实时抓取+可视化分析工具（Python GUI版，含日榜/年冠/上映预测）

本文还有配套的精品资源，点击获取简介：直接运行就能用的电影数据分析小工具，自动从公开接口获取在映影片实时票房、每日排行榜、年度票房冠军、新片上映信息和票房预测结果。内置四个功能脚本：getData.py负责联网拉取最新数据…

李华

Python写的飞行棋游戏源码包：带图标、截图、说明文档，开箱即用

本文还有配套的精品资源，点击获取简介：这是一个可以直接运行的Python飞行棋对战小游戏，支持2-4人轮流操作，颜色为红、黄、蓝、绿，按顺时针顺序掷骰子（空格键触发）、选择飞机出场、移动棋子、…

李华

156.手机底层刷写脚本开发｜基于subprocess实时日志输出，精准排查刷机异常

摘要本文面向具备基础Linux命令行操作能力的Android/iOS设备维修技术人员，系统阐述多品牌手机刷机与底层维修的核心原理与标准化操作流程。内容覆盖高通平台EDL模式刷写、MTK平台BROM模式刷机、苹果DFU模式固件恢复三大技术路线，提供可直接运行的Python自动化脚本，并针对变…

李华

OneNET MQTT协议接入避坑指南：手把手解决Python连接、数据上报和Topic订阅的常见问题

OneNET MQTT协议实战避坑手册：Python连接、数据上报与Topic订阅的疑难解析第一次尝试用Python连接OneNET的MQTT协议时，我盯着屏幕上反复出现的"Connection refused"错误提示，花了整整三个小时才意识到自己把端口号写错了。这种看似…

李华

链式思维（CoT）原理与工程落地：从提示词设计到效果验证

原神PC帧率解锁终极指南：3步轻松突破60FPS限制

电影票房实时抓取+可视化分析工具（Python GUI版，含日榜/年冠/上映预测）

Python写的飞行棋游戏源码包：带图标、截图、说明文档，开箱即用

156.手机底层刷写脚本开发｜基于subprocess实时日志输出，精准排查刷机异常

OneNET MQTT协议接入避坑指南：手把手解决Python连接、数据上报和Topic订阅的常见问题