news 2026/4/18 7:48:45

小米新开源 MiMo-V2-Flash:稀疏注意力+强化学习超越DeepSeek-V3.2?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小米新开源 MiMo-V2-Flash:稀疏注意力+强化学习超越DeepSeek-V3.2?

摘要

在追求 AGI 的道路上,如何在保持高性能推理能力的同时,极致压缩计算成本与显存占用?小米 LLM-Core 团队最新发布的MiMo-V2-Flash给出了一个新的角度和方案。这款拥有 309B 参数(激活参数仅 15B)的 MoE 模型,通过混合滑动窗口注意力(Hybrid SWA)轻量级多 Token 预测(MTP)以及多教师在线蒸馏(MOPD),在推理效率和复杂任务处理能力上比肩 DeepSeek-V3.2 等顶尖开源模型。


1. 引言:突破“不可能三角”?

长上下文大语言模型(LLM)长期面临一个“不可能三角”:长窗口(Long Context)、**高智能(High Intelligence)低延迟(Low Latency)**往往难以兼得。全注意力机制(Full Attention)的O(L2)O(L^2)O(L2)复杂度让长文推理步履维艰,而传统的稀疏化手段往往以牺牲模型智力为代价。

MiMo-V2-Flash 的核心突破在于:

  1. 架构侧:利用带“可学习 Sink Bias”的滑动窗口注意力,将 KV Cache 和计算量降低 6 倍。
  2. 推理侧:利用 MTP 模块实现无损投机采样,大幅提升 Decoding 速度。
  3. 训练侧:首创 MOPD 范式,解决了强化学习(RL)中“跷跷板效应”导致的通用能力退化问题。

2. 架构设计:极致效率的追求

MiMo-V2-Flash 基于 Transformer 架构,但在 Attention 和 FFN 层进行了激进的改造。

2.1 混合滑动窗口注意力 (Hybrid SWA)

为了解决长文本下的 KV Cache 瓶颈,MiMo-V2-Flash 并没有选择完全的线性 Attention,而是采用了一种5:1 的混合策略

  • 结构:每 6 层为一个 Block,其中前 5 层使用滑动窗口注意力(Sliding Window Attention, SWA),第 6 层使用全局注意力(Global Attention, GA)。
  • 参数:滑动窗口大小W=128W=128W=128。这是一个极小的窗口(相比于常见的 4K 或 8K),意味着绝大多数层只关注极局部的上下文。
核心创新:可学习的 Attention Sink Bias

传统的 SWA 在堆叠多层后,长距离信息容易丢失。DeepSeek 等模型通过 MLA 缓解此问题,而 MiMo-V2-Flash 选择了一种更轻量的方案:Learnable Attention Sink Bias

在 SWA 层中,模型显式地引入一个可学习的偏置项sink∈R\text{sink} \in \mathbb{R}sinkR,用于调节 Softmax 的分母。这允许模型在不需要关注局部窗口内的任何 Token 时,将注意力权重“倾泻”到 Sink 上,从而保留全局语义的聚合能力。

数学表达
对于 Tokeniiijjj,注意力 Logit 计算如下:
aij=qikjTd a_{ij} = \frac{q_i k_j^T}{\sqrt{d}}aij=dqikjT

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 2:46:13

EmotiVoice与Unity引擎结合:游戏语音实时生成

EmotiVoice与Unity引擎结合:游戏语音实时生成 在现代游戏开发中,NPC的“说话”早已不再是简单的音效播放。玩家期待的是能感知情绪、回应情境、甚至带有个性色彩的对话体验。然而,传统预录音频的局限性显而易见——重复感强、缺乏变化、制作…

作者头像 李华
网站建设 2026/4/16 21:50:50

贝贝BiliBili:一键批量下载B站视频的宝藏工具

贝贝BiliBili:一键批量下载B站视频的宝藏工具 【免费下载链接】贝贝BiliBili-B站视频下载 贝贝BiliBili是一款专为B站视频下载设计的PC工具,功能强大且操作简便。它支持批量下载,显著提升下载效率,尤其适合需要大量保存视频的用户…

作者头像 李华
网站建设 2026/4/14 15:07:07

掌握GeoTools:打造专业级GIS开发的完整解决方案

掌握GeoTools:打造专业级GIS开发的完整解决方案 【免费下载链接】geotools Official GeoTools repository 项目地址: https://gitcode.com/gh_mirrors/ge/geotools GeoTools作为Java生态中功能最全面的开源地理信息系统开发框架,为开发者提供了从…

作者头像 李华
网站建设 2026/4/16 21:28:18

Highway向量编程跨平台终极指南:告别SIMD碎片化的深度解析

Highway向量编程跨平台终极指南:告别SIMD碎片化的深度解析 【免费下载链接】highway 性能可移植的、长度无关的SIMD 项目地址: https://gitcode.com/GitHub_Trending/hi/highway 还在为不同CPU架构的向量指令集编写重复代码而烦恼吗?想象一下&…

作者头像 李华
网站建设 2026/3/13 4:56:24

Flexbox Froggy移动适配终极方案:打造完美触控学习体验

Flexbox Froggy移动适配终极方案:打造完美触控学习体验 【免费下载链接】flexboxfroggy A game for learning CSS flexbox 🐸 项目地址: https://gitcode.com/gh_mirrors/fl/flexboxfroggy 在移动设备普及的今天,CSS教育游戏如何在手机…

作者头像 李华
网站建设 2026/3/13 10:00:13

埃斯顿ER系列机器人操作手册完整指南

埃斯顿ER系列机器人操作手册完整指南 【免费下载链接】埃斯顿机器人ER系列操作手册下载 埃斯顿机器人ER系列操作手册下载 项目地址: https://gitcode.com/Open-source-documentation-tutorial/e2027 埃斯顿(ESTUN)ER系列机器人操作手册是工业自动…

作者头像 李华