news 2026/4/18 8:48:16

罗福莉的两个反共识 Hybrid Attention架构(混合注意力),其中,Hybrid Sliding Window Attention(混合滑动窗口注意力)和 Full Attention(全局

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
罗福莉的两个反共识 Hybrid Attention架构(混合注意力),其中,Hybrid Sliding Window Attention(混合滑动窗口注意力)和 Full Attention(全局

罗福莉的两个反共识

原创 邱晓芬 智能涌现2025年12月17日 16:39北京

在小说阅读器中沉浸阅读

1、AI的发展根基不稳固,像是空中楼阁;2、数据和算力,不是AI真正的护城河。

邱晓芬

编辑苏建勋

官宣加入小米一个月后,原Deepseek核心成员、被称为“天才少女”的罗福莉首次露面,并在小米“人车家全生态合作伙伴大会”上公开发表演讲。

这次亮相,她的身份是小米MiMo大模型的负责人。

罗福莉略显紧张,偶尔卡壳。在演讲开场,罗福莉将AI的演进与生物进化做对比,指出AI正在以非线性的方式重演人类大脑6亿年的进化史。

在她看来,经过了强化、模拟、心智的发展,语言是生物智能最后的产物,而AI的发展则是完全反过来——大模型是从语言开始解码人类的思维,自上而下倒推智能的产生。

为此,小米也从语言出发,发布了全新的语言基座模型 MiMo-V2-Flash。据其介绍,这一大语言模型的核心特点可以概括为三点:更强的代码和工具调用能力、更高推理效率和更低成本、更强的强化学习训练。

具体而言,为了实现极致推理效率,罗福莉团队重新设计了模型结构,其中包括两项核心创新。

据罗福莉介绍,小米 MiMo-V2-Flash采用了Hybrid Attention架构(混合注意力),其中,Hybrid Sliding Window Attention(混合滑动窗口注意力)和 Full Attention(全局注意力)的比例大概是 5:1。

这种架构的好处是,不仅能适配当代主流的Infra推理框架,还兼顾长短文推理和知识检索的综合性能。

其次,小米也挖掘MTP(Multi-Token Prediction,多令牌预测)的潜力。

MTP最早是用于推理加速,后来DeepSeek将其用于提升基座模型。

而小米也在训练时加入了一层MTP层以提升基座潜能,并在微调时加入了更多层的 MTP,这样使得用少量算力就提升了 MTP 层的接受率,实现2.2到2.6倍的推理加速。

罗福莉用价格和效率列了一个象限,证明MiMo-V2-Flash的优势。

比如,在参数方面,MiMo-V2-Flash的总参数只有309B(激活15B),相比于Deepseek V3.2和Kimi K2 Thinking,参数量减少了1/2-1/3。

而在推理的速度方面,MiMo-V2-Flash是Deepseek V3.2的三倍,成本更是比Gemini 2.5pro低了20倍。

除了在预训练方面进行模型架构创新,小米大模型团队也在思考如何扩展强化学习训练。一直以来,强化学习训练通常不稳定,罗福莉提出了 MOPD(Multi-Teacher On-Policy Distillation,多教师在线策略蒸馏) 范式。

据介绍,MOPD是一种学习效率更高的模式,简短的几十步就能将各领域专家的能力快速蒸馏到 Student 模型上。

MiMo-V2-Flash目前初步具备模拟世界的能力,可以用HTML来写操作系统、模拟太阳系、或者是让它画一棵圣诞树等等。

她认为,下一代的智能体并不是一个简单的“语言模拟器”,而是一个真正理解世界、与人类共存的智能体。而要实现这一愿景,Agent关键需要具备两项潜能。

首先,在执行层面,Agent需要从过去只会回答问题,到能够完成任务,实现记忆、推理、自主规划、决策、执行的全链路闭环。

另外,在感知层面,下一代Agent也需要有统一的多模态感知,为理解物理世界打好基础——这才有利于嵌入智能眼镜等全新智能终端,融入人类日常的工作流里。

在演讲末尾,罗福莉也发表了对于当前AI行业的两点反共识看法。

在罗福莉看来,大模型本质上是一种算力的暴力美学,直接从语言入手,但跳过了对世界的感知磨砺(即下图第三层的“模拟”),也缺乏实体,跳过与世界产生交互的环节(即下图第一层的“转向”),像是“空中楼阁”一般。

比如,当前的大模型虽然能力超群,但并不懂重力这种物理法则,也产生了很多具身的幻觉。“大模型只有一个完美的语言外壳,而缺乏锚定现实世界的物理模型”,她表示。

为此,罗福莉表示,AI的下一个起点是,需要有一个和物理世界产生交互的物理模型。

她认为,AI本质上要打造的不是一个程序,而是一个在物理上有一致性、时空上有连贯性的“虚拟宇宙”。AI不是要看画面、理解文本,而是要推演整个世界的真实逻辑。“真正的智能不是从文本里读出来的,而是在交互里产生的”。

谈及竞争力方面,罗福莉认为,算力和数据并不是真正的AI护城河,而是研究文化和研究方法,将未知的问题结合模型优化成可用产品能力。

首次公开演讲,罗福莉还借此机会打了广告。她直言,小米的大模型核心团队是一个研究、产品、工程深度耦合的团队,充满创业精神,而且极度好奇、追求真理。

罗福莉回忆道,当她开始研究大模型时,国内的开源大模型与国外的大模型代差有三年的时间,但现在的差距只有几个月。

“我相信开源的价值,本质上是一种分布式技术加速主义,开源是 AGI实现普惠化,确保所有人类智慧共同进化的唯一路径”,罗福莉表示,从数据的极速压缩到算法范式创新,再到物理空间的深度链接,小米将与全球 AI共同定义未来。

(文内图片来源均为作者拍摄)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:08:30

EtherCAT 转 Modbus RTU 协议模块:实现基恩士 PLC 与捷顺 JS601 道闸控制器快速通行通讯

一、项目背景某大型工业制造园区为提升厂区车辆出入管控效率,推进园区智能化改造,需搭建生产区 - 仓储区 - 办公区多出入口车辆联动管理系统。系统核心需求为实现道闸设备与园区中央控制系统的数据互通,根据车辆授权信息自动完成道闸开合、通…

作者头像 李华
网站建设 2026/4/17 9:01:38

Astra Toolbox 三维重建完全指南:从入门到精通

Astra Toolbox 三维重建完全指南:从入门到精通 【免费下载链接】astra-toolbox ASTRA Tomography Toolbox 项目地址: https://gitcode.com/gh_mirrors/as/astra-toolbox 在医学影像、工业检测和科学研究领域,三维重建技术正发挥着越来越重要的作用…

作者头像 李华
网站建设 2026/4/17 1:27:00

边缘AI的测试验证挑战:从云到端的质量保障体系重构

随着AI模型从云端下沉至终端设备,软件测试正在面临前所未有的范式转移 1 边缘AI测试的独特性与复杂性 边缘AI将人工智能模型的推理能力部署在终端设备上,这种架构变革带来了显著的测试复杂度提升。与传统软件测试相比,边缘AI测试呈现出三个关…

作者头像 李华
网站建设 2026/4/18 6:29:09

终极指南:快速上手 node-qrcode 二维码生成神器

终极指南:快速上手 node-qrcode 二维码生成神器 【免费下载链接】node-qrcode qr code generator 项目地址: https://gitcode.com/gh_mirrors/no/node-qrcode 想要在 Node.js 项目中轻松生成专业二维码吗?node-qrcode 就是你的完美选择&#xff0…

作者头像 李华
网站建设 2026/4/18 6:28:15

LeetCode 面试经典 150_回溯_组合(99_77_C++_中等)

LeetCode 面试经典 150_回溯_组合(99_77_C_中等)题目描述:输入输出样例:题解:解题思路:思路一(回溯):代码实现代码实现(思路一(回溯)&…

作者头像 李华
网站建设 2026/4/18 6:39:52

ESP32S2原生USB开发:从入门到精通的5大实战技巧

ESP32S2原生USB开发:从入门到精通的5大实战技巧 【免费下载链接】EspTinyUSB ESP32S2 native USB library. Implemented few common classes, like MIDI, CDC, HID or DFU (update). 项目地址: https://gitcode.com/gh_mirrors/es/EspTinyUSB 你是否曾经为ES…

作者头像 李华