Molmo 2 来了！全球最强开源视频理解模型，支持精准定位、追踪与多图推理，性能超越 Qwen3-VL-程序员充电站

如果说 Molmo 让 AI 学会了“在图片里指东西”，那么 Molmo 2 则让 AI 学会了“在视频里追踪事件、定位动作、数清次数”——真正实现时空联合理解。

手机、自动驾驶、工业传感……视频正成为 AI 理解世界的新语言。现在，Molmo 2 让开源模型也能“看懂”视频中的每一帧细节。

2025 年 12 月 11 日，艾伦人工智能研究所（AI2）正式发布Molmo 2—— 一款专为视频理解、空间定位与跨帧追踪而生的下一代开源多模态大模型。它不仅在多项权威评测中超越 Gemini 3 Pro、GPT-5 等闭源系统，更首次将视频级“指哪打哪”能力带入开源社区。

为什么 Molmo 2 值得关注？

Molmo 2 是 2024 年爆火的Molmo 图像理解模型的全面升级版。如果说 Molmo 让 AI 学会了“在图片里指东西”，那么Molmo 2 则让 AI 学会了“在视频里追踪事件、定位动作、数清次数”——真正实现时空联合理解。

核心突破：

视频原生理解：支持单图、多图、任意长度视频输入。
精准时空定位：不仅能回答“发生了什么”，还能指出“在哪一帧、哪个位置”。
高效小模型：8B 参数版本性能碾压上一代 72B 模型，训练数据仅为竞品的 1/8。
完全开源：Apache 2.0 许可，提供三种架构选择，含全栈开源的 Olmo 版本。

三大模型变体，满足不同场景需求

模型	基座	特点	适用人群
Molmo 2 (8B)	Qwen 3	综合性能最强，视频 QA 与定位 SOTA	工业界、研究者
Molmo 2 (4B)	Qwen 3	轻量高效，速度更快，性能接近 8B	移动端、边缘部署
Molmo 2-O (7B)	Olmo	全栈开源（视觉编码器 + 连接器 + LLM）	需要完全可控的研究团队

小模型，大能量：Molmo 2 (8B) 在图像指代、视频追踪等任务上全面超越上一代 72B 的 Molmo，证明“精炼数据 + 精准目标”比盲目堆参数更有效。

性能碾压：开源第一，闭源也难挡

Molmo 2 在多个维度刷新开源模型纪录：

视频追踪：大幅超越 Gemini 3 Pro 及所有开源 VLM（如 Sa2VA、SAM 2 联合方案）。
短视频问答：在 NextQA、PerceptionTest、MVBench 等 7 项基准平均得分开源第一。
人类偏好评估：8B 版本领先 Qwen3-VL-8B，甚至超过 GPT-5 和 Claude Sonnet 4.5。
视频计数与定位：唯一能通过“返回坐标+时间戳”回答“多少次”问题的开源模型。

举例：

问：“机器人几次抓起红色积木？” → 模型返回每次抓取的帧号 + 积木坐标。
问：“杯子什么时候掉的？” → 返回精确时间戳 + 掉落位置框。
问：“穿条纹衫的人何时秀肌肉？” → 自动追踪人物 ID，标记所有相关事件时空点。

技术亮点：为“接地”而生

Molmo 2 的核心设计理念是Grounding（接地）——让语言与视觉信号在空间和时间上对齐。

统一架构：视觉编码器 + 轻量连接器 + 强大 LLM（Qwen 3 / Olmo）。
跨帧注意力：不同帧的视觉 token 可互相 attention，显著提升追踪稳定性。
SlowFast 推理策略：关键帧高分辨率 + 非关键帧低分辨率，兼顾精度与效率。
16,384 超长上下文：轻松处理长视频或多图输入。

900 万+ 视频样本，打造高质量开源数据集

为训练 Molmo 2，AI2 构建了史上最大规模的视频接地数据集，包含 9 个全新子集：

Molmo2-Cap：10.4 万视频 + 43.1 万片段，每段配数百字密集描述。
Molmo2-VideoPoint：30 万+ 查询，用于训练“指物+计数”。
Molmo2-VideoTrack：支持自然语言查询的物体追踪（如“跟踪穿黄衣的女性”）。
Molmo2-MultiImageQA：跨 2–5 张相关图像的复杂问答。

所有数据集将开源发布，助力社区构建更强大的视频理解系统。

传统翻译vsAI生成：TELEGREAT中文包制作效率对比

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 开发一个TELEGREAT语言包制作效率对比工具，功能包括：1.人工翻译流程模拟；2.AI自动翻译流程；3.时间成本计算器；4.质量评估…

李华

Nacos源码与原理 05，从 0 到 1 理解 Nacos 插件机制：自定义扩展开发指南

在微服务架构中，Nacos 作为服务发现与配置管理的核心组件，凭借其灵活的架构设计满足了多数业务场景需求。但实际业务中，个性化需求层出不穷——比如适配国产数据库、配置变更后触发自定义通知、敏感配置加密存储等，此时 Nacos 插件…

李华

大模型算是当之无愧最火的一个方向了，算是新时代的风口

有小伙伴觉得，既然是新领域、新方向，那么人才需求肯定比较大，相应的人才缺乏，竞争也会更少，那转行去做大模型是不是一个更好的选择呢？是不是更好就业呢？是不是就暂时能抵抗35岁中年危机呢&#…

李华

Z-Image-Turbo从零开始：Linux环境部署完整指南

Z-Image-Turbo从零开始：Linux环境部署完整指南 1. 为什么你需要这个镜像——告别等待，直奔创作你是不是也经历过这样的场景：兴冲冲想试试最新的文生图模型，结果光下载权重就卡在32GB不动，网速慢的机器等一小时起步&…

李华

10分钟搭建DNS检测网页：无需代码的AI解决方案

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 在InsCode上创建一个即时可用的DNS检测网页原型，包含：1. 用户输入域名自动运行检测；2. 显示TTL/响应时间等关键指标；3. 生成带颜色标…

李华

AI助力JMeter压测：智能脚本生成与优化

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 创建一个基于AI的JMeter压测脚本生成工具，能够根据用户输入的测试需求（如目标URL、并发用户数、测试时长等），自动生成完整的JMeter测…

李华