Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment-程序员充电站

序号	属性	值
1	论文名称	Evo-1
2	发表时间/位置	2025
3	Code	MINT-SJTU/Evo-1: Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment
4	创新点	1：原生多模态与层级剪枝摒弃了传统 VLA “文本 LLM + 视觉适配器”的拼凑模式，采用原生多模态预训练的InternVL3-1B。这保证了视觉与语言在底层特征空间的紧密纠缠（Tight Entanglement），而非事后对齐。仅保留语言模型（Qwen2.5-0.5B）的前 14 层。放弃深层复杂的文本生成逻辑，专注于中间层（Intermediate Layers）。这部分特征在“视觉-语言语义对齐”与“空间感知”之间取得了最佳平衡，既减少了计算量，又剔除了对控制无用的高层语义噪音。 2：High-Fidelity Integration（融合方面）空间粒度保留：视觉编码器采用InternViT-300M 配合Pixel-unshuffle。这种设计在压缩 Token 数量（4x 下采样）的同时，最大限度保留了对机械臂抓取至关重要的空间粒度。在融合多模态特征 (zt) 与机器人状态 (st) 时，拒绝使用 MLP 投影，而是直接拼接。防止低维敏感的本体感知信息在投影过程中发生形变或丢失，保留数据的原始流形结构供 Transformer 直接查询。 3:流匹配与纯交叉注意力替代传统的 DDPM 扩散，采用基于线性插值和速度场学习（Velocity Field）的流匹配。构建了从噪声到动作的“直线最优路径”，显著提升了推理速度和数值稳定性（配合 Beta 分布截断）。砍掉了动作生成网络中的Self-Attention，引入强归纳偏置，强迫每一个动作 Token 直接由感知条件（zt,st）驱动，而非依赖动作序列内部的历史惯性。这不仅降低了计算复杂度，更提升了动作对环境变化的响应灵敏度。 4：梯度隔离的两阶段微调阶段一（Action Expert Alignment）：冻结 Backbone，只训动作专家。防止初始化阶段的高方差梯度噪声破坏预训练好的多模态语义空间。阶段二（Full-scale Fine-Tuning）：解冻全模型，进行微调。实现感知与控制的联合优化。
5	引用量	Evo-1 通过流匹配与纯交叉注意力架构极大地精简了控制端，通过中间层特征提取与两阶段训练完美保留了感知端的语义理解，从而在0.77B的极小参数规模下，实现了当前 VLA 领域的 SOTA 性能与最高算力性价比。

一：提出问题

目前的 VLA 模型（如 Google 的 RT-2 或 OpenVLA）虽然强大，但存在模型体量太大，难以在机器人本体上跑起来，而语义灾难性遗忘。Evo-1 （0.77B）的核心目标是在变小的同时，保住智商。Evo-1 能做到 0.77B，意味着它可以在边缘设备（Edge Devices）上流畅运行，而且不需要像谷歌那样先喂海量的机器人数据，降低了数据门槛。

Evo-1 采用了交叉调制扩散 Transformer，引入了“扩散模型（Diffusion）”策略来生成动作。它不是直接输出一个死板的坐标，而是像生成图片一样，根据视觉和语言的提示（Cross-modulated），逐步“去噪”生成一条平滑、精准的动作轨迹。这使得机器人的动作更加细腻、拟人，抗干扰能力更强。

Evo-1 采用了两阶段训练范式。感知与动作的初步对齐。再进行端到端的精细微调。

二：解决方案

目前的 VLA 趋势分为两派。一派是像 RT-2 那样，直接把图片和文本 tokenize 后丢进一个巨大的 LLM 里直接预测 token 化的动作。这种方法“智商”高，但推理极慢，且难以部署在机器人本体上。Evo-1选择了模块化。这意味着它没有把所有东西都塞进一个巨大的 Transformer 里，而是拆分了“大脑”（视觉-语言骨干）和“小脑/手”（扩散策略）。这种设计是为了实现标题中的Lightweight（轻量级），保证推理速度够快，能在边缘设备上运行。

1.Vision-Language Backbone

传统的 VLA（如 RT-2）通常是拿一个纯文本 LLM（比如 LLaMA），强行加一个 Vision Encoder，然后通过一个 Projector（投影层）连接。这种叫“Post-hoc alignment”（事后对齐），就像给盲人强行装个义眼，大脑和义眼的配合未必默契。Evo-1选择了InternVL3-1B。关键词是"Native Multimodal"（原生多模态）。这意味着这个模型从出生开始（预训练阶段）就是同时看图和读文字的。这种“原生家庭”好的模型，其视觉特征和语言特征在同一个向量空间里纠缠得更紧密，对于机器人理解“拿起那个红色的把手”这种跨模态指令至关重要。

视觉部分往往会引入大量的计算量，Evo-1 在这里做了两步操作：模型蒸馏（Distillation）：它用的 InternViT-300M 不是随便训练的小模型，而是从一个巨大的 InternViT-6B蒸馏出来的。这就像是把大学教授（6B）的知识浓缩进了一个神童（300M）的脑子里。虽然参数小了20倍，但通过“负余弦相似度损失”，强迫小模型的特征向量方向跟大模型保持一致，保留了强大的感知能力。Token 压缩（Pixel-unshuffle）：输入分辨率是 448×448（对机器人来说很高清了，能看清细节）。通常这会产生大量的 Tokens，导致推理变慢。它用Pixel-unshuffle把特征图的长宽减半，通道数乘4。这样 Token 数量直接减少了 4 倍。既保留了高分辨率带来的“空间粒度”（Spatial Granularity，对抓取很重要），又没有拖累推理速度。

而语言部分只保留前14层，用的语言模型是 Qwen2.5-0.5B，但它还把后面砍掉了，只留前 14 层。在大语言模型中，浅层/中层通常负责理解语法、词义以及与视觉特征的对齐（Semantic Alignment）。深层/末层通常负责复杂的逻辑推演、长文本生成和下一个词的预测概率调整。对于机器人来说不需要模型写诗或写代码（不需要深层的生成能力），需要它完美地理解“杯子在哪里”以及“怎么拿”（需要中层的对齐能力）。砍掉后半部分，不仅进一步减少了计算量（更轻量），反而因为去掉了不必要的生成层噪音，提取出的 zt特征对控制任务更纯粹、更有效。

2.交叉调制扩散 Transformer

从 DDPM 到 Flow Matching (流匹配)：传统的扩散策略（Diffusion Policy）通常基于 DDPM，通过预测噪声 ϵ 来逐步去噪。然而，Evo-1 选择了Flow Matching范式。

该公式定义了一个线性插值过程。在几何上，这意味着模型构建了一条连接高斯噪声分布与真实动作分布的“直线路径”。相比于传统扩散过程的随机游走路径，这种线性轨迹对应于最优传输理论中的最短路径。

模型学习的是速度场（Velocity Field,vθvθ），而非简单的噪声项。这意味着网络直接预测从噪声状态到目标状态的变化率。

这种设计显著降低了采样步骤（Inference Steps），提高了推理效率，同时 Beta 分布截断（Clamped τ）解决了流匹配在边界处（τ=0/1）梯度不稳定的数值问题。

Evo-1 的流匹配：它直接画了一条直线。公式里的线性插值（Linear Interpolation）意思就是，我在噪声和真实动作之间连一根线，训练模型沿着这条最短路径走。推理速度极快，动作轨迹更平滑，不会出现机械臂抖动的情况。

纯交叉注意力机制 (Solely Cross-Attention):标准的 DiT 或 VLA 模型通常采用 Self-Attention 和 Cross-Attention 交替的结构。Self-Attention 用于建模动作序列内部的时间依赖，Cross-Attention 用于引入条件（视觉/语言）。Evo-1去除了 Self-Attention，仅保留堆叠的 Cross-Attention 层。这是一个强烈的归纳偏置（Inductive Bias）*设计。作者认为，在动作生成的去噪过程中，动作 Token 之间的相互注意力（即动作自身的一致性）不如*动作对环境感知（zt）和本体状态（st）的响应重要。

3.集成模块

在 Transformer 架构中，浅层特征偏向底层的纹理和几何信息，深层特征偏向高层的抽象语义和逻辑推理。对于 Visuomotor（视觉运动）控制任务，模型不仅需要理解“拿什么”（语义），还需要知道“在哪”（空间几何）。第 14 层被认为是语义对齐（Semantic Alignment）与空间感知的最佳平衡点。过深的网络层往往会发生“语义坍缩”，丢失对控制至关重要的空间细粒度信息。

拼接优于投影：

投影 (Projection)：通常指通过 MLP 将不同维度的特征映射到同一潜在空间（Latent Space）再相加。这会导致信息压缩和高频信号丢失。
拼接 (Concatenation)：Evo-1 选择将 zt（多模态特征）与 st（机器人状态）直接在序列维度或通道维度进行拼接，作为 Transformer 的 Key/Value 输入。

本体感知信息（如关节角度、速度）通常是低维但在数值上非常敏感的物理量。通过拼接，模型保留了本体感知的原始流形结构（Raw Manifold Structure），避免了投影带来的量化误差。这使得 Cross-Attention 机制能够直接“索引”到精确的物理状态，从而生成更精准的控制信号。

4.Two-Stage Training Procedure

直接端到端训练会破坏预训练表征。阶段1 的核心是梯度隔离与冷启动，阶段2的核心是联合流形优化。

梯度隔离与冷启动：动作专家是随机初始化的。在训练初期，其输出与真实标签相差巨大，产生的梯度具有极大的方差。如果允许这些高方差的“噪声梯度”反向传播到 VLM，会迅速破坏 VLM 预训练好的高维特征流形。第一阶段本质上是一个Linear Probing（线性探测）或Head-Tuning的过程。它假设 VLM 的特征已经足够好，只需要训练一个映射函数（动作专家），将现有的语义特征空间映射到动作空间。

联合流形优化：在阶段 1 结束后，动作专家的参数已经进入了一个合理的局部最小值附近，梯度趋于平稳。此时解冻 VLM，进行的是微调（Fine-tuning）而非从头学习。这允许 VLM 的特征空间发生微小的平移或旋转，以更好地服务于控制任务，同时因为学习率通常较低且梯度稳定，不会破坏原有的语义结构。

Evo-1 的两阶段训练并非简单的工程技巧，而是针对多模态表征学习中核心问题的系统性解决方案。它通过梯度隔离保护了语义空间，通过分步优化实现了从通用感知到具体行动的平滑过渡，这是该模型能够在轻量级参数下依然保持高性能（语义对齐）的关键算法保障。

三：实验

四：总结

Evo-1 这篇论文在 VLA 领域具有重要的意义。它证明了不盲目堆砌参数、不依赖海量机器人数据，而是通过精细的架构工程（Architectural Engineering）*和*符合梯度动力学的训练策略，完全可以在小参数模型上实现超越大模型的性能。这为未来具身智能走向端侧部署（On-device AI）指明了一条可行的技术路径。