news 2026/5/9 13:49:38

行深智能开源EdgeFM推理框架:为物流小车解锁灵魂的底层技术实践

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
行深智能开源EdgeFM推理框架:为物流小车解锁灵魂的底层技术实践

点击下方卡片,关注“自动驾驶之心”公众号

戳我->领取自动驾驶近30个方向学习路线

编辑 | 自动驾驶之心

>>自动驾驶前沿信息获取自动驾驶之心知识星球

01.

让具身智能在国产芯片上跑通确定性低延迟,

行深智能如何打破边缘AI的生态垄断

在行深智能的研发基地,每天都有大量自动驾驶终端与具身机器人正身处真实物理场景在真实场景中穿梭、避障、重新规划路径。

它们需要实时处理视觉与语言指令,并端到端地转化为连续的底盘控制动作——这正是视觉语言动作模型(VLA)的典型应用。然而,这套“端到端感知-决策-执行”的理想范式,在真正落地于资源极其受限的车载边缘平台时,却长期受困于一个严酷的现实:高性能推理被高度绑定的闭源硬件工具链所垄断。

行深智能技术团队近日正式发布开源推理框架 EdgeFM,旨在为具身智能打造一个开放、独立、可自主迭代的“移动底座”。

  • 打破生态垄断:EdgeFM 以“代理驱动”的全新范式,在多平台上取得了对闭源方案的显著性能优势,彻底打破了算法灵魂被禁锢在特定计算躯壳中的局面。

  • 国产芯片首发适配:EdgeFM 在国产地平线征程6芯片上,首次完成了 VLA 模型的端到端部署,让具身智能在国产算力平台上跑出了确定性的低延迟。

  • 从感知到具身行动:通过将 L4 级自动驾驶沉淀的底层能力下沉,EdgeFM 实现了数字大脑与物理身体的高效协同。无论是轮式、多足还是各类具身终端,都能在异构硬件之上获得极致的推理效率。

这标志着行深智能在构建开放、独立、可自主迭代的边缘AI部署体系上,迈出了关键一步。

  • 技术报告: EdgeFM: Efficient Edge Inference for Vision-Language Models

  • 论文链接:https://arxiv.org/abs/2604.27476

  • Github: https://github.com/windog-labs/edge-fm-x

02.

EdgeFM:为边缘控制回路而生的“薄”框架

图1: EdgeFM pipeline

在设计上,EdgeFM完全面向物流小车这类单请求、延迟关键型负载。

  • 边缘原生极简内核:去除臃肿的通用兼容层,专精于边缘场景,以精简C++运行时与单一JSON配置文件驱动,将系统开销压缩至极限。

  • 模块化技能库与代理驱动优化:框架的核心创新在于,利用现代AI编码代理自动搜索、调优并生成高度优化的低层级内核,并封装为可复用技能。运行时通过轻量级算子分发表,根据模型、硬件、输入形状及执行阶段动态热加载最优内核。开发者无需等待任何厂商的闭源实现。

  • 阶段分离与内存优化:支持预填充与解码阶段分离部署。以视觉-语言-动作(Vision-Language-Action, VLA)模型为例:感知阶段可使用高精度计算保准确性,而动作解码阶段则施以激进的低比特量化与图形加速。同时内置固定前缀KV缓存复用、即插即用KV缓存压缩等机制,在极端有限的内存下支撑长上下文推理。

03.

性能全面超越闭源工具链,创造多项里程碑

图2: 性能指标对比(x86, Orin, J6M)

研究团队在三种典型边缘平台上对 EdgeFM 进行了严格的性能验证,对比基线为 NVIDIA 官方高性能部署框架 TensorRT‑Edge‑LLM。

  • x86 平台服务器(NVIDIA A800 80GB):在 Qwen2.5 系列多个 VLM 与 LLM 基座模型上,EdgeFM 在绝大多数典型预填充/解码配比下均实现了更低的端到端延迟。以 Qwen2.5‑VL‑0.5B 为例,1024 预填充、64 解码的配置下,总延迟降低约 7.97%;在更大规模模型上亦保持一致的增益趋势。

  • 资源严苛的 Orin 平台(Jetson Orin NX 8GB):EdgeFM 的优势被进一步放大。在 Qwen2.5‑VL‑0.5B 上,框架在 512 预填充、32 解码的典型场景下实现 32.76% 的端到端延迟缩减,解码阶段延迟更是大幅降低了 34.35%。整体加速比最高达到 1.49 倍,充分验证了其对资源受限硬件的超强适应力。

  • 国产地平线征程 6 平台(Journey 6M):面对此平台通常必须依赖的闭源工具链限制,EdgeFM 首次完成了VLA的端到端部署。基于 SmolVLA‑base 模型,在平台原生 5 GB BPU 内存限制下,通过解耦预填充‑解码计算图模型、int16 量化与轨道级校准、运算符等价替换等系统优化,实现了确定性的长上下文预填充延迟和极低的动作专家解码延迟(如 512 前缀下每个动作解码步骤仅约 12.5 毫秒)。这标志着国产边缘芯片终于拥有了能够支撑机器人实时闭环控制的开源高性能 VLA 推理方案。

04.

以开放生态加速具身智能的民主化

行深智能深知,无人物流车L4甚至具身智能的爆发绝非单兵作战。未来的智能社会,是由无数形态各异、任务不同的自动驾驶终端与机器人组成的异构网络。它们在复杂的现实空间中穿行、感知并交互,这就要求底层的推理引擎必须具备跨越硬件边界、驱动多样化算法的能力。

EdgeFM的开源,正是面向“具身移动”时代投下的一枚种子。它不再仅仅服务于特定的物流场景,而是通过内置的“代理驱动优化”范式,打破了边缘计算的黑盒。任何致力于L4级自动驾驶或具身智能开发的团队,都能利用AI代理生成并贡献新的内核技能——这种模块化的进化方式,让全球开发者能够即时共享最前沿的移动智能成果。

行深智能技术负责人表示:“具身智能的灵魂,在于它理解空间并进行实时决策的能力。我们不愿这种能力被禁锢在任何特定的硬件躯壳中。EdgeFM的开源,是我们将L4级自动驾驶沉淀的底层能力,向整个具身移动产业的一次彻底赋能。”

我们邀请所有深耕边缘部署、追求极致推理效率的开发者加入EdgeFM社区。让我们不再被硬件生态所锁定,共同为千行百业的智能终端,打造一个真正自由、高效、感知未来的具身移动底座。

自动驾驶之心

求点赞

求分享

求喜欢

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 13:46:24

第五篇:锻造大脑——为什么算法公开,你却造不出 GPT?

书接上文。同学问:“既然 CNN、Transformer 的论文和代码都是开源的,我能不能在寝室里手搓一个 DeepSeek 或者 GPT-4?” 这就像虽然米其林餐厅的菜谱(算法)是公开的,但要把菜做成艺术品,你还需要…

作者头像 李华
网站建设 2026/5/9 13:45:46

外贸版GEO优化和海外版GEO区别?

在全球数字经济一体化的背景下,生成式引擎优化(GEO)作为应对AI搜索变革的关键技术,其应用策略因目标市场与生态系统的不同而产生显著分野。本文旨在从行业分析视角,厘清面向中国出口企业的“外贸版GEO优化”与广义上面…

作者头像 李华
网站建设 2026/5/9 13:45:38

CANN/ge图编译器API文档

SetCompileConfig(GraphPp类) 【免费下载链接】ge GE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占…

作者头像 李华
网站建设 2026/5/9 13:44:50

CANN自动融合精度测试报告

自动融合精度测试报告 【免费下载链接】graph-autofusion Graph-autofusion 是一个面向昇腾(Ascend)芯片的轻量级、解耦式组件集合,旨在通过自动融合技术加速模型执行。 目前已开源 SuperKernel 组件,未来将持续开放更多自动融合相…

作者头像 李华
网站建设 2026/5/9 13:37:30

爱马仕(Hermes)AI智能体框架完整指南:从入门到部署

⚠️ 阅读提示:本文内容基于社区资料整理,部分技术细节(如性能数据)来源于官方文档,读者在实际操作前建议前往 NousResearch 官方 GitHub 核实最新信息。 一、Hermes Agent 是什么? Hermes Agent&#xff…

作者头像 李华
网站建设 2026/5/9 13:36:30

CANN/catlass基础矩阵乘法TLA访问器

Basic Matmul TLA Visitor 【免费下载链接】catlass 本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。 项目地址: https://gitcode.com/cann/catlass 代码路径:include/catlass/gemm/kernel/basic_matmul_tla_visitor…

作者头像 李华