news 2026/4/18 7:14:06

【开源上新】4B 参数突破端侧智能体性能壁垒!AgentCPM-Explore 正式入驻 AtomGit

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【开源上新】4B 参数突破端侧智能体性能壁垒!AgentCPM-Explore 正式入驻 AtomGit

当行业还在讨论 “大参数模型如何降本” 时,一款仅 4B 参数的端侧智能体模型,已用实力重新定义小模型的性能天花板 —— 由清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的AgentCPM-Explore,今日正式在 AtomGit 开源!作为聚焦 “开源 + AI” 的一体化协作平台,AtomGit 将为开发者提供模型托管、代码协作、算力协同全链路支持,让这款 “以小博大” 的端侧智能体技术触手可及。

👉 代码仓库:https://atomgit.com/OpenBMB/AgentCPM

👉 模型仓库:https://ai.atomgit.com/OpenBMB/AgentCPM-Explore

为什么 AgentCPM-Explore 值得关注?

4 大核心突破颠覆认知

不同于传统小模型 “能力受限” 的刻板印象,AgentCPM-Explore 以 4B 参数实现了 “参数轻量化、能力高密度” 的突破,在 8 大主流智能体评测基准(GAIA、Browsercomp、HLE 等)中交出亮眼答卷:

  • 参数效能比拉满:不仅斩获同尺寸(4B)模型 SOTA,更越级超越 2 倍参数量(8B)的 SOTA 模型,部分任务性能比肩 30B 级模型与闭源大模型(如 Xbench-DeepResearch 任务达 70%,超越 Claude-4.5-sonnet 的 66%);

8 个智能体评测任务榜单

  • 长程探索稳如老狗:支持超 100 轮不重复且稳定的环境交互,面对多步骤复杂任务能持续深度探索,直至准确完成;

  • 类人思考更智能:拒绝 “死记硬背”,面对难题时会 “质疑错误信息”“主动找原始数据”“灵活切换搜索策略”,例如解答 “美国历届总统出生地最远间距” 时,能自主核查全量数据、调整工具调用逻辑;

  • 复杂任务 hold 住:在 GAIA 文本任务中,经后训练后可解决95%以上题目,证明小模型在正确训练框架下,完全能突破 “能力天花板”。

原模型 Qwen3-4B-thinking-2507 与经过后训练的 AgentCPM-Explore 能力边界一览

全流程开源基建:从代码到评测,AtomGit 上一键打通

AgentCPM-Explore 不仅开源模型本身,更同步开放了 “从基础模型到 SOTA 效果” 的全流程技术栈 —— 三大核心工具平台已同步入驻 AtomGit 代码仓库,开发者无需从零搭建,直接复用即可实现性能翻倍:

1|AgentDock:工具沙盒统一调度平台

  • 高并发支持:原生接入 16 个 MCP 服务、百余种工具,核心工具可达 100+QPS 调用能力,适配 AtomGit 算力协同机制;

  • 容错拉满:自动重试、服务自愈、备用工具切换,确保长程任务不中断;

  • 轻量化接入:客户端仅需关注 “能力接口”,复杂网络、并发细节由平台搞定,支持工具热插拔。

2|AgentRL:极简异步强化学习框架

  • 零门槛上手:仅需标准 ChatCompletions 接口即可接入,核心代码仅 7 个文件、1000 + 行,新手也能快速验证想法;

  • 硬件榨干:支持 “采样 + 训练” 同 GPU 全异步运行,兼容 PyTorch 并行与 128K + 长文本训练,适配 AtomGit 算力资源调度;

  • 灵活扩展:训采完全解耦,采样进程可独立扩容,满足不同规模训练需求。

3|AgentToLeaP:智能体能力一键评测平台

  • 自动化评测:支持 GAIA、HLE 等 8 大榜单一键启动,一行命令完成全流程测试;

  • 自定义扩展:评测集独立管理,开发者可在 AtomGit 上快速接入私有测试集,验证模型适配性。

即刻上手:在 AtomGit 获取 AgentCPM-Explore

无论是想复现 SOTA 效果,还是基于此开发端侧智能体应用,在 AtomGit 上只需 2 步即可开启:

1|第一步:获取全流程代码

点击下方链接直达 AtomGit 代码仓库,获取模型训练、工具调用、评测全流程代码:

🔗 AgentCPM 代码仓库:https://ai.atomgit.com/OpenBMB/AgentCPM-Explore

(支持 Git 克隆、ZIP 下载,结合 AtomGit DevOps 工具链可直接开启开发)

2|第二步:获取模型权重与文档

进入 AtomGit 模型仓库,直接下载 AgentCPM-Explore 模型权重,或查看技术文档了解部署细节:

🔗 AgentCPM-Explore 模型仓库:https://ai.atomgit.com/OpenBMB/AgentCPM-Explore

(兼容 Hugging Face、ModelScope 生态,可直接用于端侧推理或二次训练)

共建端侧智能体新生态:AtomGit 与你同行

AgentCPM-Explore 的开源,是 “小模型释放大能量” 的起点,而 AtomGit 将为这份创新提供全周期支撑:

  • 对研究者:提供无代码训练平台、在线开发环境(Space),支持快速验证新算法、复现实验;

  • 对工程师:接入 AtomGit 算力协同能力,新注册用户每月可免费领取30M Tokens(API 推理)1000 核时 NPU 算力(模型训练),降低部署成本;

  • 对评测玩家:可在 AtomGit 社区分享测试样例,推动模型能力边界拓展。

正如 AtomGit“开源协作、赋能创新” 的理念,我们期待与所有开发者一起,让端侧智能体技术从 “实验室” 走向 “真实场景”—— 无论是手机端自动化任务、车载智能交互,还是工业端轻量化决策,AgentCPM-Explore 的开源都将成为新起点。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/15 22:18:45

奥偌医疗设备制造全流程解析:精工铸就医疗安全基石

一、开篇引言在现代化医疗体系中,安全、可靠的医疗设备是保障诊疗行为顺利进行、守护患者生命健康的关键物质基础。作为医疗气体系统解决方案的重要一环,奥偌医疗深知设备制造环节的至关重要性。它不仅是技术方案的物理承载,更是医疗安全防线…

作者头像 李华
网站建设 2026/4/13 18:53:18

选择国产CAD软件,流程顺畅比功能堆砌更实用

之前评估过不少CAD软件,功能列表看得人眼花缭乱,个个都写得天花乱坠。但对我们实际用软件干活的人来说,单个功能再炫酷也没用,要是融不进日常工作流,价值直接打折扣。我们要的不是一堆孤立的工具,是能把设计…

作者头像 李华
网站建设 2026/4/18 6:29:04

出海新机遇:打造海外打车系统的核心逻辑与本地化关键

一、引言:海外出行市场的蓝海机遇在全球数字化转型的浪潮中,出行服务市场正迎来新一轮的国际化扩张。随着国际旅游业的复苏和本地化出行需求的增长,海外打车市场展现出巨大的发展潜力。然而,与国内市场不同,海外市场具…

作者头像 李华
网站建设 2026/4/9 19:16:24

怎么分析LLM在并发访问时的性能瓶颈?

试想一下这样一种场景: 如果一个GPU集群的LLM处理能力为1000 tokens/s,那么1000个用户同时并发访问的话,响应给每个用户的性能只有 1 token/s吗?肯定不是。 因为LLM并不是简单的线性分配资源,而是通过批处理与并发调度…

作者头像 李华
网站建设 2026/4/18 6:31:25

解释一下Linux系统的权限管理机制

Linux中的权限管理机制主要是围绕用户和组的权限展开。 Linux中的文件和目录都是由: 所有者(user)、组(Group)、其他人(Others) 这三种实体来管理权限。 可以使用ls -l命令来查看文件的权限和所…

作者头像 李华