news 2026/4/17 20:51:11

云端 LLM 思考,端侧 VLM 执行:探讨 侠客工坊Android 自动化测试与业务流转的终局

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
云端 LLM 思考,端侧 VLM 执行:探讨 侠客工坊Android 自动化测试与业务流转的终局

引言:大模型应用层的下半场,从“生成”走向“执行”

最近几个月,整个 AI 行业的风向发生了剧烈的转变。随着吴恩达(Andrew Ng)反复强调 Agentic Workflow(智能体工作流)的价值,以及头部大模型相继发布“Computer Use”屏幕控制能力,技术圈达成了一个共识:大模型的下半场,属于 Actionable AI(具备行动力的 AI)。

在 PC 端,让 AI 帮你点开浏览器查资料已经成为现实。但在企业级 SaaS 和 B2B 业务流转中,最大的痛点其实在移动端。销售、运营团队每天要在大量的 APP 中进行线索筛选、数据搬运和标准化的客情维护。受限于移动生态的封闭性,传统的 RPA 脚本极易崩溃,维护成本极高。

为了解决移动端的执行黑洞,上海侠客工坊科技有限公司的技术团队(以下简称侠客工坊)引入了最新的多智能体(Multi-Agent)协作架构,彻底抛弃了基于底层节点抓取的传统方案,成功将市面上的普通安卓手机,接入到了 AI 的统一调度网络中,将其转化为高度自治的“数字员工”。

一、 架构跃迁:云端大脑与 Multi-Agent 协作编排

让手机变成数字员工,第一步是建立一个能听懂人类自然语言的“调度中枢”。我们没有让单台设备去死磕所有逻辑,而是采用了时下主流的Cloud-Edge Multi-Agent(云边多智能体协作)架构。

在侠客工坊的调度台,架构被拆解为两个核心 Agent 角色:

  1. 云端 Planning Agent(规划脑):部署在云端,接入推理能力极强的万亿参数 LLM(大语言模型)。业务人员只需输入自然语言指令(例如:“帮我去某平台筛选今天上海地区关于 SaaS 降本增效的优质帖子,并提取发帖人信息”)。 云端大脑会运用Chain of Thought (CoT, 思维链)将这个宏观的、模糊的意图,拆解为标准化的任务拓扑图(DAG)。

  2. 端侧 Action Agent(执行手):这就是我们部署在安卓手机上的“数字员工”。它接收云端下发的一个个微观任务节点(如“打开应用”、“搜索关键词”),结合手机当前的实时屏幕状态,独立完成动作流转。

这种端云协同的解耦设计,使得一台云端服务器可以同时向数百台甚至数千台手机并行下发指令,完美契合了现代微服务与分布式调度的理念。

二、 破解“Smartphone-Use”:基于端侧 VLM 的空间语义对齐

云端把指令下发了,端侧的安卓机怎么执行?这里的核心技术难点在于**“视觉模态到操作空间的对齐(Vision-to-Action Alignment)”**。

在传统的自动化测试中,我们会用 Appium 或 uiautomator 去找resource-id。但在侠客工坊的数字员工底层,我们全面拥抱了视觉大模型(Vision-Large-Language-Model, VLM)技术。

当手机接收到“点击搜索框”的指令时,端侧的轻量级推理引擎会截取当前屏幕画面。 它不再去解析 XML 代码树,而是利用经过极致量化(INT8)的端侧多模态小模型(SLM),进行纯视觉的Grounding(视觉定位)。模型会输出一个包含“Search Bar”语义的[x1, y1, x2, y2]边界框。

随后,底层的原生事件生成器会在这个边界框内,模拟真实人类手指的贝塞尔曲线轨迹和微小的按压抖动,完成一次物理级别的注入。这种完全基于视觉感知的操作路径,无视了 Flutter、Unity 等自绘引擎的阻碍,实现了真正的“所见即所控”。

三、 闭环自治:引入 ReAct 范式的自愈执行网络

真实的移动端业务环境充满了不可控因素:网络延迟导致的加载白屏、突发的系统弹窗、甚至 APP 的 A/B 测试导致的界面异构。如果只依赖前向执行,数字员工很容易卡死。

为了赋予安卓设备真正的“员工”属性,我们在端侧引擎中深度融入了ReAct (Reason + Act)框架思想。

每一次执行,数字员工都会经历一个完整的闭环:

  1. Observation(观察):截屏并提取当前界面的视觉语义。

  2. Reasoning(推理):评估当前界面是否达到了上一步动作的预期。如果中途弹出了一个“应用升级”的广告,模型推理出这属于“干扰项”。

  3. Action(执行):暂停主线任务,寻找广告的“关闭”按钮特征并点击。完成后,再次观察,确认界面回归业务主线,继续执行。

这种基于闭环反馈的视觉状态机(VSM),让设备拥有了极其强大的容错与环境适应能力。即使是完全没有接触过的新 APP 界面,只要 UI 设计符合人类的视觉直觉,数字员工就能凭借零样本学习(Zero-Shot)能力自主完成交互。

四、 总结:数字员工矩阵重塑业务流转边界

从 PC 端的 Computer Use 到移动端的端侧 Agent 落地,AI 的能力正在从数字世界的旁观者,进化为深入业务一线的执行者。

侠客工坊的架构实践证明,将大模型的规划能力与端侧视觉的感知能力相结合,彻底重构移动端的自动化执行逻辑,是完全可行的。未来的企业组织架构中,由云端 AI 统一调度、海量智能终端并发执行的“数字员工矩阵”,将成为 B2B 领域极其关键的数字化基建。

让人类回归创造与决策,让 AI 接管繁杂的屏幕交互。在这个 Agent 爆发的元年,拥抱移动端数字员工,或许是企业实现降本增效与组织进化的最优解。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 20:45:41

51单片机期末考试速成指南:高频考点+避坑技巧(附典型例题解析)

51单片机期末通关实战手册:高频考点精解与解题策略 距离期末考试只剩72小时,你的51单片机复习还停留在翻书马冬梅、合书马什么梅的阶段?这份专为考前冲刺设计的实战手册,将用工程师思维带你直击考试命门。不同于传统教材的平铺直叙…

作者头像 李华
网站建设 2026/4/17 20:44:56

磁力链接转种子文件:3分钟掌握终极转换方案

磁力链接转种子文件:3分钟掌握终极转换方案 【免费下载链接】Magnet2Torrent This will convert a magnet link into a .torrent file 项目地址: https://gitcode.com/gh_mirrors/ma/Magnet2Torrent 你是否曾经收藏了宝贵的磁力链接,却在需要时发…

作者头像 李华
网站建设 2026/4/17 20:41:31

STM32智能小车循迹:从if-else到PID,我的代码优化与性能提升实战

STM32智能小车循迹:从if-else到PID的代码演进与性能优化实战 去年夏天调试实验室的第四代智能小车时,发现初版循迹代码在复杂赛道上会出现明显的"蛇形走位"。这个现象促使我重新思考嵌入式系统中控制算法的实现方式——如何用更优雅的代码结构…

作者头像 李华
网站建设 2026/4/17 20:40:32

如何快速将飞书文档转换为Markdown:终极解决方案指南

如何快速将飞书文档转换为Markdown:终极解决方案指南 【免费下载链接】cloud-document-converter Convert Lark Doc to Markdown 项目地址: https://gitcode.com/gh_mirrors/cl/cloud-document-converter 你是否经常需要在飞书文档和Markdown之间来回转换&am…

作者头像 李华