news 2026/4/18 8:08:54

能控制手机屏幕的开源agent多模态工具

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
能控制手机屏幕的开源agent多模态工具

之前探索了能控制电脑桌面的开源agent工具。

https://blog.csdn.net/liliang199/article/details/156018145

这里进一步探索能控制手机屏幕的开源agent多模态工具。

1 模拟工具

以下是几款可以实现移动端模拟操作的开源工具。

其中,Open-AutoGLM和Airtest功能较为强大和主流,

1.1 Open-AutoGLM

AI驱动,自然语言交互,多模态理解,面向开发者的高级自动化、智能任务助理

基于视觉语言模型理解屏幕,通过ADB执行操作,可解析用户指令并自动规划任务流程

https://github.com/zai-org/Open-AutoGLM

1.2 Airtest

跨平台,基于图像识别,提供IDE,游戏和App的UI自动化测试、简易脚本录制与回放

通过图像匹配定位UI元素,模拟点击、滑动等操作,支持生成测试报告

https://github.com/AirtestProject/Airtest

1.3 mcp-android-emulator

与AI助手(如Claude)深度集成 作为MCP服务器,将ADB操作(截图、点击、输入等)

通过AI助手直接控制安卓设备进行探索或测试,可以封装为AI可调用的工具

https://github.com/Anjos2/mcp-android-emulator

1.4 Mobile-Env

学术研究导向,强化学习平台,主要用于学术研究、开发与评估交互式AI代理

为训练AI代理与移动应用交互而设计,提供标准化的环境和任务集

https://github.com/stefanbschneider/mobile-env

2 选择工具

可以根据主要目的来选择适合的移动端模拟工具,目标是实现高度智能的自动化任务。

如果用自然语言描述复杂操作流程,应优先选择Open-AutoGLM。

如果主要进行UI自动化测试,如回归测试、兼容性测试,Airtest及其图形化IDE会更简单直接。

如果是探索AI模型控制手机,则选mcp-android-emulator,它能通过对话指挥AI助手操作设备。

如果是学术研究、训练AI模型,则选Mobile-Env,它提供了现成的强化学习实验平台。

在Android平台,则需要配置Android Debug Bridge (ADB) 环境,准备安卓真机或模拟器。

reference

---

能控制计算机桌面的多模态AI agent

https://blog.csdn.net/liliang199/article/details/156018145

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:07:46

【开题答辩全过程】以 基于Java的校内美食推荐系统的设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

作者头像 李华
网站建设 2026/4/18 3:38:18

AI Agent企业落地避坑指南:7大致命错误,收藏级干货

企业落地AI Agent常面临七大陷阱:需求误判(未先优化流程)、目标输入不明确、数据处理难题、业务模式局限(盲目追求全自动)、项目管理缺失、预期与成本误区。AI Agent本质是效率工具,需明确边界,…

作者头像 李华
网站建设 2026/4/18 3:38:16

IP 地址解析

“IP 地址解析 / IP 地址详解” —IP地址的基础信息 一、什么是 IP 地址? IP 地址 网络中设备的唯一编号 就像: 手机号 → 找到一个人IP 地址 → 找到一台设备 常见格式(IPv4): 192.168.1.100由 **4 个字节&#xff0…

作者头像 李华
网站建设 2026/4/18 3:28:19

(最新)2026有哪些免费降ai率工具?这个真能把AI率降下去!

哪个工具降AI率效果最好?2025年降AICG工具专业评估指南!亲测这10个平台,学生党必看!这个真能把AI率降下去!编辑今年AIGC检测这块儿真是翻车重灾区。现在用AI写初稿不是秘密,但问题是,论文的“AI…

作者头像 李华
网站建设 2026/4/18 3:36:03

浏览器秒变 VS Code!Code-Server+cpolar,异地开发再也不用带电脑

Code-Server 是一款能将 VS Code 完整部署到服务器的工具,通过浏览器就能实现远程编码,保留了原编辑器的插件安装、代码调试、终端操作等所有核心功能。它特别适合三类人群:笔记本性能有限的开发者、需要跨设备协作的团队、经常出差的职场人&…

作者头像 李华
网站建设 2026/4/18 3:36:53

西门子PLC的步进电机直接控制系统设计

第四章 S7—200直接控制步进电机硬件设计 4.1s7—200的介绍 PLC实质是一种专用于工业控制的计算机,其硬件结构基本上与微型计算机相同。 1、中央处理单元(CPU)是PLC的控制中枢。它按照PLC系统程序赋予的功能接收并存储从编程器键入的用户程序和数据;检…

作者头像 李华