news 2026/4/18 1:58:49

Open-AutoGLM实测:AI操作手机准确率惊人

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM实测:AI操作手机准确率惊人

Open-AutoGLM实测:AI操作手机准确率惊人

1. 这不是科幻,是今天就能用的手机AI助理

你有没有过这样的时刻:想在小红书搜“上海周末咖啡馆”,手指刚点开App,就发现要先点搜索框、再输文字、再点键盘、再确认——一连串动作下来,灵感早飞了。或者测试一个电商App的新功能,得反复点开首页、加购、结算,重复二十遍,眼睛发酸手发麻。

Open-AutoGLM 就是来解决这些“手指疲劳”的。

它不是另一个需要写脚本、配XPath、调坐标的自动化工具。你不用懂什么是UI层级,也不用记住某个按钮在第几行第几列。你只需要像对朋友说话一样,说一句:“打开美团,搜‘附近2公里内评分4.8以上的粤菜馆’,点开第一家,看营业时间。”

然后——它就真的做了。

我连续三天实测了37个真实任务,覆盖微信、抖音、淘宝、高德、Chrome等12款高频应用。结果很明确:在常规网络和中端安卓设备条件下,任务完成准确率达91.9%,首次执行成功率86.5%。更关键的是,它出错的方式很“人”:不是卡死或乱点,而是会主动停住,弹出提示:“检测到登录页面,是否人工接管?”——这种分寸感,恰恰是多数自动化框架最缺的。

这不是概念演示,也不是实验室里的Demo。它已经能稳稳地帮你完成日常操作,而且部署比你想象中简单得多。

2. 它怎么做到“看懂屏幕+听懂人话+动手操作”的?

2.1 三层能力,环环相扣

Open-AutoGLM 的工作流不像传统自动化那样靠硬编码规则,而是像一个有眼睛、有脑子、有手的数字助手:

  • 眼睛(视觉感知层):每秒自动截取手机屏幕,把整张图喂给视觉语言模型。它不只识别“这是个搜索框”,还能理解“这个搜索框在顶部导航栏下方,右侧有个麦克风图标,当前处于未聚焦状态”。

  • 脑子(意图规划层):模型结合你的自然语言指令(比如“帮我订明天下午3点从北京南到天津的高铁票”)和当前界面信息,拆解成可执行的原子动作序列:先点右上角“+”,再选“火车票”,输入出发地,选择日期时间……每一步都带空间坐标和操作类型。

  • 手(设备控制层):通过 ADB(Android Debug Bridge)精准执行——点击(x,y)、滑动(start_x,start_y,end_x,end_y)、输入文字、返回、Home键……所有动作都绕过触摸层,直接调用系统级接口,稳定不抖动。

这三步不是线性串联,而是带反馈的闭环:执行完点击后,它立刻再截一次屏,确认按钮是否高亮、页面是否跳转;如果没变,就自动重试或调整坐标——这种“边做边看”的机制,正是它抗干扰能力强的核心。

2.2 和传统方案比,它赢在哪?

很多人第一反应是:“这不就是Auto.js + OCR的升级版?” 实测对比后,我发现根本不是一回事:

维度传统脚本方案(如Auto.js)Open-AutoGLM
适配成本每换一个App版本,就要重写元素定位逻辑,平均耗时20-40分钟同一指令在抖音6.2版和6.5版上均能运行,无需修改
抗干扰能力页面稍有变动(如按钮位置偏移5px、加载动画遮挡)即失败能识别“相似UI”,自动校准坐标,37个任务中仅2次因动态广告遮挡失败
指令理解只能执行预设关键词(如“点搜索”“输文字”),无法处理模糊表达理解“找离我最近的修手机的地方”“把聊天记录里上周三的截图发给我”这类复合语义
学习门槛需掌握JavaScript语法、Android UI树结构、XPath表达式只需会说中文,部署过程全程命令行,无代码环节

最让我意外的是它的容错设计:当遇到验证码、二次确认弹窗、或需要指纹支付时,它不会强行点击导致账号异常,而是暂停执行,输出清晰提示:“检测到安全验证弹窗,已暂停。请手动处理后输入‘继续’。” 这种“该放手时就放手”的克制,反而让它更值得信赖。

3. 从零开始,30分钟跑通第一个任务

别被“视觉语言模型”“vLLM推理服务”这些词吓住。实测下来,真正需要你动手的步骤只有5步,且每步都有明确反馈。我用一台2019款MacBook Pro(16GB内存)和一部小米12(Android 13)完成了全流程,全程无报错。

3.1 前置准备:3分钟搞定

这步是唯一需要你手动操作的,但极其简单:

  • 电脑端:安装ADB(Windows/macOS/Linux均有傻瓜教程,官方链接)。装完终端敲adb version,看到版本号就成功。
  • 手机端:设置→关于手机→连点7次“版本号”开启开发者模式;再进设置→开发者选项→打开“USB调试”和“USB调试(安全设置)”。
  • 关键一步:下载并安装 ADB Keyboard,然后在手机“语言与输入法”里把它设为默认输入法。这一步决定了中文能不能正常输入,千万别跳过。

验证是否成功:手机连电脑USB线 → 终端敲adb devices→ 输出类似8a9b3c1d device即可。如果显示unauthorized,只需在手机弹窗点“允许”。

3.2 部署核心:15分钟静默等待

接下来全是命令行操作,复制粘贴即可:

# 1. 克隆项目(约10秒) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境并安装依赖(约2分钟) python3 -m venv venv source venv/bin/activate # Windows用户用 venv\Scripts\activate pip install -r requirements.txt pip install -e . # 3. 启动本地模型服务(重点!耐心等待10-15分钟) python3 -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B-Multilingual \ --port 8000 \ --max-model-len 25480 \ --mm_processor_kwargs "{\"max_pixels\":5000000}"

这一步会自动从Hugging Face下载约20GB模型文件。网速快的话10分钟搞定;慢的话喝杯咖啡回来,终端出现Uvicorn running on http://0.0.0.0:8000就代表服务就绪。

小技巧:如果卡在下载,可能是网络问题。可以提前用浏览器打开 Hugging Face模型页,手动下载model.safetensors文件,放到项目目录的models/文件夹下,再运行启动命令,速度立升3倍。

3.3 执行第一个任务:2分钟见证奇迹

服务起来后,新开一个终端窗口,执行:

python main.py \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b-multilingual \ "打开Chrome,访问知乎,搜索'大模型入门书单'"

你会亲眼看到:

  • 手机屏幕自动亮起 → 启动Chrome → 地址栏出现光标 → 中文“知乎”被精准输入 → 回车 → 页面加载 → 自动滚动到搜索框 → 输入“大模型入门书单” → 点击搜索。

整个过程约47秒,没有一次误触,没有一处乱码。而你做的,只是复制了一行命令。

4. 实测37个任务,哪些场景它最拿手?

我设计了覆盖生活、工作、娱乐的37个真实任务,拒绝“Hello World”式测试。结果按场景分类如下:

4.1 社交与内容消费(12个任务,成功率94.2%)

  • “在微信里找到‘产品技术群’,把昨天分享的PDF文件转发给张三”
  • “打开小红书,搜‘露营装备清单’,保存前3篇笔记的封面图”
  • “在抖音关注抖音号为‘科技老男孩’的博主,并点赞他最新一条视频”

优势:对Feed流、评论区、分享弹窗等动态UI识别极准;长文本输入(如转发消息)无断句错误;多步跳转(App内→网页→返回)衔接自然。

注意点:部分App(如微博)的“发现页”采用无限滚动,首次加载内容少时,它可能误判为“页面为空”,建议加一句“下拉刷新”指令。

4.2 本地生活与电商(10个任务,成功率89.0%)

  • “打开美团,搜‘朝阳区宠物医院’,按评分排序,点开第一家,复制电话号码”
  • “在淘宝搜索‘机械键盘红轴’,筛选价格100-300元,加入购物车前3个商品”
  • “用高德地图查‘国贸地铁站到三里屯太古里’的步行路线,截图保存”

优势:地址、价格、评分等结构化数据提取准确;地图类App的缩放、拖拽、标记点操作流畅;截图保存路径自动归档到电脑指定文件夹。

注意点:电商App的“领券”弹窗偶有遮挡,此时它会主动暂停并提示,人工点掉后输入“继续”即可。

4.3 工具与效率(8个任务,成功率87.5%)

  • “打开备忘录,新建一页,标题‘今日待办’,添加三点:回邮件、约会议、买咖啡”
  • “在Chrome里打开10个常用网站(知乎、GitHub、CSDN…),全部后台运行”
  • “用系统相机拍一张照片,用Google Lens识别图中文字,复制到剪贴板”

优势:多任务并行处理稳定(如同时开10个Tab);系统级操作(拍照、截图、复制)成功率100%;对非标准输入法(如手写、语音转文字)兼容良好。

注意点:部分国产定制ROM(如华为EMUI)对ADB权限限制较严,需在“开发者选项”中额外开启“USB调试(安全设置)”。

4.4 为什么它能稳住90%+准确率?三个工程细节

深入代码后,我发现三个被精心打磨的设计,直接拉升了鲁棒性:

  1. 双模态坐标校准:它不依赖单一截图坐标。每次点击前,会用OCR识别目标区域文字(如按钮上的“搜索”),再用视觉模型定位图标轮廓,两套坐标交叉验证。偏差>15px时自动重采样,避免“点偏了”导致连锁失败。

  2. 上下文感知重试:传统工具失败就报错。它会分析失败原因——是页面没加载完?是弹窗遮挡?还是网络超时?然后针对性重试:加载慢就等3秒再截;有弹窗就先点“取消”;超时则切换WiFi/USB连接方式。

  3. 敏感操作熔断:涉及“删除联系人”“清空聊天记录”“支付”等指令时,它强制进入确认流程,必须收到用户明确回复(如输入“确认删除”)才执行,杜绝误操作风险。

5. 进阶玩法:让AI替你批量干活

单任务只是起点。Open-AutoGLM 的真正威力,在于它能把“一个人干的活”,变成“一台机器干十个人的活”。

5.1 一机多控:同时操作3台手机

公司市场部要测试新App在不同机型上的兼容性?不用来回插拔。只要3台手机都连上同一WiFi,执行:

# 查看所有已连接设备 adb devices -l # 启动3个并行任务(示例) python main.py --device-id 192.168.1.101:5555 --base-url http://localhost:8000/v1 "打开App,注册账号" python main.py --device-id 192.168.1.102:5555 --base-url http://localhost:8000/v1 "打开App,登录测试账号" python main.py --device-id 192.168.1.103:5555 --base-url http://localhost:8000/v1 "打开App,提交反馈表单"

实测3台小米、华为、OPPO手机同步运行,CPU占用率仅65%,全程无冲突。对于App测试、ASO优化、多账号运营,这是降本增效的利器。

5.2 远程托管:放在服务器上,随时调用

不想一直开着电脑?把它部署到云服务器(如Compshare的4090实例),配合内网穿透,就能实现:

  • 手机连家里的WiFi,电脑关机,AI仍在后台运行;
  • 微信发条消息给机器人:“帮我把今天会议录音转成文字,发到邮箱”;
  • 它自动唤醒手机,打开录音App,导出音频,上传至语音转文字API,生成文档,用邮件App发送。

整个流程无需人工干预,真正实现“手机即服务”。

5.3 定制你的AI助理:3行代码接入自有业务

如果你有内部系统,想让AI帮员工填单、查库存、报故障,只需扩展一个函数:

# 在 phone_agent/agent.py 中添加 def handle_internal_task(task_text): if "查库存" in task_text: sku = extract_sku(task_text) # 用正则或NLP提取货号 return query_inventory_api(sku) # 调用你自己的库存接口 elif "报故障" in task_text: return submit_ticket_api(task_text) # 提交工单 return None # 返回None则交由原流程处理 # 在main.py中调用 if custom_result := handle_internal_task(user_input): print(f"业务系统返回:{custom_result}") else: agent.run(user_input)

我们给某零售客户加了“扫码查价签有效期”功能,开发+测试仅用半天,现在店员扫一下价签,AI自动查数据库并语音播报结果。

6. 遇到问题?这些排查方法救了我三次

实测中我也踩过坑,整理成最简排查路径:

6.1 “手机没反应”——先看这三行

# 1. 确认ADB连上了吗? adb devices # 必须显示 device,不是 offline 或 unauthorized # 2. 确认ADB Keyboard设为默认了吗? adb shell settings get secure default_input_method # 正确输出:com.android.adbkeyboard/.AdbIME # 3. 确认模型服务跑起来了吗? curl http://localhost:8000/v1/models # 应返回JSON,不是Connection refused

90%的“没反应”问题,都卡在这三步中的某一步。

6.2 “中文输成乱码”——Windows用户必做

PowerShell里执行:

$env:PYTHONIOENCODING="utf-8" python main.py --base-url http://localhost:8000/v1 "输入中文测试"

6.3 “总在登录页卡住”——开启人工接管

在指令末尾加上[manual]标签:

python main.py --base-url http://localhost:8000/v1 "登录微信 [manual]"

它会在登录页暂停,等你手动输密码后,输入continue继续后续流程。


7. 总结:它不是替代你,而是把时间还给你

Open-AutoGLM 最打动我的地方,不是它有多“智能”,而是它足够“懂事”。

它知道什么时候该全力执行,也清楚什么时候该停下来等你;它能处理复杂的多步任务,却把部署复杂度压到最低;它用前沿的多模态技术,解决的却是最朴素的需求——少点几次屏幕,多留一点时间给自己。

如果你每天要在手机上重复操作超过5次,或者团队里有人花30%时间做App测试、数据录入、截图归档,那么它值得你花30分钟部署。因为从第二分钟起,它就开始为你赚钱了——以省下的时间计价。

而这一切,始于那一行简单的指令:

“打开小红书,搜美食。”

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/8 9:20:12

HAXM is not installed怎么解决:从零实现虚拟化支持配置

你提供的这篇博文内容 技术深度扎实、逻辑严密、结构清晰,已具备极高的专业水准和工程指导价值 。但作为面向开发者的技术传播内容(尤其是博客/公众号/技术社区),它在 可读性、传播力、教学节奏与“人味儿” 上仍有优化空间——当前版本略显“教科书化”,术语密度高、…

作者头像 李华
网站建设 2026/3/28 19:51:54

SiameseUIE中文适配:针对简体中文优化的分词与实体边界识别

SiameseUIE中文适配:针对简体中文优化的分词与实体边界识别 1. 为什么你需要一个“开箱即用”的中文信息抽取镜像 你有没有遇到过这样的情况:好不容易找到一个看起来很厉害的信息抽取模型,下载下来却卡在第一步——环境装不上。PyTorch版本…

作者头像 李华
网站建设 2026/4/9 13:11:42

PyTorch-2.x镜像使用全测评,这些功能太实用了

PyTorch-2.x镜像使用全测评,这些功能太实用了 你是否经历过这样的场景:刚配好一台新GPU服务器,却在环境搭建上卡了整整半天?pip install torch报错CUDA版本不匹配、jupyter lab启动失败、matplotlib中文显示乱码、pandas读取大文…

作者头像 李华
网站建设 2026/4/16 22:28:50

WOW64环境下print driver host for 32bit applications数据传递机制解析

以下是对您提供的技术博文《WOW64环境下 print driver host for 32bit applications 数据传递机制解析》的 深度润色与专业重构版本 。本次优化严格遵循您的全部要求: ✅ 彻底去除AI痕迹 :摒弃模板化表达、空洞总结、机械连接词,代之以真实工程师视角的叙述节奏、经验…

作者头像 李华
网站建设 2026/4/17 22:24:01

GLM-TTS方言克隆实测:四川话生成效果惊人

GLM-TTS方言克隆实测:四川话生成效果惊人 你有没有试过,只用3秒录音,就能让AI开口说地道四川话?不是“川普”,不是带口音的普通话,而是锅盔摊前那句“老板,来个冒菜,多放折耳根&…

作者头像 李华
网站建设 2026/4/9 0:15:01

曦望联席CEO王勇:启望S3研发完成,年中流片年底回片量产

雷递网 乐天 1月28日专注于推理 GPU 的曦望(Sunrise)昨日发布新一代推理 GPU 芯片启望S3,并披露其围绕推理场景构建的算力产品体系及共建推理云生态计划。这也是曦望在近一年累计完成约30亿元战略融资后的首次集中公开亮相。曦望联席CEO王勇在…

作者头像 李华