news 2026/4/18 6:39:59

效率翻倍!用Open-AutoGLM自动完成多步手机任务

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
效率翻倍!用Open-AutoGLM自动完成多步手机任务

效率翻倍!用Open-AutoGLM自动完成多步手机任务

你有没有过这样的经历:想在小红书搜“周末露营装备推荐”,结果点开App、等加载、输关键词、翻三页才找到想要的内容;又或者想给抖音上一个新账号点赞关注,得手动点开搜索框、粘贴ID、点进主页、再点关注——整个过程要15秒,手指还点得发酸。

现在,这些操作只需要一句话:“打开小红书搜周末露营装备推荐”“打开抖音搜索抖音号dycwo11nt61d并关注他”,剩下的,交给Open-AutoGLM。

这不是概念演示,也不是云端调API的伪自动化。这是真正跑在你本地电脑上、通过ADB直连真机、用视觉语言模型“看懂”屏幕、“想清楚”步骤、“动起手来”点击滑动的AI手机助理。它不依赖厂商预装,不上传你的截图和操作记录,也不需要你学代码——只要你会说人话,它就能替你点。

本文不是讲原理有多深,而是带你从零开始,把这套系统搭起来、连上手机、跑通第一个真实任务。全程不绕弯,不堆术语,每一步都经实测验证。读完你能亲手让AI帮你订一杯咖啡、查一次快递、甚至批量给十个博主点赞。

1. 它到底能做什么?先看三个真实任务

别急着装环境,我们先看看Open-AutoGLM干了什么——不是PPT里的“未来场景”,而是我昨天在办公室用真机录下的三段操作:

1.1 任务一:跨App查快递(5步变1句)

指令
“打开菜鸟裹裹,输入运单号SF123456789,查看最新物流状态”

它做了什么

  • 自动唤醒手机,解锁(需提前设置免密)
  • 找到并点击“菜鸟裹裹”图标(识别图标+文字)
  • 进入首页后,精准点击右上角“查快递”按钮
  • 在输入框中逐字输入“SF123456789”(通过ADB Keyboard模拟按键)
  • 点击“查询”,截屏返回物流详情页

耗时:22秒(手动操作平均需47秒,含找App、输单号、点错重来)

1.2 任务二:带条件的社交操作(需理解语义)

指令
“打开微博,搜索‘北京暴雨预警’,只看认证用户发布的带图片的微博,点开第一条,保存图片到相册”

它做了什么

  • 启动微博,点击顶部搜索栏
  • 输入关键词,触发搜索
  • 滚动列表,识别带“蓝V”标识和图片缩略图的微博项
  • 定位第一条符合条件的微博,点击进入详情页
  • 长按图片区域,选择“保存图片”(调用系统菜单)

关键点:它没机械执行“点第1个”,而是理解“认证用户”“带图片”“第一条”三个条件,并在动态界面中实时判断。

1.3 任务三:需要人工介入的敏感操作(安全设计)

指令
“打开支付宝,转账给张三,金额500元,备注‘房租’”

它做了什么

  • 启动支付宝,进入首页
  • 点击“转账”入口
  • 输入姓名“张三”,识别出通讯录中同名联系人
  • 停住,弹出确认框:“检测到转账操作,是否继续?(Y/N)”
  • 我敲Y后,它才输入金额、填写备注、点击确认
  • 到支付密码页,自动退出,等待我手动输入密码

为什么停?
框架内置敏感操作白名单:涉及支付、短信发送、应用卸载等动作,必须人工二次确认。这不是功能缺陷,而是把控制权牢牢交还给你。

这三个例子说明:Open-AutoGLM不是“高级宏录制”,它真正具备意图解析、界面理解、条件判断和分步执行能力。而这一切,都建立在一个极简前提上——你说人话,它来动手。

2. 准备工作:三步搞定硬件与环境

别被“ADB”“vLLM”吓住。这套流程我已在Windows 11和macOS Sonoma上反复测试,只要按顺序做,20分钟内必通。重点不是配置多复杂,而是哪几步最容易卡住——下面直接标出避坑点。

2.1 你的设备必须满足这三点(缺一不可)

  • 手机:Android 7.0及以上(实测小米12、华为Mate 40、Pixel 4a均通过)
  • 电脑:Windows 10/11 或 macOS 12+(M1/M2芯片需额外安装arm64版ADB)
  • 连接方式:USB线(最稳)或同一WiFi(需手机支持ADB over Network)

避坑提示:别用Type-C转接头!部分转接头不支持ADB数据传输,会显示“unauthorized”。务必用原装充电线或明确标注“支持数据传输”的线材。

2.2 ADB工具安装:两分钟搞定(附验证方法)

Windows用户

  1. 去Android SDK Platform-Tools官网下载zip包
  2. 解压到C:\platform-tools(路径别含中文和空格)
  3. Win + R→ 输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”里双击Path→ “新建” → 粘贴C:\platform-tools
  4. 打开命令提示符,输入:
adb version

正确输出应为类似Android Debug Bridge version 1.0.41

macOS用户
在终端执行:

# 下载并解压后,假设路径为 ~/Downloads/platform-tools echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version

同样看到版本号即成功

小技巧:如果adb devices始终不显示设备,90%是驱动问题。Windows用户请安装Google USB Driver,华为/小米用户建议去官网下载对应手机的ADB驱动。

2.3 手机端设置:四步开启“被操控权”

这四步必须手动操作,无法跳过,但只需设置一次:

  1. 开开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者”

  2. 开USB调试
    设置 → 系统 → 开发者选项 → 打开“USB调试” → 弹出授权框时点“确定”

  3. 装ADB Keyboard(关键!)

    • 去GitHub搜索adb-keyboard,下载最新apk(如adb-keyboard-v2.0.0.apk
    • 手机安装该APK
    • 设置 → 语言与输入法 → 当前输入法 → 切换为“ADB Keyboard”
  4. 关掉“USB调试(安全设置)”(仅三星/部分国产机):
    开发者选项里找到此项并关闭,否则ADB无法输入文字

验证是否成功:USB连电脑后,在命令行运行adb shell input text "test",若手机当前输入框出现“test”,说明ADB Keyboard已生效。

3. 部署Open-AutoGLM:克隆、安装、连设备

现在进入核心环节。所有命令均来自官方仓库,但经过我实测优化,删掉了文档里容易误导新手的冗余步骤。

3.1 克隆代码并安装依赖

打开终端(Windows用PowerShell或Git Bash,macOS用Terminal),依次执行:

# 1. 克隆仓库(注意:用https,不用git@,避免SSH密钥问题) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(强烈推荐,避免包冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 升级pip并安装依赖(官方requirements.txt有兼容性问题,改用此命令) pip install --upgrade pip pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # CUDA 11.8用户 # 若无GPU,用CPU版: # pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu pip install -r requirements.txt pip install -e .

常见报错处理:

  • ModuleNotFoundError: No module named 'PIL'→ 手动执行pip install Pillow
  • ImportError: libgl.so.1(Linux)→sudo apt-get install libglib2.0-0 libsm6 libxext6 libxrender-dev libglib2.0-dev

3.2 连接你的手机:USB与WiFi双方案

USB直连(推荐新手首选)

  1. 手机用USB线连电脑
  2. 终端执行:
adb devices

正确输出示例:

List of devices attached ZY322FDQJL device

设备ID(如ZY322FDQJL)就是下一步要用的--device-id

WiFi远程连接(适合桌面常驻)

  1. 先用USB连一次,执行:
adb tcpip 5555
  1. 拔掉USB线,确保手机和电脑在同一WiFi下
  2. 查手机IP:设置 → 关于手机 → 状态 → IP地址(如192.168.1.105
  3. 终端执行:
adb connect 192.168.1.105:5555

成功提示:connected to 192.168.1.105:5555

提示:WiFi连接偶尔掉线,若adb devices显示offline,重启手机ADB即可:adb kill-server && adb start-server

4. 运行第一个任务:从指令到屏幕点击

一切就绪。现在我们用最简单的指令启动AI代理——不调用云模型,先跑通本地流程。

4.1 用命令行快速验证(无需云服务)

Open-AutoGLM自带本地测试模式,不依赖任何远程API,纯靠视觉模型理解截图:

python main.py \ --device-id ZY322FDQJL \ --base-url http://localhost:8000/v1 \ # 占位,实际不调用 --model "dummy" \ "打开设置,进入关于手机"

你将看到:

  • 终端实时打印每一步动作:“正在截图...”“识别到‘设置’图标”“点击坐标(320, 650)”“等待页面加载...”
  • 手机屏幕自动跳转至“设置”页,再进入“关于手机”

这个模式证明:ADB控制链路、截图解析、动作执行全部打通。它是你后续接入云模型的基石。

4.2 对接云服务:获取模型地址(实测可用)

官方提供免费云服务试用(需注册CSDN星图账号),但文档未写明如何获取地址。实测路径如下:

  1. 访问 CSDN星图镜像广场
  2. 搜索“Open-AutoGLM”,点击“立即部署”
  3. 部署完成后,在“服务管理”页找到:
    • 公网IP:如118.193.200.123
    • 映射端口:如8800
    • 模型名autoglm-phone-9b(9B参数轻量版,响应快)

组合成base-url:http://118.193.200.123:8800/v1

4.3 执行真实多步任务(完整命令)

以“打开小红书搜美食”为例,终端执行:

python main.py \ --device-id ZY322FDQJL \ --base-url http://118.193.200.123:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索‘川菜探店’,进入第一个笔记,点赞并收藏"

实际效果:

  • AI自动启动小红书(若未安装则提示)
  • 点击搜索框,输入“川菜探店”
  • 点击搜索结果第一条笔记
  • 在笔记页识别“点赞”图标(心形)并点击
  • 识别“收藏”图标(书签)并点击
  • 全程约38秒,准确率100%(基于10次重复测试)

注意事项:

  • 首次运行会较慢(模型加载约15秒),后续任务秒级响应
  • 若某步失败(如找不到“收藏”图标),它会自动截图重试2次,仍失败则报错退出,不盲目乱点
  • 所有操作日志保存在./logs/目录,可随时回溯

5. 进阶用法:用Python API定制你的工作流

命令行适合尝鲜,但真正提升效率的是把它嵌入你的脚本。比如每天早9点自动刷小红书“职场干货”,或批量给竞品账号点赞。

5.1 三行代码控制设备(实测可用)

from phone_agent.adb import ADBConnection # 1. 连接设备 conn = ADBConnection() conn.connect("ZY322FDQJL") # USB设备ID # 2. 截一张图,保存为screen.png conn.screenshot("screen.png") # 3. 执行点击(坐标基于手机分辨率,此处为1080x2400屏) conn.tap(540, 1200) # 点击屏幕正中央

5.2 构建循环任务:自动刷10条小红书

import time from phone_agent.agent import PhoneAgent # 初始化AI代理(复用云服务) agent = PhoneAgent( device_id="ZY322FDQJL", base_url="http://118.193.200.123:8800/v1", model="autoglm-phone-9b" ) # 循环执行10次 for i in range(10): print(f"开始第{i+1}次操作...") try: # 每次执行不同搜索词,避免限流 keywords = ["职场沟通技巧", "高效时间管理", "PPT设计灵感"] agent.run(f"打开小红书,搜索'{keywords[i%3]}', 点赞第一条笔记") time.sleep(8) # 间隔8秒,模拟真人节奏 except Exception as e: print(f"第{i+1}次失败:{e}") break

实测效果:脚本运行3分20秒,完成10次搜索+点赞,成功率92%(1次因网络抖动超时)。比手动操作快4倍以上。

6. 常见问题与解决方案(来自真实踩坑)

这些问题我在测试中全部遇到过,解决方案均经验证:

6.1 “ADB devices 显示 unauthorized”

  • 原因:手机弹出的授权框被忽略,或USB调试被系统重置
  • 解决
    1. 断开USB,关闭开发者选项中的“USB调试”
    2. 重新打开“USB调试”,手机会再次弹出授权框
    3. 勾选“始终允许”,点确定

6.2 “模型无响应,终端卡在 loading”

  • 原因:云服务端口未映射成功,或防火墙拦截
  • 解决
    1. 在浏览器访问http://118.193.200.123:8800/health,应返回{"status":"healthy"}
    2. 若超时,检查云服务器安全组:放行TCP 8800端口
    3. 本地电脑防火墙临时关闭测试

6.3 “识别不到按钮,总点错位置”

  • 原因:手机开启了“字体缩放”或“显示大小”
  • 解决
    设置 → 显示 → 字体大小与样式 → 设为“默认”
    设置 → 显示 → 显示大小 → 设为“默认”
    (AI模型训练基于标准分辨率,缩放会导致坐标偏移)

6.4 “输入文字失败,显示乱码”

  • 原因:ADB Keyboard未设为默认输入法
  • 解决
    设置 → 语言与输入法 → 当前输入法 → 确认选中“ADB Keyboard”
    若列表无此选项,重新安装APK并重启手机

7. 总结:它不是替代你,而是放大你的能力

Open-AutoGLM的价值,从来不在“炫技”。当我第一次看着它自动帮我填完10张问卷、领完5个平台优惠券、整理好20条微信聊天记录时,我意识到:它解决的不是“能不能做”,而是“愿不愿意做”。

  • 对普通用户:把重复操作从“肌肉记忆”变成“动嘴就行”,每天省下15分钟,一年就是91小时——够看完18部电影。
  • 对开发者:提供了一套开箱即用的手机Agent框架,不用从零训练视觉模型,专注业务逻辑。
  • 对产品经理:验证了“自然语言即UI”的可行性——未来App或许不再需要复杂的设置页,一句“把上周五的会议纪要发给张三”就够了。

当然,它还有明显短板:面对游戏类动态界面(如《原神》抽卡动画)识别率下降;小众App图标适配需微调;长文本输入偶有漏字。但这些不是终点,而是起点——开源的意义,正是让每个人都能参与修补、优化、扩展。

你现在要做的,只是打开终端,敲下那行git clone。接下来的20分钟,可能就是你手机操作方式被改变的开始。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 3:31:50

保姆级Pi0具身智能教程:从部署到数据导出全解析

保姆级Pi0具身智能教程:从部署到数据导出全解析 1. 什么是Pi0?它为什么值得你花15分钟上手? 你可能已经听说过“具身智能”这个词——不是在云端空谈逻辑的AI,而是能看、能理解、能规划、还能把动作真正做出来的AI。Pi0&#xf…

作者头像 李华
网站建设 2026/4/12 9:10:27

阿里小云语音唤醒实战:从环境配置到自定义音频测试全流程

阿里小云语音唤醒实战:从环境配置到自定义音频测试全流程 你有没有试过对着智能设备说“小云小云”,却等来一片沉默?不是设备坏了,也不是你发音不准——更可能是模型没跑起来、音频格式不对、或者连最基础的采样率都没对上。语音…

作者头像 李华
网站建设 2026/3/4 3:06:11

SDXL-Turbo多场景案例:电商主图初稿、PPT配图、表情包生成

SDXL-Turbo多场景案例:电商主图初稿、PPT配图、表情包生成 1. 为什么SDXL-Turbo值得你立刻试一试 你有没有过这样的体验:想快速出一张电商主图,却卡在AI绘图的等待上——等30秒、等1分钟、甚至等更久?改一个词要重跑一遍&#x…

作者头像 李华
网站建设 2026/4/12 0:34:22

无需代码!Qwen-Image-2512图片生成服务小白入门指南

无需代码!Qwen-Image-2512图片生成服务小白入门指南 发布时间:2025年12月30日 作者:AITechLab 镜像名称:基于Qwen-Image-2512-SDNQ-uint4-svd-r32的图片生成服务 模型页面:https://huggingface.co/Qwen/Qwen-Image-2…

作者头像 李华
网站建设 2026/3/16 5:13:33

超详细步骤:在单卡上完成Qwen2.5-7B指令微调

超详细步骤:在单卡上完成Qwen2.5-7B指令微调 你是否试过在消费级显卡上微调大模型?是不是总被显存不足、环境报错、参数混乱劝退?这次我们不讲理论,不堆术语,就用一块RTX 4090D(24GB显存)&…

作者头像 李华
网站建设 2026/4/12 18:24:37

Z-Image-Turbo UI界面怎么用?图文详解来了

Z-Image-Turbo UI界面怎么用?图文详解来了 你刚部署好 Z-Image-Turbo,终端里跳出了绿色的 Running on local URL 提示,但点开浏览器后——面对满屏滑块、下拉框和“Prompt”“Negative Prompt”“Sampling Steps”一堆术语,一时不…

作者头像 李华