跟着做就对了!Open-AutoGLM完整操作流程图解
你有没有想过,手机能自己“看懂”屏幕、理解你的指令、再像真人一样点开App、输入关键词、完成搜索甚至点击关注?不是科幻电影,是今天就能上手的现实——Open-AutoGLM 就是这样一个让手机真正“活起来”的AI Agent框架。它不依赖预设脚本,不靠固定坐标点击,而是用视觉语言模型实时理解界面,再通过 ADB 自动执行动作。一句话:你说人话,它办人事。
本文不是概念科普,也不是参数堆砌,而是一份零基础可照着敲、每一步有反馈、出错有解法的实操指南。无论你是刚配好Python环境的开发者,还是第一次听说ADB的新手,只要按顺序走完这六步,15分钟内就能让AI替你打开小红书、搜美食、点进博主主页并完成关注——全程无需手动触屏。
我们不讲“多模态感知架构”,只说“为什么这一步要开USB调试”;不谈“vLLM推理优化”,只告诉你“连不上设备时换根线真管用”。所有内容,都来自真实部署过程中的截图、报错、重试与验证。
1. 先搞明白:它到底能做什么,又不需要你做什么
Open-AutoGLM(准确说是其核心组件 AutoGLM-Phone)不是一个需要你写代码控制UI的自动化工具,而是一个能看、能想、能动手的手机智能助理。它的能力边界非常清晰:
能看:截取当前手机屏幕,识别按钮文字、图标位置、输入框状态(比如“搜索框是否为空”、“登录按钮是否可点击”)
能想:把你的自然语言指令(如“帮我把微信里昨天收到的PDF文件发到邮箱”)拆解成可执行动作序列(打开微信→找到聊天→长按PDF→选择转发→切换到邮箱App→粘贴发送)
能动手:通过 ADB 发送点击、滑动、输入指令,真实操控设备,就像你亲手操作一样
❌不做:不越权访问隐私数据(如读取短信、通讯录需明确授权)、不绕过系统级安全弹窗(如应用权限申请仍需你点“允许”)、不支持iOS(仅限Android 7.0+)
最关键的是:你不需要训练模型、不需标注数据、不需写一行逻辑判断代码。整个流程由预置模型和框架自动完成。你唯一要做的,就是把需求说清楚,比如:
“打开微博,搜索‘国产大模型评测’,进入阅读量最高的那条帖子,截图保存到相册”
这句话,就是你和AI之间的全部接口。
2. 准备三样东西:电脑、手机、网络,缺一不可
别被“AI框架”吓住——Open-AutoGLM 的本地控制端本质是个Python程序,对硬件要求极低。你只需要确认以下三件事已就绪:
2.1 你的电脑(Windows/macOS均可)
- Python 版本 ≥ 3.10(检查命令:
python --version或python3 --version) - 能正常运行命令行(Windows用CMD/PowerShell,macOS用Terminal)
- 有管理员权限(用于配置环境变量)
小提示:如果你还没装Python,推荐直接去 python.org 下载安装包,勾选“Add Python to PATH”再安装,省去后续配置麻烦。
2.2 你的安卓手机(或模拟器)
- 系统版本 ≥ Android 7.0(绝大多数2017年后的机型都满足)
- 支持USB调试(几乎所有品牌都支持,包括华为、小米、OPPO、vivo、三星等)
- 有可用USB数据线(重点:必须是支持数据传输的线,部分充电线无法识别设备)
2.3 网络连接方式(二选一)
| 方式 | 优点 | 注意事项 |
|---|---|---|
| USB直连 | 稳定、延迟低、无需配WiFi | 需物理连接,适合首次调试 |
| WiFi远程 | 解放双手,手机可放在桌面自由操作 | 首次需USB连接开启TCP/IP,且手机与电脑在同一局域网 |
划重点:无论选哪种,ADB工具必须提前装好并加入系统PATH。这是整个流程的“地基”,地基不牢,后面全白搭。
3. 安装ADB:三分钟搞定,但必须一次成功
ADB(Android Debug Bridge)是电脑和安卓设备通信的唯一桥梁。Open-AutoGLM 所有操作——截图、点击、输入文字——都靠它转发。安装失败,后面所有步骤都会卡在“找不到设备”。
3.1 下载与解压
- 去官网下载最新版平台工具:https://developer.android.com/tools/releases/platform-tools
- 解压到一个路径不含中文和空格的文件夹,例如:
C:\adb(Windows) 或~/adb(macOS)
3.2 配置环境变量(让系统 anywhere 都认识 adb)
Windows 用户:
- 按
Win + R,输入sysdm.cpl→ 回车 - 切换到“高级”选项卡 → 点击“环境变量”
- 在“系统变量”中找到
Path→ 点击“编辑” → “新建” → 粘贴你刚才的ADB解压路径(如C:\adb) - 点击“确定”保存所有窗口
- 重启命令行窗口(非常重要!旧窗口不生效),输入:
若显示类似adb versionAndroid Debug Bridge version 1.0.41,说明成功
macOS 用户:
- 打开 Terminal
- 输入以下命令(将
~/Downloads/platform-tools替换为你实际的解压路径):echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc - 输入
adb version验证,同上
🧩 常见卡点:
- 报错
'adb' is not recognized...→ 环境变量没生效,务必重启终端- 显示
command not found→ 路径写错,检查是否多打了斜杠或拼写错误- 版本号太老(如1.0.32)→ 建议重下新版,旧版可能不兼容新机型
4. 手机设置:四步打开“控制开关”
手机端设置是整个流程中最容易因品牌差异出问题的环节。我们按通用逻辑梳理,同时标注主流品牌(小米、华为、OPPO)的特殊操作。
4.1 开启开发者模式(一次设置,永久有效)
- 进入设置 → 关于手机 → 版本号
- 连续点击“版本号”7次,直到弹出提示:“您现在处于开发者模式”
- 完成:返回设置首页,能看到新增的“开发者选项”
小米用户注意:若找不到“关于手机”,可在设置顶部搜索框直接搜“版本号”
华为用户注意:部分新机型需先开启“系统和更新”里的“开发人员选项”
4.2 开启USB调试(每次连接都需要)
- 进入设置 → 开发者选项 → USB调试→ 开关打开
- 完成:此时用USB线连接电脑,命令行输入
adb devices应显示设备ID(如abcd1234 device)
小米/Redmi用户必做:
在“开发者选项”中,额外开启两项:
USB调试(安全设置)USB安装
否则ADB可识别设备,但无法执行点击/输入操作。
4.3 安装ADB Keyboard(让AI能“打字”)
Open-AutoGLM 需要向输入框发送文字(如搜索关键词),而标准ADB无法跨应用输入。ADB Keyboard 是专为此设计的输入法,它让AI指令能真正变成手机屏幕上的文字。
- 下载APK:https://github.com/senzhk/ADBKeyBoard/releases/download/v1.0/ADBKeyboard.apk
- 用USB线传到手机,或直接在手机浏览器下载安装
- 安装完成后,进入设置 → 语言与输入法 → 当前输入法→ 切换为
ADB Keyboard
验证:在任意输入框(如微信搜索栏)长按 → 选择“输入法” → 确认ADB Keyboard在列表中并已启用
4.4 (可选但推荐)开启无线调试(为WiFi连接铺路)
若计划用WiFi控制,现在就开启无线调试,避免后续反复插拔USB:
- 进入设置 → 开发者选项 → 无线调试→ 开关打开
- 点击“无线调试”,在“配对码”旁点“配对”,记下IP、端口、配对码
- 在电脑命令行执行:
adb pair 192.168.1.100:37845 # 输入配对码,回车 adb connect 192.168.1.100:37845
成功后
adb devices会显示192.168.1.100:37845 device
5. 部署控制端:克隆、安装、验证,三步到位
现在本地环境已准备好,我们来部署Open-AutoGLM的控制程序。它本身不包含大模型,只是一个轻量级调度器,负责把你的指令发给云端模型,并把模型返回的操作指令翻译成ADB命令。
5.1 克隆代码仓库
打开命令行,进入你想存放项目的文件夹(如D:\projects),执行:
git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM若未安装Git,可直接去GitHub页面点击绿色"Code"按钮 → "Download ZIP",解压后进入文件夹即可。
5.2 安装Python依赖(国内用户请用清华源)
# 推荐使用清华镜像加速(尤其在国内) pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .验证:无报错即成功。若提示
No module named 'torch',说明PyTorch未预装,请先运行:pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
5.3 连接设备并验证(最关键的一步)
确保手机已通过USB或WiFi连接,然后执行:
adb devices正确输出示例:
List of devices attached abcd1234 device❌ 常见错误及解法:
List of devices attached(空)→ 检查USB线、开发者选项、小米的“USB调试(安全设置)”unauthorized→ 手机弹出“允许USB调试吗?”对话框,务必勾选“始终允许”,再点确定offline→ 重启ADB服务:adb kill-server && adb start-server
🧪 小实验:执行
adb shell screencap -p /sdcard/screen.png→adb pull /sdcard/screen.png .
若当前目录生成了screen.png,说明ADB截图功能完全正常
6. 运行AI代理:一条命令,让手机开始工作
一切就绪,现在只需一条命令,就能启动AI助理。我们以最典型的场景为例:打开抖音,搜索指定博主并关注。
6.1 使用第三方API(推荐新手,免GPU)
Open-AutoGLM 支持调用智谱BigModel或魔搭(ModelScope)的在线API,无需本地部署大模型。我们以魔搭为例(注册免费,API Key秒发):
- 访问 https://modelscope.cn,注册/登录
- 进入个人中心 → “Access Token” → 创建新Token → 复制保存
- 获取模型地址:
ZhipuAI/AutoGLM-Phone-9B - API入口:
https://api-inference.modelscope.cn/v1
执行命令(替换<your-token>和<device-id>):
python main.py \ --device-id abcd1234 \ --base-url https://api-inference.modelscope.cn/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ --apikey "<your-token>" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
--device-id:从adb devices输出中复制(USB连接时是字母数字串;WiFi连接时是192.168.x.x:5555)--base-url和--model必须严格匹配所选平台(智谱用https://open.bigmodel.cn/api/paas/v4+autoglm-phone)- 最后引号内的字符串,就是你给AI的自然语言指令,越具体越好
6.2 实时观察执行过程(你会看到什么?)
运行后,控制台将逐行输出AI的思考与行动:
[INFO] 截取当前屏幕... [INFO] 屏幕已上传至模型服务... [INFO] 模型返回动作:CLICK, x=520, y=1280, text="抖音" [INFO] 执行点击:adb shell input tap 520 1280 [INFO] 截取新屏幕... [INFO] 模型返回动作:CLICK, x=890, y=150, text="搜索框" [INFO] 执行点击... [INFO] 模型返回动作:INPUT, text="dycwo11nt61d" [INFO] 执行输入:adb shell am broadcast -a ADB_INPUT_TEXT --es msg "dycwo11nt61d" ... [INFO] 任务完成:已关注博主“XXX”成功标志:手机屏幕上真实发生了对应操作,且最后控制台输出Task completed successfully。
6.3 常见问题速查表(亲测有效)
| 现象 | 可能原因 | 解决方案 |
|---|---|---|
| 屏幕黑屏/报“敏感屏幕” | 小米/华为等品牌的安全策略拦截截图 | ① 关闭“应用启动管理”中抖音/小红书的“自启动”和“后台活动” ② 在“设置→隐私→权限管理→无障碍”中,关闭所有无关无障碍服务(只留ADB Keyboard) ③ 换一根支持数据传输的USB线(6A快充线常不支持) |
| 输入文字失败/乱码 | ADB Keyboard未设为默认输入法 | 进入手机“语言与输入法”,确认ADB Keyboard已启用并设为默认 |
| 模型无响应/超时 | API Key无效或网络不通 | ① 检查Token是否复制完整(含空格) ② 浏览器访问 https://api-inference.modelscope.cn/v1看是否返回404(正常应返回API文档) |
| 点击位置偏移 | 手机分辨率与模型训练分辨率不一致 | 在main.py中添加参数--scale-factor 1.0(根据实际屏幕缩放调整,常见值0.8~1.2) |
终极建议:首次运行,务必用USB连接 + 简单指令(如“打开设置”),验证基础链路畅通后再尝试复杂任务。
7. 总结:你已经掌握了手机AI助理的核心能力
回顾这六步,你其实只做了三件关键事:
- 打通通信链路:用ADB让电脑“看见”并“触摸”手机;
- 赋予输入能力:用ADB Keyboard让AI能“说话”(输入文字);
- 交付决策大脑:把自然语言指令交给云端视觉语言模型,让它规划并下达操作命令。
你不需要理解Transformer结构,也不用调参优化,Open-AutoGLM 已把所有复杂性封装在main.py一行命令里。真正的门槛,从来不是技术,而是敢不敢把第一句指令说出来。
接下来,你可以尝试这些真实场景:
- “把微信收藏里的‘Python学习笔记’PDF,用WPS打开并转成Word”
- “打开高德地图,搜索‘最近的苹果授权店’,导航到距离最近的一家”
- “进入淘宝,找到‘机械键盘’品类,按销量排序,截图前三款商品详情页”
每一次成功,都是AI从“玩具”变成“工具”的临界点。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。