跟着做就对了！Open-AutoGLM完整操作流程图解-程序员充电站

跟着做就对了！Open-AutoGLM完整操作流程图解

你有没有想过，手机能自己“看懂”屏幕、理解你的指令、再像真人一样点开App、输入关键词、完成搜索甚至点击关注？不是科幻电影，是今天就能上手的现实——Open-AutoGLM 就是这样一个让手机真正“活起来”的AI Agent框架。它不依赖预设脚本，不靠固定坐标点击，而是用视觉语言模型实时理解界面，再通过 ADB 自动执行动作。一句话：你说人话，它办人事。

本文不是概念科普，也不是参数堆砌，而是一份零基础可照着敲、每一步有反馈、出错有解法的实操指南。无论你是刚配好Python环境的开发者，还是第一次听说ADB的新手，只要按顺序走完这六步，15分钟内就能让AI替你打开小红书、搜美食、点进博主主页并完成关注——全程无需手动触屏。

我们不讲“多模态感知架构”，只说“为什么这一步要开USB调试”；不谈“vLLM推理优化”，只告诉你“连不上设备时换根线真管用”。所有内容，都来自真实部署过程中的截图、报错、重试与验证。

1. 先搞明白：它到底能做什么，又不需要你做什么

Open-AutoGLM（准确说是其核心组件 AutoGLM-Phone）不是一个需要你写代码控制UI的自动化工具，而是一个能看、能想、能动手的手机智能助理。它的能力边界非常清晰：

能看：截取当前手机屏幕，识别按钮文字、图标位置、输入框状态（比如“搜索框是否为空”、“登录按钮是否可点击”）
能想：把你的自然语言指令（如“帮我把微信里昨天收到的PDF文件发到邮箱”）拆解成可执行动作序列（打开微信→找到聊天→长按PDF→选择转发→切换到邮箱App→粘贴发送）
能动手：通过 ADB 发送点击、滑动、输入指令，真实操控设备，就像你亲手操作一样
❌不做：不越权访问隐私数据（如读取短信、通讯录需明确授权）、不绕过系统级安全弹窗（如应用权限申请仍需你点“允许”）、不支持iOS（仅限Android 7.0+）

最关键的是：你不需要训练模型、不需标注数据、不需写一行逻辑判断代码。整个流程由预置模型和框架自动完成。你唯一要做的，就是把需求说清楚，比如：

“打开微博，搜索‘国产大模型评测’，进入阅读量最高的那条帖子，截图保存到相册”

这句话，就是你和AI之间的全部接口。

2. 准备三样东西：电脑、手机、网络，缺一不可

别被“AI框架”吓住——Open-AutoGLM 的本地控制端本质是个Python程序，对硬件要求极低。你只需要确认以下三件事已就绪：

2.1 你的电脑（Windows/macOS均可）

Python 版本 ≥ 3.10（检查命令：python --version或python3 --version）
能正常运行命令行（Windows用CMD/PowerShell，macOS用Terminal）
有管理员权限（用于配置环境变量）

小提示：如果你还没装Python，推荐直接去 python.org 下载安装包，勾选“Add Python to PATH”再安装，省去后续配置麻烦。

2.2 你的安卓手机（或模拟器）

系统版本 ≥ Android 7.0（绝大多数2017年后的机型都满足）
支持USB调试（几乎所有品牌都支持，包括华为、小米、OPPO、vivo、三星等）
有可用USB数据线（重点：必须是支持数据传输的线，部分充电线无法识别设备）

2.3 网络连接方式（二选一）

方式	优点	注意事项
USB直连	稳定、延迟低、无需配WiFi	需物理连接，适合首次调试
WiFi远程	解放双手，手机可放在桌面自由操作	首次需USB连接开启TCP/IP，且手机与电脑在同一局域网

划重点：无论选哪种，ADB工具必须提前装好并加入系统PATH。这是整个流程的“地基”，地基不牢，后面全白搭。

3. 安装ADB：三分钟搞定，但必须一次成功

ADB（Android Debug Bridge）是电脑和安卓设备通信的唯一桥梁。Open-AutoGLM 所有操作——截图、点击、输入文字——都靠它转发。安装失败，后面所有步骤都会卡在“找不到设备”。

3.1 下载与解压

去官网下载最新版平台工具：https://developer.android.com/tools/releases/platform-tools
解压到一个路径不含中文和空格的文件夹，例如：
C:\adb（Windows）或~/adb（macOS）

3.2 配置环境变量（让系统 anywhere 都认识 adb）

Windows 用户：

按Win + R，输入sysdm.cpl→ 回车
切换到“高级”选项卡 → 点击“环境变量”
在“系统变量”中找到Path→ 点击“编辑” → “新建” → 粘贴你刚才的ADB解压路径（如C:\adb）
点击“确定”保存所有窗口
重启命令行窗口（非常重要！旧窗口不生效），输入：
```
adb version
```
若显示类似Android Debug Bridge version 1.0.41，说明成功

macOS 用户：

打开 Terminal
输入以下命令（将~/Downloads/platform-tools替换为你实际的解压路径）：
```
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc
```
输入adb version验证，同上

🧩 常见卡点：
报错'adb' is not recognized...→ 环境变量没生效，务必重启终端
显示command not found→ 路径写错，检查是否多打了斜杠或拼写错误
版本号太老（如1.0.32）→ 建议重下新版，旧版可能不兼容新机型

4. 手机设置：四步打开“控制开关”

手机端设置是整个流程中最容易因品牌差异出问题的环节。我们按通用逻辑梳理，同时标注主流品牌（小米、华为、OPPO）的特殊操作。

4.1 开启开发者模式（一次设置，永久有效）

进入设置 → 关于手机 → 版本号
连续点击“版本号”7次，直到弹出提示：“您现在处于开发者模式”
完成：返回设置首页，能看到新增的“开发者选项”

小米用户注意：若找不到“关于手机”，可在设置顶部搜索框直接搜“版本号”
华为用户注意：部分新机型需先开启“系统和更新”里的“开发人员选项”

4.2 开启USB调试（每次连接都需要）

进入设置 → 开发者选项 → USB调试→ 开关打开
完成：此时用USB线连接电脑，命令行输入adb devices应显示设备ID（如abcd1234 device）

小米/Redmi用户必做：
在“开发者选项”中，额外开启两项：
USB调试（安全设置）
USB安装
否则ADB可识别设备，但无法执行点击/输入操作。

4.3 安装ADB Keyboard（让AI能“打字”）

Open-AutoGLM 需要向输入框发送文字（如搜索关键词），而标准ADB无法跨应用输入。ADB Keyboard 是专为此设计的输入法，它让AI指令能真正变成手机屏幕上的文字。

下载APK：https://github.com/senzhk/ADBKeyBoard/releases/download/v1.0/ADBKeyboard.apk
用USB线传到手机，或直接在手机浏览器下载安装
安装完成后，进入设置 → 语言与输入法 → 当前输入法→ 切换为ADB Keyboard

验证：在任意输入框（如微信搜索栏）长按 → 选择“输入法” → 确认ADB Keyboard在列表中并已启用

4.4 （可选但推荐）开启无线调试（为WiFi连接铺路）

若计划用WiFi控制，现在就开启无线调试，避免后续反复插拔USB：

进入设置 → 开发者选项 → 无线调试→ 开关打开
点击“无线调试”，在“配对码”旁点“配对”，记下IP、端口、配对码

在电脑命令行执行：

adb pair 192.168.1.100:37845 # 输入配对码，回车 adb connect 192.168.1.100:37845

成功后adb devices会显示192.168.1.100:37845 device

5. 部署控制端：克隆、安装、验证，三步到位

现在本地环境已准备好，我们来部署Open-AutoGLM的控制程序。它本身不包含大模型，只是一个轻量级调度器，负责把你的指令发给云端模型，并把模型返回的操作指令翻译成ADB命令。

5.1 克隆代码仓库

打开命令行，进入你想存放项目的文件夹（如D:\projects），执行：

git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM

若未安装Git，可直接去GitHub页面点击绿色"Code"按钮 → "Download ZIP"，解压后进入文件夹即可。

5.2 安装Python依赖（国内用户请用清华源）

# 推荐使用清华镜像加速（尤其在国内） pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .

验证：无报错即成功。若提示No module named 'torch'，说明PyTorch未预装，请先运行：
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

5.3 连接设备并验证（最关键的一步）

确保手机已通过USB或WiFi连接，然后执行：

adb devices

正确输出示例：

List of devices attached abcd1234 device

❌ 常见错误及解法：

List of devices attached（空）→ 检查USB线、开发者选项、小米的“USB调试（安全设置）”
unauthorized→ 手机弹出“允许USB调试吗？”对话框，务必勾选“始终允许”，再点确定
offline→ 重启ADB服务：adb kill-server && adb start-server

🧪 小实验：执行adb shell screencap -p /sdcard/screen.png→adb pull /sdcard/screen.png .
若当前目录生成了screen.png，说明ADB截图功能完全正常

6. 运行AI代理：一条命令，让手机开始工作

一切就绪，现在只需一条命令，就能启动AI助理。我们以最典型的场景为例：打开抖音，搜索指定博主并关注。

6.1 使用第三方API（推荐新手，免GPU）

Open-AutoGLM 支持调用智谱BigModel或魔搭（ModelScope）的在线API，无需本地部署大模型。我们以魔搭为例（注册免费，API Key秒发）：

访问 https://modelscope.cn，注册/登录
进入个人中心 → “Access Token” → 创建新Token → 复制保存
获取模型地址：ZhipuAI/AutoGLM-Phone-9B
API入口：https://api-inference.modelscope.cn/v1

执行命令（替换<your-token>和<device-id>）：

python main.py \ --device-id abcd1234 \ --base-url https://api-inference.modelscope.cn/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ --apikey "<your-token>" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数说明：
--device-id：从adb devices输出中复制（USB连接时是字母数字串；WiFi连接时是192.168.x.x:5555）
--base-url和--model必须严格匹配所选平台（智谱用https://open.bigmodel.cn/api/paas/v4+autoglm-phone）
最后引号内的字符串，就是你给AI的自然语言指令，越具体越好

6.2 实时观察执行过程（你会看到什么？）

运行后，控制台将逐行输出AI的思考与行动：

[INFO] 截取当前屏幕... [INFO] 屏幕已上传至模型服务... [INFO] 模型返回动作：CLICK, x=520, y=1280, text="抖音" [INFO] 执行点击：adb shell input tap 520 1280 [INFO] 截取新屏幕... [INFO] 模型返回动作：CLICK, x=890, y=150, text="搜索框" [INFO] 执行点击... [INFO] 模型返回动作：INPUT, text="dycwo11nt61d" [INFO] 执行输入：adb shell am broadcast -a ADB_INPUT_TEXT --es msg "dycwo11nt61d" ... [INFO] 任务完成：已关注博主“XXX”

成功标志：手机屏幕上真实发生了对应操作，且最后控制台输出Task completed successfully。

6.3 常见问题速查表（亲测有效）

现象	可能原因	解决方案
屏幕黑屏/报“敏感屏幕”	小米/华为等品牌的安全策略拦截截图	① 关闭“应用启动管理”中抖音/小红书的“自启动”和“后台活动” ② 在“设置→隐私→权限管理→无障碍”中，关闭所有无关无障碍服务（只留ADB Keyboard） ③ 换一根支持数据传输的USB线（6A快充线常不支持）
输入文字失败/乱码	ADB Keyboard未设为默认输入法	进入手机“语言与输入法”，确认ADB Keyboard已启用并设为默认
模型无响应/超时	API Key无效或网络不通	① 检查Token是否复制完整（含空格） ② 浏览器访问`https://api-inference.modelscope.cn/v1`看是否返回404（正常应返回API文档）
点击位置偏移	手机分辨率与模型训练分辨率不一致	在`main.py`中添加参数`--scale-factor 1.0`（根据实际屏幕缩放调整，常见值0.8~1.2）

终极建议：首次运行，务必用USB连接 + 简单指令（如“打开设置”），验证基础链路畅通后再尝试复杂任务。

7. 总结：你已经掌握了手机AI助理的核心能力

回顾这六步，你其实只做了三件关键事：

打通通信链路：用ADB让电脑“看见”并“触摸”手机；
赋予输入能力：用ADB Keyboard让AI能“说话”（输入文字）；
交付决策大脑：把自然语言指令交给云端视觉语言模型，让它规划并下达操作命令。

你不需要理解Transformer结构，也不用调参优化，Open-AutoGLM 已把所有复杂性封装在main.py一行命令里。真正的门槛，从来不是技术，而是敢不敢把第一句指令说出来。

接下来，你可以尝试这些真实场景：

“把微信收藏里的‘Python学习笔记’PDF，用WPS打开并转成Word”
“打开高德地图，搜索‘最近的苹果授权店’，导航到距离最近的一家”
“进入淘宝，找到‘机械键盘’品类，按销量排序，截图前三款商品详情页”

每一次成功，都是AI从“玩具”变成“工具”的临界点。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

跟着做就对了！Open-AutoGLM完整操作流程图解