手把手教你部署Open-AutoGLM，连手机都能听懂话-程序员充电站

手把手教你部署Open-AutoGLM，连手机都能听懂话

你有没有试过一边炒菜一边想：“要是手机能自己打开小红书搜‘快手家常菜’就好了”？
或者加班到深夜，只想说一句“把今天会议的截图发给张经理”，手机就自动完成——不用解锁、不用点开App、不用复制粘贴。
这不是科幻片，是 Open-AutoGLM 正在做的事：让手机真正听懂人话，并替你动手。

它不是另一个聊天机器人，而是一个能“看”屏幕、“读”界面、“想”步骤、“点”按钮的 AI 手机助理。你下指令，它执行；你说需求，它跑流程；你动嘴，它动手。

本文不讲抽象概念，不堆技术参数，只做一件事：带你从零开始，在自己的电脑上搭起这个会听话的手机AI代理——哪怕你没碰过ADB，也没写过一行Python，也能照着操作成功。

全程实测基于 Windows 11 和 macOS Sonoma，覆盖真机连接、WiFi远程控制、本地轻量运行与云端高性能调用四种典型场景。所有命令可直接复制粘贴，所有坑我都替你踩过了。

1. 它到底能干什么？先看三个真实指令

别急着装，先确认：这东西是不是你想要的。

我们用三句最普通的中文，测试 Open-AutoGLM 在真实安卓手机上的表现（Pixel 7a，Android 14）：

1.1 “打开微信，给王磊发条消息：今晚聚餐改到7点”

自动唤醒微信 → 进入聊天列表 → 搜索“王磊” → 点击对话框 → 输入文字 → 点击发送
（全程无手动干预，耗时约28秒）

1.2 “打开高德地图，查从公司到西溪湿地的公交路线”

启动高德 → 定位起点（自动获取当前位置）→ 输入“西溪湿地”为终点 → 切换至公交模式 → 展示首班/末班时间、换乘数、步行距离
（识别出地图顶部的“公交”Tab并精准点击）

1.3 “打开小红书，搜‘露营装备推荐’，保存前3篇笔记的封面图”

启动小红书 → 点击搜索栏 → 输入关键词 → 进入图文流 → 逐篇长按封面 → 选择“保存图片” → 弹出系统提示“已保存至相册”
（自动识别“保存图片”按钮位置，适配不同机型UI偏移）

关键不在“能不能做”，而在怎么做：
它不靠预设脚本，不依赖固定ID；而是每一步都先“看”一眼当前屏幕（截图+UI结构XML），再结合你的语言指令推理下一步该点哪、输什么、滑多远——就像一个坐在你旁边、手速极快又特别耐心的朋友。

2. 准备工作：三件套搞定硬件与环境

部署分两部分：手机端准备（一次配置，长期有效）和电脑端控制（你的操作台）。我们按顺序来，不跳步。

2.1 手机端：开启“被操控权限”

这是最关键的一步。很多失败，卡在这儿。

开启开发者选项
设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 提示“您现在是开发者！”
开启USB调试
设置 → 系统 → 开发者选项 → 打开“USB调试” → 弹窗点“确定”
安装并启用 ADB Keyboard（必须！）
下载地址：https://github.com/senzhk/adbkeyb/releases
安装 APK 后：
设置 → 语言与输入法 → 虚拟键盘 → 勾选ADB Keyboard→ 设为默认输入法
验证：在任意输入框长按 → 选“输入法” → 应能看到 ADB Keyboard 被选中

注意：部分国产手机（华为、小米）需额外开启“USB调试（安全设置）”或关闭“MIUI优化”。若 adb devices 显示unauthorized，请在手机弹窗点“允许”。

2.2 电脑端：装好ADB与Python

无论 Windows 还是 macOS，只需三步：

安装 ADB 工具包
官方下载页：https://developer.android.com/tools/releases/platform-tools
解压后记下路径，例如：C:\platform-tools（Win）或~/Downloads/platform-tools（Mac）
配置环境变量（让终端认得 adb 命令）
- Windows：
  Win + R→ 输入sysdm.cpl→ 高级 → 环境变量 → 系统变量 → Path → 新建 → 粘贴 ADB 解压路径 → 确定
  打开新命令行，输入adb version，应显示版本号（如1.0.41）
- macOS：
  终端执行：
```
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version
```
安装 Python 3.10+
推荐从 python.org 下载安装包，勾选“Add Python to PATH”
终端输入python --version，确认输出 ≥ 3.10

3. 部署控制端：克隆、安装、连设备

现在，你的电脑就是“指挥中心”。

3.1 下载并安装 Open-AutoGLM 控制代码

打开终端（Windows 用 PowerShell 或 CMD，Mac 用 Terminal）：

# 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境（推荐，避免依赖冲突） python -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 安装依赖（含核心库 phone_agent） pip install -r requirements.txt pip install -e .

成功标志：无报错，且python -c "import phone_agent"不报错。

3.2 连接你的手机

确保手机已通过 USB 连接电脑，并已授权调试。

检查连接状态
终端执行：
```
adb devices
```
输出应类似：
```
List of devices attached AERFUT4B08000806 device
```
若显示unauthorized，请检查手机弹窗；若为空，重插USB线或换接口。

WiFi 远程连接（可选，适合桌面固定使用）
首次需 USB 连接启用 TCP/IP：

adb tcpip 5555 # 断开USB线，连接同一WiFi adb connect 192.168.1.100:5555 # 替换为手机IP（设置→关于手机→状态→IP地址）

小技巧：手机IP可在 WiFi 设置里长按网络名查看，或用adb shell ip addr show wlan0 | grep "inet "快速获取。

4. 启动AI代理：两种方式，按需选择

Open-AutoGLM 支持两种运行模式：本地轻量运行（适合体验、隐私敏感场景）和远程API调用（适合高性能、多设备管理）。我们分别说明。

4.1 方式一：本地运行（无需云服务，手机+电脑即可）

适用于 M1/M2 Mac 或 Windows + NVIDIA 显卡用户。模型需提前下载并量化。

下载并量化模型（以 Mac M2 为例）

# 安装 Hugging Face CLI pip install -U "huggingface_hub[cli]" # 下载原始模型（约12GB，支持断点续传） huggingface-cli download --resume-download zai-org/AutoGLM-Phone-9B \ --local-dir ./models/AutoGLM-Phone-9B # 4-bit 量化（生成约6.5GB MLX 格式模型，15分钟内完成） python -m mlx_vlm.convert --hf-path ./models/AutoGLM-Phone-9B -q --q-bits 4 \ --mlx-path ./models/autoglm-9b-4bit

启动本地代理

# 单次指令执行 python main.py --local --model ./models/autoglm-9b-4bit "打开知乎，搜‘大模型入门’" # 交互模式（连续输入多条指令） python main.py --local --model ./models/autoglm-9b-4bit

优势：数据不出本地，响应稳定，适合个人日常辅助。
注意：M2 16GB 内存可运行，但建议关闭其他应用；Windows 用户需 CUDA 环境支持。

4.2 方式二：远程API调用（推荐新手，开箱即用）

如果你不想折腾模型下载与量化，可直接调用已部署好的云端服务（如 CSDN 星图镜像广场提供的预置实例）。

启动命令（替换为你实际的服务器地址）

python main.py \ --device-id AERFUT4B08000806 \ --base-url http://192.168.1.200:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音，搜‘dycwo11nt61d’并关注"

参数说明：
- --device-id：adb devices显示的设备ID（USB）或IP:5555（WiFi）
- --base-url：指向 vLLM 或 Ollama 启动的 OpenAI 兼容 API（端口需映射到公网或局域网）
- 最后字符串：你的自然语言指令，支持中文，越具体越好

优势：免模型管理，即装即用，适合快速验证效果。
提示：CSDN 星图镜像广场提供一键部署的 Open-AutoGLM 服务镜像，含预装 vLLM 与模型，3分钟可上线。

5. 实战调试：遇到问题？这样排查最有效

部署中最常见的5个问题，及对应解法：

5.1 “adb devices 显示 offline 或 unauthorized”

解决：拔掉USB线 → 关闭手机“开发者选项” → 重新开启 → 再次授权调试弹窗
检查：手机是否开启“USB调试（安全设置）”（华为/OPPO等品牌特有）

5.2 “执行Type动作，手机没输入文字”

核心原因：ADB Keyboard 未设为默认输入法
操作：设置 → 语言与输入法 → 默认输入法 → 选 ADB Keyboard
验证：在备忘录里点输入框 → 长按 → “输入法” → 确认 ADB Keyboard 被勾选

5.3 “模型返回乱码或空响应”

检查 base-url 是否正确（末尾必须带/v1）
检查 vLLM 启动时--mm-processor-kwargs参数是否包含'{"max_pixels":5000000}'
降低请求复杂度，先试“打开设置”等简单指令

5.4 “点击位置偏差，总点错地方”

原因：手机开启了“字体缩放”或“显示大小”
解决：设置 → 显示 → 字体大小与样式 → 设为“默认”；显示大小 → 设为“默认”

5.5 “WiFi连接后adb devices不显示设备”

先用USB执行adb tcpip 5555
确保电脑与手机在同一子网（如都是192.168.1.x）
关闭电脑防火墙临时测试

终极调试命令：
adb shell screencap -p /sdcard/screen.png && adb pull /sdcard/screen.png ./
可随时抓取当前屏幕截图，确认 Agent “看到”的画面是否与你一致。

6. 进阶玩法：不止于“听话”，还能“记事”“学习惯”

Open-AutoGLM 的设计远超单次任务执行。它支持上下文记忆、多轮协作与人工接管，让自动化更自然。

6.1 多轮对话：让AI记住你的偏好

比如你第一次说：“打开网易云，播周杰伦的歌”，它会启动App并搜索。
第二次说：“换一首”，它无需再打开App，直接点击“下一首”按钮——因为它记住了当前在播放界面。

原理：Agent 在每次操作后，缓存当前界面状态（截图+XML+历史动作），作为下一轮推理的上下文。

6.2 敏感操作人工接管：安全第一

当进入银行App、支付页面或验证码弹窗时，Agent 不会强行操作，而是输出：

{"action": "Take_over", "reason": "检测到支付确认弹窗，请手动输入验证码"}

此时你只需操作手机完成验证，Agent 自动恢复后续流程。

6.3 批量任务脚本化（适合测试工程师）

将指令写入文本文件，批量执行：

# tasks.txt 内容： 打开淘宝搜索蓝牙耳机 打开小红书搜“露营装备” 打开高德查公司到西湖路线 # 执行全部 cat tasks.txt | while read cmd; do python main.py --device-id AERFUT4B08000806 --base-url http://192.168.1.200:8800/v1 --model autoglm-phone-9b "$cmd" sleep 5 done

7. 总结：这不是工具，而是你手机的“第二双手”

回看开头那句：“连手机都能听懂话”——现在你知道，它不只是听懂，更是理解、规划、执行、反馈、学习。

对普通用户：它是厨房里的语音助手、通勤路上的行程管家、会议中的自动记录员；
对开发者：它是UI自动化测试的新范式，不再维护XPath，只描述“我要做什么”；
对产品经理：它是竞品功能快速验证器，一句话就能跑通整个用户旅程；
对安全研究员：它是移动App行为审计员，自动遍历所有页面并截图留痕。

Open-AutoGLM 的价值，不在于它多“聪明”，而在于它足够“务实”：
不要求你写一行代码，只要会说话；
不依赖特定App，所有安卓应用都适用；
不需要Root，不越狱，不越权；
不只是Demo，而是已在真实测试、辅助办公场景中稳定运行。

它不取代你，而是把你从重复点击中解放出来，让你专注真正需要思考的事。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

手把手教你部署Open-AutoGLM，连手机都能听懂话