如何用Open-AutoGLM打造自己的AI手机助理？-程序员充电站

如何用Open-AutoGLM打造自己的AI手机助理？

你有没有想过，以后不用自己点开App、输入关键词、反复切换页面——只要说一句“帮我订明天上午十点去机场的专车”，手机就自动完成打开打车软件、填写起终点、选择车型、确认下单的全过程？这不是科幻电影，而是Open-AutoGLM正在真实实现的能力。

Open-AutoGLM不是普通的大模型，它是一个专为手机端设计的AI Agent框架。它能“看见”你的屏幕、“读懂”界面元素、“听懂”你的自然语言指令，再像真人一样点击、滑动、输入、返回——全程无需写一行自动化脚本，也不用提前录制操作流程。本文将带你从零开始，亲手部署一个真正能帮你干活的AI手机助理，不讲虚的，只讲你能立刻上手的步骤、踩过的坑、和真实跑通的效果。

1. 它到底能做什么？先看几个真正在用的例子

在动手前，先建立一个清晰认知：Open-AutoGLM不是“另一个聊天机器人”，而是一个能动手做事的数字分身。它的能力边界，由三个核心动作定义：看、想、做。

看：它通过ADB实时截取手机屏幕，并同步获取当前界面的UI结构（XML），知道哪个按钮在左上角、哪个输入框叫“搜索”、哪个图标代表“微信”。
想：它把截图+UI结构+你的语音文字（比如“查我昨天的微信转账记录”）一起喂给视觉语言模型，推理出你要什么、现在界面在哪、下一步该点哪里。
做：它生成一条精准的ADB指令——不是模糊的“点一下”，而是“点击坐标(320, 784)处的TextView控件”，然后自动执行。

所以，它能做的，是传统自动化工具做不到的事：

跨App串联任务：“打开小红书搜‘北京咖啡馆’，把前三家店名和地址复制到备忘录”——它会自动跳转App、输入、滚动、识别文字、切回备忘录粘贴。
理解动态界面：面对抖音不断刷新的Feed流，它能识别“点赞”按钮的位置并持续点击；面对微信聊天窗口里新弹出的红包，它能准确点击领取。
处理非标准控件：银行App里用Canvas画的密码键盘、游戏里自定义的虚拟摇杆——只要它能在截图里“看到”，就能规划操作路径。
安全兜底：遇到支付密码页、短信验证码弹窗，它不会硬闯，而是主动输出{"action": "Take_over"}，把控制权交还给你。

这不是概念演示，而是已验证的真实能力。接下来，我们就把它装进你的电脑和手机。

2. 硬件与环境准备：三步搞定基础依赖

部署Open-AutoGLM不需要服务器或显卡，一台日常使用的Windows或Mac电脑 + 一部安卓手机，就是全部硬件要求。关键在于让它们“说同一种语言”——ADB。

2.1 电脑端：装好ADB，让它认得手机

ADB（Android Debug Bridge）是连接电脑和安卓设备的“翻译官”。安装它，是整个流程的第一块基石。

Windows用户：
1. 去Android开发者官网下载最新版platform-tools.zip；
2. 解压到一个固定路径，例如C:\adb；
3. 按Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”的Path里新增一行，填入C:\adb；
4. 打开命令提示符，输入adb version，如果显示版本号（如Android Debug Bridge version 1.0.41），说明成功。
Mac用户：
1. 同样下载platform-tools.zip，解压到~/Downloads/platform-tools；
2. 打开终端，运行：
```
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc
```
3. 输入adb version验证。

注意：不要用第三方“ADB一键安装包”。它们常捆绑广告或修改系统设置，反而导致后续连接失败。官方原版最稳。

2.2 手机端：打开“大门”，并装好“输入外挂”

手机需要主动授权电脑控制，还要解决一个关键问题：AI想输入文字时，手机得有能接收ADB指令的输入法。

开启开发者模式：
进入「设置」→「关于手机」→ 连续点击「版本号」7次，直到提示“您已处于开发者模式”。
开启USB调试：
返回「设置」→「系统」→「开发者选项」→ 打开「USB调试」开关。
安装ADB Keyboard（必做！）：
- 下载 ADB Keyboard APK（推荐v1.3）；
- 在手机上安装；
- 进入「设置」→「系统」→「语言与输入法」→「虚拟键盘」→ 将默认输入法切换为ADB Keyboard。

为什么必须换输入法？因为安卓系统默认禁止ADB直接向输入框发送文字。ADB Keyboard是专为此场景设计的“后门”，它监听ADB指令，把文本内容注入到当前焦点的输入框中。跳过这步，所有“输入”指令都会静默失败。

2.3 连接测试：确认“路”已经修通

用USB线将手机连上电脑，在电脑终端执行：

adb devices

如果看到类似AERFUT4B08000806 device的输出，说明连接成功。device状态代表一切就绪。

如果显示unauthorized，请在手机上弹出的授权对话框里点“允许”；如果显示空列表，请检查USB线是否支持数据传输（很多充电线只通电不通数据）。

3. 部署Open-AutoGLM：两种方式，按需选择

Open-AutoGLM提供两种运行模式：本地MLX轻量版（适合个人尝鲜、隐私敏感场景）和远程vLLM高性能版（适合追求速度、批量测试）。我们分别说明。

3.1 方式一：Mac/Windows本地运行（MLX量化版）

适合没有GPU、重视数据不出本地的用户。核心是把9B大模型压缩到能在16GB内存的MacBook上跑起来。

3.1.1 克隆代码与安装依赖

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

3.1.2 下载并量化模型（关键！）

原始模型约20GB，量化后仅6.5GB，内存占用直降65%：

# 下载模型（需Hugging Face CLI） pip install -U "huggingface_hub[cli]" huggingface-cli download --resume-download zai-org/AutoGLM-Phone-9B --local-dir ./models/AutoGLM-Phone-9B # 执行4-bit量化（耗时15-20分钟） python -m mlx_vlm.convert --hf-path ./models/AutoGLM-Phone-9B -q --q-bits 4 --mlx-path ./models/autoglm-9b-4bit

3.1.3 启动你的AI助理

# 启动交互模式（可连续发多条指令） python main.py --local --model ./models/autoglm-9b-4bit # 或直接执行单条任务 python main.py --local --model ./models/autoglm-9b-4bit "打开高德地图，导航到最近的星巴克"

首次运行会自动截图、分析界面、生成动作。耐心等待10-15秒，你会看到手机屏幕真的开始自动操作。

3.2 方式二：远程GPU服务（vLLM加速版）

如果你有NVIDIA显卡（哪怕是一张RTX 3060），或者想体验“秒级响应”，推荐此方案。它把繁重的模型推理放在GPU上，本地只做轻量的ADB控制。

3.2.1 在GPU服务器上启动vLLM服务

# 安装vLLM（需CUDA环境） pip install vllm # 启动API服务（开放8000端口） python3 -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --max-model-len 25480 \ --mm-encoder-tp-mode data \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --port 8000

3.2.2 本地电脑调用远程服务

确保你的电脑和GPU服务器在同一局域网，或服务器有公网IP。在本地Open-AutoGLM目录下运行：

python main.py \ --device-id AERFUT4B08000806 \ --base-url http://192.168.1.100:8000/v1 \ --model autoglm-phone-9b \ "打开淘宝，搜索‘无线蓝牙耳机’，按销量排序，截图前三款商品"

其中192.168.1.100替换为你的GPU服务器IP。你会发现，每一步操作间隔从15秒缩短到2-3秒，体验接近真人操作。

4. 第一次实战：用自然语言指挥手机，亲眼见证效果

现在，让我们丢掉所有技术术语，用最朴素的方式验证成果。以下是一个完整、可复现的测试流程。

4.1 准备工作

确保手机已连接，adb devices显示device；
确保已安装ADB Keyboard并设为默认；
确保手机解锁，主屏幕可见（不要在锁屏或黑屏状态）。

4.2 发送第一条指令

在终端执行：

python main.py --local --model ./models/autoglm-9b-4bit "打开微信，找到文件传输助手，发送一条消息：你好，我是AI助理"

你将看到什么？

终端日志会逐行打印思考过程（<think>标签内）和执行动作（<execute>标签内）；
手机屏幕会自动亮起 → 解锁（如果设置了密码，需手动输一次）→ 打开微信 → 滑动找到“文件传输助手” → 点击进入 → 点击输入框 → 调出ADB Keyboard → 输入文字 → 点击发送按钮。

关键观察点：

它如何找“文件传输助手”？不是靠预设坐标，而是分析截图中的文字和头像特征，匹配UI树里的TextView节点。
输入文字为何不乱码？因为ADB Keyboard接管了输入通道，绕过了安卓的安全限制。
如果微信没安装？它会尝试打开应用商店搜索并安装，这是内置的容错逻辑。

4.3 进阶测试：处理复杂任务链

试试这个更难的指令：

"打开小红书，搜索‘上海周末拍照圣地’，浏览前五篇笔记，对每篇都双击点赞，最后截图保存到相册"

它会：

启动小红书 → 点击搜索栏 → 输入关键词 → 点击搜索；
等待结果加载 → 截图识别第一篇笔记的“点赞”图标位置 → 点击；
滑动到第二篇 → 重复点赞动作（注意：它会重新截图，因为界面已变）；
……直到第五篇；
最后调用ADB命令adb shell screencap -p /sdcard/screenshot.png截图并保存。

整个过程无需人工干预，你只需看着手机自己“忙活”就行。

5. 常见问题与解决方案：少走80%的弯路

部署过程中，90%的问题都集中在连接和输入环节。以下是高频问题及根治方法：

5.1 ADB连接失败：设备不显示

现象：adb devices输出空，或显示?????????? no permissions；
根因：USB驱动未正确安装（Windows常见）或权限未授权（Linux/Mac）；
解法：
- Windows：去手机厂商官网下载对应USB驱动（如小米用Mi PC Suite，华为用HiSuite）；
- Mac/Linux：在终端执行sudo adb kill-server && sudo adb start-server，再重新插拔USB线。

5.2 指令执行一半卡住

现象：AI识别出按钮，也生成了Tap动作，但手机无反应；
根因：界面加载未完成，AI就急着操作；
解法：在指令末尾加等待提示，例如："打开微博，等首页加载完，再点击热搜榜"—— 模型会自动插入Wait动作。

5.3 输入文字失败，屏幕无反应

现象：日志显示Type动作，但手机输入框空白；
根因：ADB Keyboard未启用，或未设为默认输入法；
解法：回到手机「设置」→「语言与输入法」，100%确认默认输入法是“ADB Keyboard”。

5.4 模型返回乱码或不执行

现象：终端输出一堆符号，或直接报错Connection refused；
根因：vLLM服务未启动，或--base-url地址错误（漏了/v1）；
解法：在浏览器访问http://服务器IP:8000/v1/models，如果返回JSON，说明服务正常；否则检查vLLM启动日志。

6. 它不只是玩具：这些真实场景，正在被它改变

Open-AutoGLM的价值，不在炫技，而在解决真实痛点：

App功能测试工程师：过去要为每个新版本写几十个UiAutomator脚本，现在只需用自然语言描述测试用例，AI自动生成并执行，回归测试时间从天级降到小时级。
老年人数字助手：子女远程配置好，老人只需对着手机说“帮我查医保余额”，AI自动打开政务App、登录、查询、朗读结果。
跨境电商运营：每天需监控10个竞品在Shopee上的价格和库存，AI可定时自动打开App、截图、OCR识别、存入表格。
无障碍辅助：视障用户通过语音指令，让AI代为操作手机，完成社交、购物、出行等所有任务。

它的本质，是把“人操作手机”的经验，转化成了可复用、可扩展、可进化的AI能力。而你，只需要学会用一句话下达指令。

7. 总结：你的AI助理，今天就可以上岗

回顾整个过程，你其实只做了三件事：

让电脑和手机“握手”（ADB配置）；
给手机装上“听话的嘴巴”（ADB Keyboard）；
运行一行命令，告诉AI你想做什么。

没有复杂的模型训练，没有晦涩的参数调优，没有漫长的等待。Open-AutoGLM把前沿的多模态Agent技术，封装成了一套极简的“人话操作系统”。

它可能还不是完美的——在极端复杂的动态界面（如直播互动区）下，识别精度还有提升空间；在弱网环境下，截图上传延迟会影响响应。但它的方向无比清晰：让AI从“回答问题”，走向“解决问题”；从“生成内容”，走向“执行任务”。

你现在拥有的，不再是一个静态的模型，而是一个可以随叫随到、越用越懂你的数字伙伴。下次当你想订外卖、查快递、整理照片时，别急着动手，先对它说一句：“帮我……”

它，真的会照做。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

如何用Open-AutoGLM打造自己的AI手机助理？