如何用Open-AutoGLM打造自己的AI手机助理?
你有没有想过,以后不用自己点开App、输入关键词、反复切换页面——只要说一句“帮我订明天上午十点去机场的专车”,手机就自动完成打开打车软件、填写起终点、选择车型、确认下单的全过程?这不是科幻电影,而是Open-AutoGLM正在真实实现的能力。
Open-AutoGLM不是普通的大模型,它是一个专为手机端设计的AI Agent框架。它能“看见”你的屏幕、“读懂”界面元素、“听懂”你的自然语言指令,再像真人一样点击、滑动、输入、返回——全程无需写一行自动化脚本,也不用提前录制操作流程。本文将带你从零开始,亲手部署一个真正能帮你干活的AI手机助理,不讲虚的,只讲你能立刻上手的步骤、踩过的坑、和真实跑通的效果。
1. 它到底能做什么?先看几个真正在用的例子
在动手前,先建立一个清晰认知:Open-AutoGLM不是“另一个聊天机器人”,而是一个能动手做事的数字分身。它的能力边界,由三个核心动作定义:看、想、做。
- 看:它通过ADB实时截取手机屏幕,并同步获取当前界面的UI结构(XML),知道哪个按钮在左上角、哪个输入框叫“搜索”、哪个图标代表“微信”。
- 想:它把截图+UI结构+你的语音文字(比如“查我昨天的微信转账记录”)一起喂给视觉语言模型,推理出你要什么、现在界面在哪、下一步该点哪里。
- 做:它生成一条精准的ADB指令——不是模糊的“点一下”,而是“点击坐标(320, 784)处的TextView控件”,然后自动执行。
所以,它能做的,是传统自动化工具做不到的事:
- 跨App串联任务:“打开小红书搜‘北京咖啡馆’,把前三家店名和地址复制到备忘录”——它会自动跳转App、输入、滚动、识别文字、切回备忘录粘贴。
- 理解动态界面:面对抖音不断刷新的Feed流,它能识别“点赞”按钮的位置并持续点击;面对微信聊天窗口里新弹出的红包,它能准确点击领取。
- 处理非标准控件:银行App里用Canvas画的密码键盘、游戏里自定义的虚拟摇杆——只要它能在截图里“看到”,就能规划操作路径。
- 安全兜底:遇到支付密码页、短信验证码弹窗,它不会硬闯,而是主动输出
{"action": "Take_over"},把控制权交还给你。
这不是概念演示,而是已验证的真实能力。接下来,我们就把它装进你的电脑和手机。
2. 硬件与环境准备:三步搞定基础依赖
部署Open-AutoGLM不需要服务器或显卡,一台日常使用的Windows或Mac电脑 + 一部安卓手机,就是全部硬件要求。关键在于让它们“说同一种语言”——ADB。
2.1 电脑端:装好ADB,让它认得手机
ADB(Android Debug Bridge)是连接电脑和安卓设备的“翻译官”。安装它,是整个流程的第一块基石。
Windows用户:
- 去Android开发者官网下载最新版platform-tools.zip;
- 解压到一个固定路径,例如
C:\adb; - 按
Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”的Path里新增一行,填入C:\adb; - 打开命令提示符,输入
adb version,如果显示版本号(如Android Debug Bridge version 1.0.41),说明成功。
Mac用户:
- 同样下载platform-tools.zip,解压到
~/Downloads/platform-tools; - 打开终端,运行:
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc - 输入
adb version验证。
- 同样下载platform-tools.zip,解压到
注意:不要用第三方“ADB一键安装包”。它们常捆绑广告或修改系统设置,反而导致后续连接失败。官方原版最稳。
2.2 手机端:打开“大门”,并装好“输入外挂”
手机需要主动授权电脑控制,还要解决一个关键问题:AI想输入文字时,手机得有能接收ADB指令的输入法。
开启开发者模式:
进入「设置」→「关于手机」→ 连续点击「版本号」7次,直到提示“您已处于开发者模式”。开启USB调试:
返回「设置」→「系统」→「开发者选项」→ 打开「USB调试」开关。安装ADB Keyboard(必做!):
- 下载 ADB Keyboard APK(推荐v1.3);
- 在手机上安装;
- 进入「设置」→「系统」→「语言与输入法」→「虚拟键盘」→ 将默认输入法切换为ADB Keyboard。
为什么必须换输入法?因为安卓系统默认禁止ADB直接向输入框发送文字。ADB Keyboard是专为此场景设计的“后门”,它监听ADB指令,把文本内容注入到当前焦点的输入框中。跳过这步,所有“输入”指令都会静默失败。
2.3 连接测试:确认“路”已经修通
用USB线将手机连上电脑,在电脑终端执行:
adb devices如果看到类似AERFUT4B08000806 device的输出,说明连接成功。device状态代表一切就绪。
如果显示unauthorized,请在手机上弹出的授权对话框里点“允许”;如果显示空列表,请检查USB线是否支持数据传输(很多充电线只通电不通数据)。
3. 部署Open-AutoGLM:两种方式,按需选择
Open-AutoGLM提供两种运行模式:本地MLX轻量版(适合个人尝鲜、隐私敏感场景)和远程vLLM高性能版(适合追求速度、批量测试)。我们分别说明。
3.1 方式一:Mac/Windows本地运行(MLX量化版)
适合没有GPU、重视数据不出本地的用户。核心是把9B大模型压缩到能在16GB内存的MacBook上跑起来。
3.1.1 克隆代码与安装依赖
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .3.1.2 下载并量化模型(关键!)
原始模型约20GB,量化后仅6.5GB,内存占用直降65%:
# 下载模型(需Hugging Face CLI) pip install -U "huggingface_hub[cli]" huggingface-cli download --resume-download zai-org/AutoGLM-Phone-9B --local-dir ./models/AutoGLM-Phone-9B # 执行4-bit量化(耗时15-20分钟) python -m mlx_vlm.convert --hf-path ./models/AutoGLM-Phone-9B -q --q-bits 4 --mlx-path ./models/autoglm-9b-4bit3.1.3 启动你的AI助理
# 启动交互模式(可连续发多条指令) python main.py --local --model ./models/autoglm-9b-4bit # 或直接执行单条任务 python main.py --local --model ./models/autoglm-9b-4bit "打开高德地图,导航到最近的星巴克"首次运行会自动截图、分析界面、生成动作。耐心等待10-15秒,你会看到手机屏幕真的开始自动操作。
3.2 方式二:远程GPU服务(vLLM加速版)
如果你有NVIDIA显卡(哪怕是一张RTX 3060),或者想体验“秒级响应”,推荐此方案。它把繁重的模型推理放在GPU上,本地只做轻量的ADB控制。
3.2.1 在GPU服务器上启动vLLM服务
# 安装vLLM(需CUDA环境) pip install vllm # 启动API服务(开放8000端口) python3 -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --max-model-len 25480 \ --mm-encoder-tp-mode data \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --port 80003.2.2 本地电脑调用远程服务
确保你的电脑和GPU服务器在同一局域网,或服务器有公网IP。在本地Open-AutoGLM目录下运行:
python main.py \ --device-id AERFUT4B08000806 \ --base-url http://192.168.1.100:8000/v1 \ --model autoglm-phone-9b \ "打开淘宝,搜索‘无线蓝牙耳机’,按销量排序,截图前三款商品"其中192.168.1.100替换为你的GPU服务器IP。你会发现,每一步操作间隔从15秒缩短到2-3秒,体验接近真人操作。
4. 第一次实战:用自然语言指挥手机,亲眼见证效果
现在,让我们丢掉所有技术术语,用最朴素的方式验证成果。以下是一个完整、可复现的测试流程。
4.1 准备工作
- 确保手机已连接,
adb devices显示device; - 确保已安装ADB Keyboard并设为默认;
- 确保手机解锁,主屏幕可见(不要在锁屏或黑屏状态)。
4.2 发送第一条指令
在终端执行:
python main.py --local --model ./models/autoglm-9b-4bit "打开微信,找到文件传输助手,发送一条消息:你好,我是AI助理"你将看到什么?
- 终端日志会逐行打印思考过程(
<think>标签内)和执行动作(<execute>标签内); - 手机屏幕会自动亮起 → 解锁(如果设置了密码,需手动输一次)→ 打开微信 → 滑动找到“文件传输助手” → 点击进入 → 点击输入框 → 调出ADB Keyboard → 输入文字 → 点击发送按钮。
关键观察点:
- 它如何找“文件传输助手”?不是靠预设坐标,而是分析截图中的文字和头像特征,匹配UI树里的
TextView节点。 - 输入文字为何不乱码?因为ADB Keyboard接管了输入通道,绕过了安卓的安全限制。
- 如果微信没安装?它会尝试打开应用商店搜索并安装,这是内置的容错逻辑。
4.3 进阶测试:处理复杂任务链
试试这个更难的指令:
"打开小红书,搜索‘上海周末拍照圣地’,浏览前五篇笔记,对每篇都双击点赞,最后截图保存到相册"它会:
- 启动小红书 → 点击搜索栏 → 输入关键词 → 点击搜索;
- 等待结果加载 → 截图识别第一篇笔记的“点赞”图标位置 → 点击;
- 滑动到第二篇 → 重复点赞动作(注意:它会重新截图,因为界面已变);
- ……直到第五篇;
- 最后调用ADB命令
adb shell screencap -p /sdcard/screenshot.png截图并保存。
整个过程无需人工干预,你只需看着手机自己“忙活”就行。
5. 常见问题与解决方案:少走80%的弯路
部署过程中,90%的问题都集中在连接和输入环节。以下是高频问题及根治方法:
5.1 ADB连接失败:设备不显示
- 现象:
adb devices输出空,或显示?????????? no permissions; - 根因:USB驱动未正确安装(Windows常见)或权限未授权(Linux/Mac);
- 解法:
- Windows:去手机厂商官网下载对应USB驱动(如小米用Mi PC Suite,华为用HiSuite);
- Mac/Linux:在终端执行
sudo adb kill-server && sudo adb start-server,再重新插拔USB线。
5.2 指令执行一半卡住
- 现象:AI识别出按钮,也生成了
Tap动作,但手机无反应; - 根因:界面加载未完成,AI就急着操作;
- 解法:在指令末尾加等待提示,例如:
"打开微博,等首页加载完,再点击热搜榜"—— 模型会自动插入Wait动作。
5.3 输入文字失败,屏幕无反应
- 现象:日志显示
Type动作,但手机输入框空白; - 根因:ADB Keyboard未启用,或未设为默认输入法;
- 解法:回到手机「设置」→「语言与输入法」,100%确认默认输入法是“ADB Keyboard”。
5.4 模型返回乱码或不执行
- 现象:终端输出一堆符号,或直接报错
Connection refused; - 根因:vLLM服务未启动,或
--base-url地址错误(漏了/v1); - 解法:在浏览器访问
http://服务器IP:8000/v1/models,如果返回JSON,说明服务正常;否则检查vLLM启动日志。
6. 它不只是玩具:这些真实场景,正在被它改变
Open-AutoGLM的价值,不在炫技,而在解决真实痛点:
- App功能测试工程师:过去要为每个新版本写几十个UiAutomator脚本,现在只需用自然语言描述测试用例,AI自动生成并执行,回归测试时间从天级降到小时级。
- 老年人数字助手:子女远程配置好,老人只需对着手机说“帮我查医保余额”,AI自动打开政务App、登录、查询、朗读结果。
- 跨境电商运营:每天需监控10个竞品在Shopee上的价格和库存,AI可定时自动打开App、截图、OCR识别、存入表格。
- 无障碍辅助:视障用户通过语音指令,让AI代为操作手机,完成社交、购物、出行等所有任务。
它的本质,是把“人操作手机”的经验,转化成了可复用、可扩展、可进化的AI能力。而你,只需要学会用一句话下达指令。
7. 总结:你的AI助理,今天就可以上岗
回顾整个过程,你其实只做了三件事:
- 让电脑和手机“握手”(ADB配置);
- 给手机装上“听话的嘴巴”(ADB Keyboard);
- 运行一行命令,告诉AI你想做什么。
没有复杂的模型训练,没有晦涩的参数调优,没有漫长的等待。Open-AutoGLM把前沿的多模态Agent技术,封装成了一套极简的“人话操作系统”。
它可能还不是完美的——在极端复杂的动态界面(如直播互动区)下,识别精度还有提升空间;在弱网环境下,截图上传延迟会影响响应。但它的方向无比清晰:让AI从“回答问题”,走向“解决问题”;从“生成内容”,走向“执行任务”。
你现在拥有的,不再是一个静态的模型,而是一个可以随叫随到、越用越懂你的数字伙伴。下次当你想订外卖、查快递、整理照片时,别急着动手,先对它说一句:“帮我……”
它,真的会照做。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。