Open-AutoGLM实战:一句话让AI自动操作手机
1. 这不是科幻,是今天就能用的手机AI助理
你有没有过这样的时刻:
想在小红书搜“周末咖啡馆推荐”,但手正端着咖啡杯腾不开;
想给客户发一封带截图的邮件,却卡在反复切换App、截屏、粘贴的流程里;
或者测试一个新上线的电商App,要重复点击50次“加入购物车”——手指酸了,进度才走了一半。
Open-AutoGLM 就是为这些真实场景而生的。它不是另一个聊天机器人,而是一个能真正“看见”你手机屏幕、“听懂”你自然语言指令,并“动手”完成操作的AI助理。你只需要说一句:“打开美团搜‘附近24小时营业的便利店’”,它就会自动解锁手机、启动App、输入关键词、点击搜索、滚动查看结果——全程无需你碰一下屏幕。
这不是概念演示,也不是实验室玩具。它是智谱AI开源的成熟框架,已支持微信、抖音、淘宝、Chrome、Gmail等50+主流应用,能在真机上稳定运行。本文不讲原理、不堆参数,只带你从零开始,用一台普通电脑+一部安卓手机,在30分钟内跑通第一个自动化任务。
我们不假设你懂ADB、没碰过vLLM、甚至没写过Python——所有步骤都按“第一次接触”的节奏设计,每一步都有明确反馈点,错在哪、怎么修,清清楚楚。
2. 三步到位:环境准备、设备连接、首次运行
2.1 你的装备清单(比想象中简单)
你不需要高端服务器,也不用买新设备。只需确认以下三项:
- 一台电脑:Windows 10/11、macOS 12+ 或 Ubuntu 20.04+(有USB口即可)
- 一部安卓手机:Android 7.0 及以上(2016年之后的主流机型基本都满足)
- 一根数据线:重点!必须是支持数据传输的USB线(很多充电线只能充不能传,插上后电脑无反应就是它)
验证小技巧:插上手机后,在电脑命令行输入
adb devices,如果看到一串字母数字(如abcd1234),说明线材和基础环境OK;如果返回空或报错,先别往下走,回头检查线材和USB调试设置。
2.2 两分钟搞定ADB——手机和电脑的“握手协议”
ADB是Open-AutoGLM控制手机的“神经通路”。安装它,就像给电脑装一个能和安卓对话的翻译器。
macOS用户(最省心):
打开终端,粘贴执行:
brew install android-platform-tools adb version看到输出类似Android Debug Bridge version 1.0.41,就成功了。
Windows用户(手动安装更稳):
- 去 Google官方平台工具页 下载
platform-tools-latest-windows.zip - 解压到
C:\platform-tools(路径别改) - 右键“此电脑”→属性→高级系统设置→环境变量→在“系统变量”里找到
Path→ 编辑 → 新建 → 粘贴C:\platform-tools - 重启命令提示符,输入
adb version,有版本号即成功。
Linux用户(Ubuntu为例):
sudo apt update && sudo apt install android-tools-adb android-tools-fastboot adb version注意:安装后别急着连手机。先确保
adb version能正常输出,这是后续所有操作的地基。如果卡在这步,请暂停,查文档或重装——跳过它,后面90%的问题都源于此。
2.3 手机端三开关:让AI“看得见、动得了、输得进”
手机不是插上线就能被控制的。它需要你亲手打开三个“闸门”:
开启开发者模式:
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者!”
(别数错,少一次都不行)开启USB调试:
返回设置主菜单 → 找到“开发者选项” → 开启“USB调试”
(部分华为/小米还需同时开启“USB调试(安全设置)”)装上ADB Keyboard(关键!):
这是让AI能“打字”的唯一方式。- 电脑端下载APK:
curl -O https://github.com/senzhk/ADBKeyBoard/raw/master/ADBKeyboard.apk - 安装到手机:
adb install ADBKeyboard.apk - 启用它:手机设置 → 语言和输入法 → 找到“ADB Keyboard”并启用
- 设为默认:
adb shell ime set com.android.adbkeyboard/.AdbIME
- 电脑端下载APK:
验证是否生效:
adb shell settings get secure default_input_method输出必须是com.android.adbkeyboard/.AdbIME。如果不是,重新执行上一步。
此刻,你的手机已准备好被AI接管。下一步,就是让它“动起来”。
3. 一行命令启动:你的第一个AI手机任务
3.1 最简启动法——不用部署模型,直接用云端服务
你不需要自己下载20GB模型、不需配GPU、不需调参。Open-AutoGLM 支持直连第三方模型API,开箱即用。
我们推荐使用 z.ai(注册即送API Key),它已预置autoglm-phone-9b模型,响应快、中文强、免运维。
操作流程:
- 访问 z.ai,注册账号,进入控制台获取 API Key
- 在电脑上克隆项目并安装依赖:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .- 运行第一句指令(替换
<your-api-key>和<device-id>):
python main.py \ --device-id <你的手机序列号> \ --base-url https://api.z.ai/api/paas/v4 \ --model autoglm-phone-9b \ --apikey <your-api-key> \ "打开微信,搜索联系人'张经理',发送消息'会议材料已发邮箱,请查收'"如何获取<device-id>?
插上手机,运行adb devices,输出中device前面那一长串就是(如ZY223456789)。
成功标志:终端开始滚动日志,几秒后显示
Task completed successfully,同时你的手机真的打开了微信、搜到了人、发出了消息。
❌ 失败常见原因:API Key输错(复制时多空格)、设备ID输错、手机未授权USB调试(弹窗点了“拒绝”)。逐项核对即可。
3.2 为什么这行命令能“读懂”屏幕又“动手”?
它背后是三层协同工作:
- 看:每步操作前,自动截取手机当前屏幕 → 传给视觉语言模型
- 想:模型分析截图(哪里是搜索框?哪个图标是微信?文字内容是什么?)+ 理解你的指令 → 规划动作序列(先点微信图标,再点放大镜,再输入“张经理”…)
- 做:把规划好的动作(点击坐标、输入文本、滑动方向)转成ADB命令 → 发送给手机执行
整个过程全自动,你只需下指令,剩下的交给它。
4. 实战案例:5个高频场景,照着抄就能用
别停留在“打开微信”这种基础操作。Open-AutoGLM 的价值,在于解决那些重复、繁琐、易出错的真实任务。以下是5个经过实测的场景,代码可直接复制运行(记得替换设备ID和API Key):
4.1 场景一:跨App信息搬运(省去10次手动切换)
“把Chrome中当前网页的标题和URL,复制到备忘录第一条笔记里”
python main.py \ --device-id ZY223456789 \ --base-url https://api.z.ai/api/paas/v4 \ --model autoglm-phone-9b \ --apikey sk-xxx \ "切换到Chrome浏览器,读取当前页面标题和网址,然后切换到备忘录App,新建一条笔记,将标题和网址粘贴进去"效果:AI自动识别Chrome标签页、提取网页信息、唤起备忘录、精准粘贴——全程无误触、无漏字。
4.2 场景二:电商比价(3分钟干完人工半小时的活)
“在淘宝、京东、拼多多分别搜索‘AirPods Pro 2代’,截图价格最低的那家商品页”
python main.py \ --device-id ZY223456789 \ --base-url https://api.z.ai/api/paas/v4 \ --model autoglm-phone-9b \ --apikey sk-xxx \ "依次打开淘宝、京东、拼多多,搜索'AirPods Pro 2代',记录每家显示的价格,最后截图价格最低的商品详情页"效果:AI自动完成三次App切换、三次搜索、三次价格识别、一次智能截图——比人眼扫得准,比人手点得快。
4.3 场景三:验证码场景下的“人机协作”
“登录银行App,输入手机号,等待短信验证码,收到后自动填入并提交”
Open-AutoGLM 内置安全机制:遇到验证码、支付密码等敏感操作,会主动暂停,等你人工输入,再继续后续流程。
python main.py \ --device-id ZY223456789 \ --base-url https://api.z.ai/api/paas/v4 \ --model autoglm-phone-9b \ --apikey sk-xxx \ "打开XX银行App,点击登录,输入手机号138****1234,等待短信,收到后填入验证码并登录"效果:AI完成所有非敏感操作,到验证码环节自动停住,弹出提示“请手动输入验证码”,你填完后按回车,它立刻继续——安全与效率兼得。
4.4 场景四:批量截图存档(适合运营、客服、测试)
“打开小红书,进入我的收藏,向上滑动3次,对每一页的前3篇笔记封面截图,保存到相册”
python main.py \ --device-id ZY223456789 \ --base-url https://api.z.ai/api/paas/v4 \ --model autoglm-phone-9b \ --apikey sk-xxx \ "打开小红书,进入'我的收藏',向上滑动3次,每次对屏幕上显示的前3篇笔记的封面进行截图,截图自动保存"效果:AI精准识别封面区域、控制滑动节奏、批量截图——再也不用手抖截歪、漏截。
4.5 场景五:远程协助(帮父母操作手机)
“帮我爸妈的手机(IP 192.168.1.105)打开微信视频通话,拨打我的号码139****5678”
先用WiFi连接手机:
adb connect 192.168.1.105:5555再下发指令:
python main.py \ --device-id 192.168.1.105:5555 \ --base-url https://api.z.ai/api/paas/v4 \ --model autoglm-phone-9b \ --apikey sk-xxx \ "打开微信,点击右上角+号,选择'视频通话',在联系人列表中找到'我',点击发起视频通话"效果:你在电脑前敲一行命令,远在老家的父母手机自动完成全部操作——科技的温度,就在此刻。
5. 进阶技巧:让AI更懂你、更稳、更快
5.1 提示词优化:3个让成功率翻倍的表达习惯
AI不是魔法,它依赖你“说清楚”。避免模糊指令,试试这三种写法:
❌ 不推荐:“弄一下淘宝”
推荐:“打开淘宝App,点击首页顶部搜索框,输入‘iPhone 15 128G’,点击搜索按钮”
❌ 不推荐:“找那个快递”
推荐:“打开菜鸟App,点击底部‘快递’,查找单号以‘SF’开头的最新一条物流信息”
❌ 不推荐:“发个消息”
推荐:“打开微信,找到置顶聊天‘李总监’,输入文字‘附件已更新,请查收’,点击发送”
核心原则:动词明确(打开/点击/输入/滑动)+ 目标具体(哪个App/哪个按钮/哪段文字)+ 避免指代(不说“这个”“那个”)。
5.2 故障自查表:90%的问题,3分钟内定位
| 现象 | 快速检查点 | 修复命令 |
|---|---|---|
adb devices无输出 | USB线是否支持数据?手机是否弹出“允许USB调试”? | 换线、重启ADB:adb kill-server && adb start-server |
| 连接成功但AI不动 | ADB Keyboard是否设为默认? | adb shell settings get secure default_input_method(应为com.android.adbkeyboard/.AdbIME) |
| 文字输入乱码/不显示 | Windows用户需设编码 | PowerShell中:$env:PYTHONIOENCODING="utf-8" |
| 模型响应慢/超时 | API Key是否输错?网络是否通畅? | curl测试:curl -X GET https://api.z.ai/api/paas/v4/models -H "Authorization: Bearer sk-xxx" |
| 执行到一半卡住 | 是否遇到验证码/权限弹窗? | 查看终端日志,出现“waiting for user input”即需人工介入 |
5.3 性能提速:从“能用”到“好用”的关键设置
如果你追求更低延迟、更高成功率,可以加两个参数:
--max-tokens 1500:限制AI思考长度,避免过度推理拖慢速度--temperature 0.1:降低随机性,让AI更“听话”,减少胡乱点击
完整命令示例:
python main.py \ --device-id ZY223456789 \ --base-url https://api.z.ai/api/paas/v4 \ --model autoglm-phone-9b \ --apikey sk-xxx \ --max-tokens 1500 \ --temperature 0.1 \ "打开设置,进入WLAN,关闭Wi-Fi开关"6. 总结:你的手机,从此多了一个不知疲倦的AI同事
Open-AutoGLM 不是让你放弃操作手机,而是把那些机械的、重复的、容易手滑的操作,交给一个永远在线、永不疲倦、越用越懂你的数字同事。
它已经能:
看懂你的屏幕(UI元素、文字、布局)
听懂你的指令(自然语言,不需学命令)
动手完成全流程(点击、输入、滑动、截图、切换App)
在关键节点交还控制权(验证码、支付密码)
远程、批量、并发操作多台设备
你不需要成为开发者,也能立刻受益。今天花30分钟配置,明天起,所有“点点点”的时间,都还给你自己。
下一步,你可以:
- 尝试把日常高频操作写成脚本,一键执行
- 用Python API集成到自己的工作流(比如邮件提醒后自动查物流)
- 搭建本地vLLM服务,彻底摆脱网络依赖(参考文档3.3节)
技术的价值,从来不在多炫酷,而在多实在。当AI开始帮你点手机,改变就已经发生。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。