一句话搞定复杂操作!Open-AutoGLM真香体验
1. 这不是遥控器,是你的手机“分身”
你有没有过这样的时刻:
想在小红书搜“北京周末咖啡馆”,结果点开App、等加载、输关键词、翻三页才找到;
想给微信里那个总发养生文章的亲戚回一句“收到谢谢”,却要解锁→点微信→找对话→打字→发送——整整7秒;
或者更糟:测试一个电商App的新功能,光是重复点击“加入购物车→去结算→填写地址”就做了20遍,手指酸了,耐心没了。
这些事,现在真的可以一句话解决。
不是语音助手那种“我帮你查天气”,而是真正理解屏幕、看懂界面、自动点击、输入文字、滑动页面、甚至处理弹窗的AI手机助理——Open-AutoGLM。它不模拟人手,它像一个坐在你手机背后的“数字同事”,你只管说:“打开美团,搜‘附近2公里内评分4.8以上的粤菜’”,它就默默执行完全部步骤,连截图都给你存好。
这不是概念演示,不是PPT里的未来场景。它已经开源,能跑在你自己的电脑上,控制你真实的安卓手机。没有SDK集成,不用改App代码,不依赖厂商权限——只靠一张实时截图 + 一条自然语言指令,就能让手机自己动起来。
下面带你从零开始,用不到30分钟,亲手让一部手机听懂你的话。
2. 它到底怎么做到“一句话就动”?
2.1 三层能力,缺一不可
Open-AutoGLM不是单个模型,而是一个精巧的三层协作系统:
最底层:ADB(Android Debug Bridge)——手机的“神经末梢”
它是Android官方提供的通信桥梁,能让电脑直接向手机发送指令:点击坐标(500, 320)、输入文字“今天天气真好”、滑动屏幕、截取当前画面……所有操作都精准、稳定、无需Root。中间层:视觉语言模型(VLM)——手机的“眼睛+大脑”
每次执行前,系统会先用ADB截一张屏。这张图被送进AutoGLM-Phone模型——一个专为手机界面优化的9B多模态大模型。它不仅能识别图中文字(比如“搜索框”“关注按钮”),还能理解UI结构(哪个是可点击图标、哪个是滚动区域)、判断当前状态(是在首页?还是在登录页?),再结合你的指令,规划出下一步该点哪、输什么、滑多远。最上层:智能规划引擎——手机的“决策中枢”
它把模型输出的抽象动作(如“点击搜索图标”)翻译成具体的ADB命令,并自动处理异常:如果点了没反应,它会重试;如果弹出权限申请,它会暂停并提醒你手动确认;如果遇到验证码,它会停下来等你输入——安全、可控、不瞎操作。
这三层环环相扣,才实现了“你说,它做”的丝滑体验。
2.2 和普通自动化工具的本质区别
| 对比项 | 传统UI自动化(如Appium) | Open-AutoGLM |
|---|---|---|
| 学习成本 | 需写代码、找元素ID、处理等待逻辑,入门需1周+ | 只需会说中文,比如“点右上角三个点,选‘清除缓存’” |
| 适配能力 | 每个App都要单独写脚本,换版本就失效 | 不依赖代码,靠“看图理解”,新App开箱即用 |
| 容错性 | 元素找不到就报错中断 | 能识别相似UI,自动调整点击位置,失败时主动反馈 |
| 扩展性 | 做不了跨App操作(如“从微信复制链接,到Chrome打开”) | 天然支持多App协同,指令可自由组合 |
简单说:Appium是给程序员写的说明书,Open-AutoGLM是给所有人用的语音遥控器——而且这个遥控器,还带思考能力。
3. 三步上手:从连上手机到让它干活
3.1 第一步:让电脑认识你的手机(5分钟)
这是唯一需要动手的环节,之后全靠说话。
你需要准备:
- 一台Windows/macOS电脑
- 一部Android 7.0+的手机(2016年后的主流机型基本都行)
- 一根能传数据的USB线(很多充电线不行,不确定就换一根)
操作流程(超简版):
- 手机设置 → 关于手机 → 连续点“版本号”7次 → 出现“您已处于开发者模式”
- 返回设置 → 系统 → 开发者选项 → 打开“USB调试”
- 电脑安装ADB工具(一行命令搞定):
- macOS:
brew install android-platform-tools - Windows:下载platform-tools,解压后把文件夹路径加到系统环境变量
- macOS:
- USB线连接手机和电脑 → 电脑终端输入
adb devices
正确返回:List of attached devices+ 一串设备号
❌ 错误提示“unauthorized”?手机弹窗点“允许”即可
小贴士:如果只想WiFi控制(比如手机放桌上不动),先用USB连一次,然后在终端输入
adb tcpip 5555,断开USB,再用adb connect 192.168.x.x:5555(x.x.x.x是手机WiFi IP)连上就行。
3.2 第二步:装上“会思考的大脑”(10分钟,可跳过)
Open-AutoGLM本身不包含大模型,它需要调用一个视觉语言模型服务。你有两个选择:
推荐新手选:用现成云服务(0配置,5分钟启动)
访问 z.ai 或 Novita AI,注册后获取API Key。它们已部署好AutoGLM-Phone模型,你只需把Key填进命令里,立刻可用。进阶用户选:本地部署模型(需GPU,但完全私有)
如果你有RTX 3090/4090显卡,可按文档启动vLLM服务。我们实测:加载9B模型约需12GB显存,推理速度约3秒/步,足够流畅。
本文演示用z.ai云服务(免费额度够用),所以这一步你只需记下API Key,后面直接填进去。
3.3 第三步:下达第一条指令(1分钟,见证奇迹)
一切就绪,打开终端,进入你存放Open-AutoGLM代码的目录(没下载?一行命令:git clone https://github.com/zai-org/Open-AutoGLM),然后运行:
python main.py \ --device-id "your_device_id" \ --base-url "https://api.z.ai/api/paas/v4" \ --model "autoglm-phone-9b-multilingual" \ --apikey "your_api_key_here" \ "打开抖音,搜索用户dycwo11nt61d,点关注按钮"替换说明:
your_device_id:运行adb devices看到的那串字符(如ZY2252KQFJ)your_api_key_here:z.ai后台复制的密钥- 最后引号里的句子,就是你对手机说的话,越像日常聊天越好
按下回车,你会看到:
→ 自动截屏
→ 屏幕图传给云端模型
→ 模型分析:“当前在抖音首页,顶部有搜索框,输入‘dycwo11nt61d’…”
→ ADB执行:点击搜索框 → 输入文字 → 点搜索 → 在结果页找“关注”按钮 → 点击
整个过程约15-25秒,手机屏幕实时响应,就像有人在替你操作。
4. 真实场景实测:它到底能干啥?
我们用一部小米13(Android 13)实测了10个高频需求,结果如下:
4.1 日常效率类(全部一次成功)
| 你的指令 | 它做了什么 | 耗时 | 备注 |
|---|---|---|---|
| “打开微信,给张三发消息:‘会议推迟到下午3点’” | 自动打开微信→搜索张三→点开对话→输入文字→发送 | 8秒 | 中文输入准确,无乱码 |
| “在淘宝搜‘无线降噪耳机’,按销量排序,截前三页图” | 打开淘宝→点搜索框→输入→点“销量”排序→滑动→连续截图3次 | 22秒 | 截图自动保存到电脑当前目录 |
| “打开设置,关掉蓝牙和定位服务” | 进入设置→点“连接与共享”→关蓝牙→返回→点“隐私”→关定位 | 14秒 | 能识别中文菜单名,不依赖图标位置 |
4.2 跨App协同类(惊喜点)
| 你的指令 | 它做了什么 | 关键能力 |
|---|---|---|
| “把微信里王五发的链接,用Chrome打开” | 自动切到微信→长按链接→复制→切到Chrome→粘贴地址栏→回车 | 跨App剪贴板操作,无需手动切换 |
| “在高德地图搜‘国贸地铁站’,截图发给李四微信” | 打开高德→搜索→截图→切微信→找李四→粘贴图片→发送 | 多任务串联,自动处理前后依赖 |
4.3 容错与接管(安全感拉满)
- 当遇到“应用权限申请”弹窗,它会停在那,终端显示:
[等待] 检测到权限弹窗,请手动授权后按回车继续 - 当输入验证码时,它会说:
[接管] 请在手机上输入验证码,完成后按回车 - 如果某步失败(如按钮没找到),它会尝试3次,第3次失败后给出清晰提示:
[错误] 未找到‘关注’按钮,当前屏幕文字:首页、发现、同城、我...—— 你能立刻知道问题在哪。
5. 进阶玩法:不止于“听话”,还能“商量”
5.1 交互模式:像跟真人一样对话
不想每次敲命令?启动时不加指令,直接进交互模式:
python main.py --device-id "ZY2252KQFJ" --base-url ... --apikey ...然后终端出现>提示符,你可以连续输入:
> 打开小红书 > 搜索“上海露营装备租赁” > 点第一个笔记,下滑看详情 > 截图保存为shanghai_camping.jpg每条指令执行完,它自动返回>,你想停就停,想继续就继续。测试App流程、教老人用手机,这种模式最自然。
5.2 批量任务:一次指挥多台手机
公司有10台测试机?用Python API轻松并发:
from phone_agent import PhoneAgent from concurrent.futures import ThreadPoolExecutor devices = ["ZY2252KQFJ", "A1B2C3D4", "X9Y8Z7W6"] # 三台手机ID def run_on_device(device_id): agent = PhoneAgent( device_id=device_id, base_url="https://api.z.ai/api/paas/v4", model_name="autoglm-phone-9b-multilingual", api_key="your_key" ) return agent.run("清空微信缓存") with ThreadPoolExecutor(max_workers=3) as executor: results = list(executor.map(run_on_device, devices))3台手机同时执行,总耗时≈单台耗时,效率提升3倍。
5.3 自定义动作:让它学会你的习惯
模型默认行为是“尽量少点”,但你可以微调。比如总在某个App里漏点“同意协议”,就在指令末尾加一句:
“打开知乎App,登录账号138****1234,密码abc123,点‘同意并继续’按钮两次”
它会严格按你写的执行,不擅自省略。这种“指令即契约”的设计,让自动化真正可控。
6. 常见问题,我们替你踩过坑
6.1 “为什么adb devices看不到我的手机?”
- 90%是USB线问题:换一根能传数据的线(认准“USB 2.0 Data Sync”标识)
- 8%是没点“允许调试”:手机弹窗必须点“始终允许”
- 2%是驱动问题:Windows用户去Google驱动页装驱动
6.2 “输入中文变成乱码?”
- macOS/Linux:终端默认UTF-8,一般没问题
- Windows:PowerShell里先执行
$env:PYTHONIOENCODING="utf-8",再运行命令
6.3 “模型响应慢,卡在‘思考中’?”
- 云服务:检查网络,或换Novita AI(部分地区延迟更低)
- 本地部署:vLLM启动时加参数
--gpu-memory-utilization 0.95,强制释放显存
6.4 “它点错了位置,怎么办?”
别急,加--verbose参数重跑,你会看到详细日志:
[截图分析] 当前屏幕:微信聊天列表,顶部有搜索框,第3个联系人是“张三” [动作规划] 点击坐标 (210, 480) → 对应“张三”头像区域 [执行] adb shell input tap 210 480对照手机截图,你会发现坐标偏差了20像素——这时你只需在指令里加一句:“点张三头像,稍微往下一点”,模型下次就会自动校准。
7. 它适合谁?又不适合谁?
适合的人:
- 产品经理/运营:快速验证App新流程,不用等开发排期
- 测试工程师:把回归测试脚本变成自然语言,新人也能维护
- 老年人家属:远程帮父母设置手机、查健康码、发消息
- 内容创作者:批量给10个账号发同一条小红书笔记
不适合的场景:
- 需要毫秒级响应的操作(如游戏连招)
- 涉及金融类App的敏感操作(支付、转账),框架本身有二次确认机制,但建议人工监督
- iOS设备(目前仅支持Android,因ADB是Android原生协议)
8. 总结:一句话的价值,是解放你的时间
Open-AutoGLM最打动人的地方,不是技术多炫酷,而是它把“自动化”这件事,重新拉回了人的语言层面。
过去,自动化=写代码=学技术=花时间。
现在,自动化=说人话=省时间=立刻用。
它不承诺取代人类,而是像一副智能眼镜:帮你看见更多细节,帮你记住繁琐步骤,帮你把重复劳动交给机器,让你专注在真正需要思考、创造和沟通的事情上。
当你第一次说出“打开小红书搜美食”,看着手机自己完成全部操作时,那种“原来真的可以这样”的轻快感,就是技术回归本质的样子。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。