亲测Open-AutoGLM：一句话自动点外卖、搜视频太神奇-程序员充电站

亲测Open-AutoGLM：一句话自动点外卖、搜视频太神奇

最近，一款名为“豆包手机”的产品火了。它最大的亮点是：你只需要说一句“帮我点杯瑞幸咖啡”，手机就能自己打开外卖App、搜索店铺、下单支付，全程无需手动操作。

听起来像科幻？其实背后的技术原理并不复杂——本质是一个能“看懂”屏幕、理解指令、并自动执行点击滑动的AI智能体（Agent）。只不过，豆包手机把它做进了系统层，实现了端到端集成。

而今天我要分享的，是一个普通人也能用上的开源方案：Open-AutoGLM。这是由智谱推出的手机端AI Agent框架，功能几乎和豆包手机一模一样，而且支持在普通安卓手机上部署！

更关键的是——不需要Root，也不需要换手机。只要有一台电脑+一部安卓机，就能让老手机秒变“智能助理”。

我亲自测试了一周，用它完成了点外卖、搜攻略、关注博主等任务，效果出乎意料地稳定。下面我就手把手带你从零搭建，并告诉你它的能力边界到底在哪。

1. Open-AutoGLM是什么？一句话讲清楚

简单来说，Open-AutoGLM是一个能让AI帮你操作手机的开源框架。

你只需要对它说：

“打开小红书，搜西安一日游攻略”

它就会：

自动识别当前手机屏幕内容（比如现在是在桌面还是某个App）
理解你的自然语言指令
规划出完整操作路径：打开小红书 → 点击搜索框 → 输入关键词 → 滑动浏览结果
通过ADB命令真实模拟点击、输入、滑动等动作
完成任务后反馈结果

整个过程完全自动化，就像有个“数字分身”替你在操作手机。

而且它不只是固定脚本，而是基于视觉语言模型（VLM）实现的多模态理解，具备很强的泛化能力。比如遇到弹窗广告，它能智能判断并关闭；页面布局变了，也能自适应调整操作策略。

2. 核心技术架构解析

2.1 整体工作流程

Open-AutoGLM的工作流可以分为四个核心模块：

用户指令 → 屏幕截图 → VLM模型理解 → 动作规划 → ADB执行 → 反馈结果

屏幕感知：每隔几秒截一次图，作为视觉输入
意图理解：使用视觉语言模型分析图像+文本指令，理解当前界面状态
动作决策：输出下一步要执行的操作（如点击坐标、输入文字）
设备控制：通过ADB将操作指令发送到手机执行

所有这些都跑在一个本地控制端（你的电脑）上，真正的“大脑”是云端或本地部署的AutoGLM模型。

2.2 为什么需要电脑？

很多人问：既然AI能操作手机，为什么不直接装在手机里？

答案是：目前这个版本的模型体积较大（9B参数），普通手机算力不足以实时推理。所以必须依赖外部计算资源。

但这也带来了灵活性——你可以选择：

调用智谱官方API（最简单）
在自己的Linux服务器上部署vLLM/SGLang推理服务（更私密）
后续轻量化模型推出后，有望直接跑在手机端

目前来看，电脑在这里扮演的是“指挥中心”角色，真正被操控的是你的安卓设备。

3. 手把手部署教程：5步让手机变智能

下面是我实测可用的完整部署流程，适用于Windows/macOS系统，安卓手机无需Root。

3.1 准备工作清单

项目	要求
电脑	Windows 或 macOS，Python 3.10+
手机	Android 7.0以上，真机或模拟器均可
工具	ADB调试工具、USB数据线（或WiFi连接）
网络	能访问公网（用于调用API或部署服务）

3.2 第一步：安装ADB工具

ADB（Android Debug Bridge）是谷歌提供的命令行工具，允许电脑与安卓设备通信。

Windows 用户：

下载 Platform Tools
解压后，将文件夹路径添加到系统环境变量Path
打开CMD，输入adb version，看到版本号即成功

macOS 用户：

在终端运行：

export PATH=${PATH}:~/Downloads/platform-tools

建议写入.zshrc或.bash_profile永久生效。

3.3 第二步：手机开启开发者模式

进入「设置」→「关于手机」→ 连续点击“版本号”5次
返回设置主菜单，进入「开发者选项」
开启「USB调试」
（可选）开启「无线调试」以支持WiFi连接

3.4 第三步：安装ADB Keyboard输入法

这是一个特殊的输入法，支持通过ADB命令直接向手机输入文字。

下载 ADBKeyboard.apk
安装到手机
进入「语言与输入法」设置，切换默认输入法为 ADB Keyboard

这一步非常重要！否则AI无法完成文本输入任务。

3.5 第四步：克隆代码并安装依赖

在本地电脑执行：

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

确保没有报错，尤其是torch和transformers版本兼容性问题。

3.6 第五步：连接设备并启动AI代理

方式一：USB连接（推荐新手）

用数据线连接手机和电脑，在命令行运行：

adb devices

如果能看到设备ID（如ABCDEF123），说明连接成功。

方式二：WiFi无线连接

先用USB连接，开启TCP模式：

adb tcpip 5555

断开USB，获取手机IP地址（可在WiFi设置中查看），然后连接：

adb connect 192.168.x.x:5555

再次运行adb devices验证是否在线。

4. 实际运行测试：三个真实场景演示

一切准备就绪后，就可以下达自然语言指令了。

4.1 测试案例一：点一杯最便宜的瑞幸咖啡

运行命令：

python main.py \ --device-id ABCDEF123 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_apikey_here" \ "打开美团，点一杯最便宜的瑞幸咖啡"

AI执行流程如下：

打开美团App
搜索“瑞幸咖啡”
进入距离最近的门店
找到价格最低的饮品（通常是美式）
加入购物车并跳转结算页
停止于支付前，提示人工确认

全程约2分钟，期间自动关闭了两次开屏广告。

4.2 测试案例二：搜一篇西安旅游攻略

指令：

“打开小红书，搜索‘西安一日游’，找一篇点赞过千的笔记”

AI行为：

成功打开小红书
点击顶部搜索栏
输入“西安一日游”
浏览笔记列表，筛选高赞内容
最终定位到一篇点赞1.2万的热门攻略

虽然无法精确统计点赞数（OCR识别误差），但基本能选出头部内容。

4.3 测试案例三：关注指定抖音博主

指令：

“打开抖音，搜索抖音号 dycwo11nt61d 的博主并关注他”

AI操作：

打开抖音
点击“我”→“放大镜”进入搜索
输入目标ID
找到账号并点击“关注”

整个过程流畅，甚至绕过了一个“新人福利弹窗”。

5. 支持的应用范围与限制

5.1 当前已适配主流App

根据官方文档，Open-AutoGLM目前已支持以下类别应用：

分类	支持应用示例
社交通讯	微信、QQ、微博
电商购物	淘宝、京东、拼多多
美食外卖	美团、饿了么、肯德基
出行旅游	携程、12306、滴滴出行
视频娱乐	bilibili、抖音、爱奇艺
音乐音频	网易云音乐、QQ音乐、喜马拉雅
生活服务	大众点评、高德地图、百度地图
内容社区	小红书、知乎、豆瓣

这些App的UI结构相对稳定，便于模型学习和泛化。

5.2 存在的局限性

尽管表现惊艳，但它仍有一些明显短板：

不支持金融类App：支付宝、银行App等因安全机制限制，通常会检测ADB或模拟点击行为，导致无法登录
验证码需人工接管：涉及短信验证码、人脸识别等场景，AI会主动暂停并请求人工介入
复杂交互可能失败：例如长按拖动排序、手势绘制密码等非标准操作尚不支持
网络延迟影响体验：若使用远程API，每步操作平均耗时3~5秒，整体效率低于手动操作

此外，某些App会对非正常操作进行风控，比如频繁点击可能触发“疑似机器人”警告。

6. 本地部署 vs 调用API：哪种更适合你？

Open-AutoGLM提供两种使用方式：

方式	优点	缺点	适用人群
调用智谱API	配置简单，开箱即用	数据上传云端，隐私风险	快速尝鲜用户
本地部署模型	数据不出内网，安全性高	需Linux服务器，部署复杂	技术进阶用户

如果你关心隐私，建议自行部署。官方支持vLLM和SGLang两个推理框架，但遗憾的是，macOS M系列芯片目前不被良好支持，最佳选择仍是Linux服务器。

部署命令示例：

python -m sglang.launch_server --model-path zhipu/autoglm-phone-9b --port 8800

然后将--base-url指向本地服务即可。

7. 和豆包手机比，差在哪？

从最终效果看，Open-AutoGLM几乎复刻了豆包手机的核心功能。但两者在实现上有本质区别：

对比项	Open-AutoGLM	豆包手机
控制方式	电脑+ADB	系统级集成
图像获取	截图API	直接读取内存Bitmap（虚拟屏）
响应速度	中等（依赖网络）	更快（本地闭环）
隐私性	可本地部署	强依赖云端
易用性	需配置环境	即开即用

据B站UP主“老戴Donald”逆向分析，豆包手机通过读取系统级图形缓冲区来获取画面，避免了截图延迟和压缩损失，因此识别精度更高。

而Open-AutoGLM依赖常规截图接口，偶尔会出现模糊或帧率不足的问题。

但这并不妨碍它成为目前最接近商业化产品的开源方案。

8. 它是怎么训练出来的？

这项研究早在2023年就开始了。AutoGLM的训练方法结合了监督微调（SFT）和强化学习（RL），提出了两项创新策略：

最短路径奖励调整（SPA）：鼓励模型用最少步骤完成任务
难度自适应正向回放（AdaPR）：动态调整训练样本难度，提升泛化能力

训练数据由大量“图文+操作序列”样本构成，例如：

[图片] + “点击搜索框” [图片] + “输入‘火锅’” [图片] + “点击第一个结果”

每个操作都被映射为标准化动作集：

操作	说明
`Launch`	启动应用
`Tap`	点击坐标
`Type`	输入文本
`Swipe`	滑动屏幕
`Back`	返回
`Home`	回桌面
`Long Press`	长按
`Double Tap`	双击
`Wait`	等待加载
`Take_over`	请求人工接管

这种设计使得模型不仅能执行预设流程，还能应对突发情况（如弹窗、加载失败）。

9. 总结：便利与代价之间的平衡

经过一周深度使用，我对Open-AutoGLM的评价是：它不是完美的自动化工具，但已经足够改变人机交互的方式。

它的最大价值在于：

解放双手，处理重复性操作（如每日签到、查信息）
提升残障人士的数字可及性
为企业提供自动化测试新思路

但也必须清醒认识到：

AI执行的是命令，而不是意图。

当我让它“点个猪肝炒饭”，它会严格执行搜索、筛选、下单流程。但人类点外卖时，常常会被首页推荐吸引，临时改变主意尝试新品。

AI走的是最短路径，而人享受的是沿途风景。

所以，Open-AutoGLM不会取代我们操作手机，而是成为一个可靠的“数字助手”。它帮你完成那些“不想做但又不得不做”的琐事，把时间和注意力留给更重要的事情。

未来，随着模型轻量化和端侧推理进步，这类Agent一定会集成进操作系统，成为每个人的标配。

而现在，我们已经可以通过这个开源项目，提前体验那个未来。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

亲测Open-AutoGLM：一句话自动点外卖、搜视频太神奇