news 2026/4/18 11:43:58

亲测Open-AutoGLM:一句话自动点外卖、搜视频太神奇

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
亲测Open-AutoGLM:一句话自动点外卖、搜视频太神奇

亲测Open-AutoGLM:一句话自动点外卖、搜视频太神奇

最近,一款名为“豆包手机”的产品火了。它最大的亮点是:你只需要说一句“帮我点杯瑞幸咖啡”,手机就能自己打开外卖App、搜索店铺、下单支付,全程无需手动操作。

听起来像科幻?其实背后的技术原理并不复杂——本质是一个能“看懂”屏幕、理解指令、并自动执行点击滑动的AI智能体(Agent)。只不过,豆包手机把它做进了系统层,实现了端到端集成。

而今天我要分享的,是一个普通人也能用上的开源方案:Open-AutoGLM。这是由智谱推出的手机端AI Agent框架,功能几乎和豆包手机一模一样,而且支持在普通安卓手机上部署!

更关键的是——不需要Root,也不需要换手机。只要有一台电脑+一部安卓机,就能让老手机秒变“智能助理”。

我亲自测试了一周,用它完成了点外卖、搜攻略、关注博主等任务,效果出乎意料地稳定。下面我就手把手带你从零搭建,并告诉你它的能力边界到底在哪。


1. Open-AutoGLM是什么?一句话讲清楚

简单来说,Open-AutoGLM是一个能让AI帮你操作手机的开源框架

你只需要对它说:

“打开小红书,搜西安一日游攻略”

它就会:

  1. 自动识别当前手机屏幕内容(比如现在是在桌面还是某个App)
  2. 理解你的自然语言指令
  3. 规划出完整操作路径:打开小红书 → 点击搜索框 → 输入关键词 → 滑动浏览结果
  4. 通过ADB命令真实模拟点击、输入、滑动等动作
  5. 完成任务后反馈结果

整个过程完全自动化,就像有个“数字分身”替你在操作手机。

而且它不只是固定脚本,而是基于视觉语言模型(VLM)实现的多模态理解,具备很强的泛化能力。比如遇到弹窗广告,它能智能判断并关闭;页面布局变了,也能自适应调整操作策略。


2. 核心技术架构解析

2.1 整体工作流程

Open-AutoGLM的工作流可以分为四个核心模块:

用户指令 → 屏幕截图 → VLM模型理解 → 动作规划 → ADB执行 → 反馈结果
  • 屏幕感知:每隔几秒截一次图,作为视觉输入
  • 意图理解:使用视觉语言模型分析图像+文本指令,理解当前界面状态
  • 动作决策:输出下一步要执行的操作(如点击坐标、输入文字)
  • 设备控制:通过ADB将操作指令发送到手机执行

所有这些都跑在一个本地控制端(你的电脑)上,真正的“大脑”是云端或本地部署的AutoGLM模型。

2.2 为什么需要电脑?

很多人问:既然AI能操作手机,为什么不直接装在手机里?

答案是:目前这个版本的模型体积较大(9B参数),普通手机算力不足以实时推理。所以必须依赖外部计算资源。

但这也带来了灵活性——你可以选择:

  • 调用智谱官方API(最简单)
  • 在自己的Linux服务器上部署vLLM/SGLang推理服务(更私密)
  • 后续轻量化模型推出后,有望直接跑在手机端

目前来看,电脑在这里扮演的是“指挥中心”角色,真正被操控的是你的安卓设备。


3. 手把手部署教程:5步让手机变智能

下面是我实测可用的完整部署流程,适用于Windows/macOS系统,安卓手机无需Root。

3.1 准备工作清单

项目要求
电脑Windows 或 macOS,Python 3.10+
手机Android 7.0以上,真机或模拟器均可
工具ADB调试工具、USB数据线(或WiFi连接)
网络能访问公网(用于调用API或部署服务)

3.2 第一步:安装ADB工具

ADB(Android Debug Bridge)是谷歌提供的命令行工具,允许电脑与安卓设备通信。

Windows 用户:
  1. 下载 Platform Tools
  2. 解压后,将文件夹路径添加到系统环境变量Path
  3. 打开CMD,输入adb version,看到版本号即成功
macOS 用户:

在终端运行:

export PATH=${PATH}:~/Downloads/platform-tools

建议写入.zshrc.bash_profile永久生效。

3.3 第二步:手机开启开发者模式

  1. 进入「设置」→「关于手机」→ 连续点击“版本号”5次
  2. 返回设置主菜单,进入「开发者选项」
  3. 开启「USB调试」
  4. (可选)开启「无线调试」以支持WiFi连接

3.4 第三步:安装ADB Keyboard输入法

这是一个特殊的输入法,支持通过ADB命令直接向手机输入文字。

  1. 下载 ADBKeyboard.apk
  2. 安装到手机
  3. 进入「语言与输入法」设置,切换默认输入法为 ADB Keyboard

这一步非常重要!否则AI无法完成文本输入任务。

3.5 第四步:克隆代码并安装依赖

在本地电脑执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

确保没有报错,尤其是torchtransformers版本兼容性问题。

3.6 第五步:连接设备并启动AI代理

方式一:USB连接(推荐新手)

用数据线连接手机和电脑,在命令行运行:

adb devices

如果能看到设备ID(如ABCDEF123),说明连接成功。

方式二:WiFi无线连接

先用USB连接,开启TCP模式:

adb tcpip 5555

断开USB,获取手机IP地址(可在WiFi设置中查看),然后连接:

adb connect 192.168.x.x:5555

再次运行adb devices验证是否在线。


4. 实际运行测试:三个真实场景演示

一切准备就绪后,就可以下达自然语言指令了。

4.1 测试案例一:点一杯最便宜的瑞幸咖啡

运行命令:

python main.py \ --device-id ABCDEF123 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_apikey_here" \ "打开美团,点一杯最便宜的瑞幸咖啡"

AI执行流程如下:

  1. 打开美团App
  2. 搜索“瑞幸咖啡”
  3. 进入距离最近的门店
  4. 找到价格最低的饮品(通常是美式)
  5. 加入购物车并跳转结算页
  6. 停止于支付前,提示人工确认

全程约2分钟,期间自动关闭了两次开屏广告。

4.2 测试案例二:搜一篇西安旅游攻略

指令:

“打开小红书,搜索‘西安一日游’,找一篇点赞过千的笔记”

AI行为:

  • 成功打开小红书
  • 点击顶部搜索栏
  • 输入“西安一日游”
  • 浏览笔记列表,筛选高赞内容
  • 最终定位到一篇点赞1.2万的热门攻略

虽然无法精确统计点赞数(OCR识别误差),但基本能选出头部内容。

4.3 测试案例三:关注指定抖音博主

指令:

“打开抖音,搜索抖音号 dycwo11nt61d 的博主并关注他”

AI操作:

  • 打开抖音
  • 点击“我”→“放大镜”进入搜索
  • 输入目标ID
  • 找到账号并点击“关注”

整个过程流畅,甚至绕过了一个“新人福利弹窗”。


5. 支持的应用范围与限制

5.1 当前已适配主流App

根据官方文档,Open-AutoGLM目前已支持以下类别应用:

分类支持应用示例
社交通讯微信、QQ、微博
电商购物淘宝、京东、拼多多
美食外卖美团、饿了么、肯德基
出行旅游携程、12306、滴滴出行
视频娱乐bilibili、抖音、爱奇艺
音乐音频网易云音乐、QQ音乐、喜马拉雅
生活服务大众点评、高德地图、百度地图
内容社区小红书、知乎、豆瓣

这些App的UI结构相对稳定,便于模型学习和泛化。

5.2 存在的局限性

尽管表现惊艳,但它仍有一些明显短板:

  • 不支持金融类App:支付宝、银行App等因安全机制限制,通常会检测ADB或模拟点击行为,导致无法登录
  • 验证码需人工接管:涉及短信验证码、人脸识别等场景,AI会主动暂停并请求人工介入
  • 复杂交互可能失败:例如长按拖动排序、手势绘制密码等非标准操作尚不支持
  • 网络延迟影响体验:若使用远程API,每步操作平均耗时3~5秒,整体效率低于手动操作

此外,某些App会对非正常操作进行风控,比如频繁点击可能触发“疑似机器人”警告。


6. 本地部署 vs 调用API:哪种更适合你?

Open-AutoGLM提供两种使用方式:

方式优点缺点适用人群
调用智谱API配置简单,开箱即用数据上传云端,隐私风险快速尝鲜用户
本地部署模型数据不出内网,安全性高需Linux服务器,部署复杂技术进阶用户

如果你关心隐私,建议自行部署。官方支持vLLM和SGLang两个推理框架,但遗憾的是,macOS M系列芯片目前不被良好支持,最佳选择仍是Linux服务器。

部署命令示例:

python -m sglang.launch_server --model-path zhipu/autoglm-phone-9b --port 8800

然后将--base-url指向本地服务即可。


7. 和豆包手机比,差在哪?

从最终效果看,Open-AutoGLM几乎复刻了豆包手机的核心功能。但两者在实现上有本质区别:

对比项Open-AutoGLM豆包手机
控制方式电脑+ADB系统级集成
图像获取截图API直接读取内存Bitmap(虚拟屏)
响应速度中等(依赖网络)更快(本地闭环)
隐私性可本地部署强依赖云端
易用性需配置环境即开即用

据B站UP主“老戴Donald”逆向分析,豆包手机通过读取系统级图形缓冲区来获取画面,避免了截图延迟和压缩损失,因此识别精度更高。

而Open-AutoGLM依赖常规截图接口,偶尔会出现模糊或帧率不足的问题。

但这并不妨碍它成为目前最接近商业化产品的开源方案。


8. 它是怎么训练出来的?

这项研究早在2023年就开始了。AutoGLM的训练方法结合了监督微调(SFT)和强化学习(RL),提出了两项创新策略:

  • 最短路径奖励调整(SPA):鼓励模型用最少步骤完成任务
  • 难度自适应正向回放(AdaPR):动态调整训练样本难度,提升泛化能力

训练数据由大量“图文+操作序列”样本构成,例如:

[图片] + “点击搜索框” [图片] + “输入‘火锅’” [图片] + “点击第一个结果”

每个操作都被映射为标准化动作集:

操作说明
Launch启动应用
Tap点击坐标
Type输入文本
Swipe滑动屏幕
Back返回
Home回桌面
Long Press长按
Double Tap双击
Wait等待加载
Take_over请求人工接管

这种设计使得模型不仅能执行预设流程,还能应对突发情况(如弹窗、加载失败)。


9. 总结:便利与代价之间的平衡

经过一周深度使用,我对Open-AutoGLM的评价是:它不是完美的自动化工具,但已经足够改变人机交互的方式

它的最大价值在于:

  • 解放双手,处理重复性操作(如每日签到、查信息)
  • 提升残障人士的数字可及性
  • 为企业提供自动化测试新思路

但也必须清醒认识到:

AI执行的是命令,而不是意图。

当我让它“点个猪肝炒饭”,它会严格执行搜索、筛选、下单流程。但人类点外卖时,常常会被首页推荐吸引,临时改变主意尝试新品。

AI走的是最短路径,而人享受的是沿途风景。

所以,Open-AutoGLM不会取代我们操作手机,而是成为一个可靠的“数字助手”。它帮你完成那些“不想做但又不得不做”的琐事,把时间和注意力留给更重要的事情。

未来,随着模型轻量化和端侧推理进步,这类Agent一定会集成进操作系统,成为每个人的标配。

而现在,我们已经可以通过这个开源项目,提前体验那个未来。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:35:42

Qwen显存不足怎么办?FP32精度下CPU优化部署案例

Qwen显存不足怎么办?FP32精度下CPU优化部署案例 1. 背景与挑战:当大模型遇上低资源环境 你有没有遇到过这种情况:想在本地服务器或开发机上跑一个AI应用,结果刚加载模型就提示“CUDA out of memory”?显存不足是许多…

作者头像 李华
网站建设 2026/4/17 15:36:24

Llama3-8B训练中断?检查点恢复实战解决方案

Llama3-8B训练中断?检查点恢复实战解决方案 1. 问题背景与核心挑战 你有没有遇到过这种情况:Llama3-8B模型训练到第5个epoch,突然断电、显存溢出或者服务器崩溃,重启后发现所有进度清零?这不仅浪费了大量算力资源&am…

作者头像 李华
网站建设 2026/4/18 8:37:01

批量处理音频文件?FSMN VAD未来功能抢先了解

批量处理音频文件?FSMN VAD未来功能抢先了解 1. FSMN VAD:不只是语音检测,更是效率革命 你有没有遇到过这种情况:手头有几十个会议录音、电话访谈或课堂音频,需要从中提取出有效的说话片段?传统方式要么靠…

作者头像 李华
网站建设 2026/4/18 8:33:45

Z-Image-Turbo输出格式控制:PNG/JPG切换与质量压缩参数详解

Z-Image-Turbo输出格式控制:PNG/JPG切换与质量压缩参数详解 Z-Image-Turbo 是一款高效的图像生成模型,其 UI 界面简洁直观,专为提升用户操作体验设计。界面左侧为参数设置区,包含图像尺寸、生成模式、输出格式选择、压缩质量调节…

作者头像 李华
网站建设 2026/4/18 5:55:11

Qwen2.5-0.5B模型切换语言?多语种支持现状分析

Qwen2.5-0.5B模型切换语言?多语种支持现状分析 1. 小体积大能量:Qwen2.5-0.5B的定位与能力 你可能已经听说过通义千问系列的大模型,但今天我们要聊的是一个“小个子”——Qwen/Qwen2.5-0.5B-Instruct。别看它只有0.5B(5亿&#…

作者头像 李华
网站建设 2026/4/18 7:25:26

YOLOv13官版镜像一键启动,无需手动安装依赖

YOLOv13官版镜像一键启动,无需手动安装依赖 你是否还在为配置 YOLO 环境而烦恼?CUDA 版本不匹配、PyTorch 安装失败、依赖库冲突……这些问题不仅浪费时间,还严重拖慢项目进度。现在,这一切都将成为过去。 YOLOv13 官版镜像正式…

作者头像 李华