news 2026/4/17 19:49:43

告别手动点击!用Open-AutoGLM实现手机全自动操作

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别手动点击!用Open-AutoGLM实现手机全自动操作

告别手动点击!用Open-AutoGLM实现手机全自动操作

你有没有过这样的时刻:
想查个快递,却要解锁手机、点开淘宝、翻到订单页、再找物流信息;
想订一杯咖啡,得打开美团、搜索店铺、比价、选规格、填地址、确认支付……整个过程手指划了七八次,眼睛盯了半分钟。
更别说那些重复性操作——每天固定时间刷小红书、每周五晚自动整理微信收藏、帮长辈远程设置健康码……这些事,本不该消耗你的时间和注意力。

Open-AutoGLM 改变了这一切。它不是又一个语音助手,也不是一段固定脚本,而是一个真正“看得见、想得清、动得了”的手机AI代理。你只需说一句自然语言指令,比如“帮我把微信里昨天收到的那张发票截图发到钉钉财务群”,它就能理解当前界面、定位控件、截图识别、切换App、粘贴发送——全程无需你碰一下屏幕。

本文将带你从零开始,用一台普通电脑 + 一部安卓手机,不依赖高端显卡,不折腾复杂部署,快速上手这个由智谱开源、已在真实场景中稳定运行的Phone Agent框架。你会看到:它如何把“语言”变成“动作”,把“想法”落地为“结果”。

1. 它到底是什么?不是自动化脚本,而是会思考的手机助手

1.1 和传统自动化工具的本质区别

很多人第一反应是:“这不就是Auto.js或Tasker吗?”
不完全是。传统安卓自动化工具依赖预设规则:你必须提前写好“点击坐标(320,650)”“等待3秒后滑动”“输入固定文字”。一旦App更新界面、换个分辨率、换台手机,整套流程就可能失效。

而Open-AutoGLM的核心突破在于多模态感知 + 推理式决策

  • 看得到:每一步操作前,它都会对手机屏幕实时截图,并用视觉语言模型(VLM)分析画面——识别出“微信图标在左上角”“‘文件传输助手’在第二行”“‘发送’按钮带蓝色边框”;
  • 想得清:它把截图+你的指令一起输入大模型,让AI理解任务目标(如“发发票”)、当前状态(如“正在微信聊天页”)、可选动作(如“长按图片→转发→选择钉钉”);
  • 动得准:基于推理结果,生成精确的ADB指令(如adb shell input tap 520 980),并自动执行,还能处理异常(如弹窗拦截、加载等待、验证码跳转)。

这就像给手机配了一个“数字分身”:它不靠死记硬背,而是像人一样观察、理解、规划、行动。

1.2 框架组成:三块积木拼出完整能力

Open-AutoGLM并非单个程序,而是一套协同工作的系统,包含三个关键模块:

模块职责技术要点小白理解
视觉感知层截图 + 理解界面使用轻量化VLM解析UI元素、文本、图标位置“眼睛”——能看清屏幕上每个按钮在哪、写着什么
任务规划层解析指令 + 生成操作序列基于autoglm-phone模型,输出结构化动作链(点击/滑动/输入/返回)“大脑”——知道下一步该点哪、为什么点、点完干什么
执行控制层发送ADB指令 + 设备交互通过ADB连接手机,调用input tapinput swipeadb shell am start等命令“手”——真正替你按下、滑动、输入、打开App

这三层解耦设计,意味着你可以灵活替换任一模块:比如用本地部署的vLLM服务替代智谱API,或接入自己的OCR引擎提升文字识别精度。

2. 零门槛上手:Windows电脑 + 安卓手机,30分钟完成配置

2.1 硬件与环境准备:只要满足基础条件

不需要RTX 4090,也不需要Linux服务器。你只需具备以下四项:

  • 一台安卓手机:Android 7.0及以上(实测vivo S20、小米13、三星S23均兼容)
  • 一台Windows或macOS电脑:用于运行控制端(Python 3.10+)
  • 一根USB数据线(或同一WiFi网络):建立电脑与手机通信通道
  • 一个智谱BigModel账号:获取免费API额度(新用户赠送充足tokens)

注意:iOS设备暂不支持。因Apple未开放类似ADB的底层调试接口,目前仅限安卓生态。

2.2 手机端设置:三步开启“被操控”权限

这是最关键的前置步骤,但操作简单,5分钟内可完成:

  1. 开启开发者模式
    进入手机「设置 → 关于手机 → 版本号」,连续点击7次,直到弹出提示“您已处于开发者模式”。

  2. 启用USB调试
    返回「设置 → 系统 → 开发者选项」,找到「USB调试」并开启。部分机型(如华为、OPPO)还需同时开启「USB调试(安全设置)」。

  3. 安装ADB Keyboard(解决输入法冲突)
    下载ADBKeyboard.apk,用命令安装:

    adb install -r ADBKeyboard.apk

    安装后,进入「设置 → 语言与输入法 → 当前输入法」,将默认输入法切换为“ADB Keyboard”。

    这一步至关重要——它确保AI执行“输入文字”指令时,不会被系统输入法弹窗打断。

2.3 电脑端配置:ADB环境与项目部署

ADB工具安装(Windows示例)
  1. 下载Android Platform Tools
  2. 解压到任意路径(如C:\platform-tools
  3. 添加至系统PATH:
    Win + R→ 输入sysdm.cpl→ 「高级」→ 「环境变量」→ 在「系统变量」中找到Path → 「编辑」→ 「新建」→ 粘贴解压路径
  4. 验证安装:打开命令提示符,输入adb version,应显示版本号(如Android Debug Bridge version 1.0.41
克隆与安装Open-AutoGLM
# 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐,避免依赖冲突) python -m venv venv venv\Scripts\activate # Windows # source venv/bin/activate # macOS/Linux # 安装依赖 pip install -r requirements.txt pip install -e .

2.4 连接手机:USB直连 or WiFi无线,两种方式任选

USB连接(推荐新手首选)
  • 用数据线连接手机与电脑
  • 在命令行运行:
    adb devices
    若输出类似ZY2234567890 device,说明连接成功。device前的字符串即为你的设备ID。
WiFi无线连接(适合远程调试)

需先用USB连接一次,执行:

adb tcpip 5555 # 切换ADB为TCP模式 adb disconnect # 断开USB adb connect 192.168.1.100:5555 # 替换为手机在同一WiFi下的IP

获取手机IP:进入「设置 → WLAN → 当前网络 → IP地址」。若连接失败,检查手机与电脑是否在同一局域网。

3. 让AI开始工作:一条指令,全自动执行

3.1 最简启动方式:直接运行自然语言指令

配置完成后,你只需一条命令,即可让AI接管手机:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_api_key_here" \ "打开高德地图,搜索‘南京南站’,查看实时公交到站信息"

参数说明:

  • --base-url:智谱API入口地址(固定)
  • --model:指定使用手机端专用模型(必须为autoglm-phone
  • --apikey:在智谱官网注册后,在「API密钥管理」中创建并复制
  • 最后引号内的字符串:你的自然语言指令,越具体越好(建议包含App名、关键词、操作目标)

成功标志:终端输出类似[INFO] Action: CLICK on (x=420, y=180),手机屏幕同步执行点击;最终返回任务结果(如“已为您查到3条公交线路,最近一辆12分钟后到达”)。

3.2 交互模式:像对话一样下达连续任务

不想每次敲命令?启用交互模式,进入“人机协作”状态:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_api_key_here"

运行后,你会看到提示:

Enter your task:

此时输入任意指令,例如:
“打开小红书,搜索‘露营装备推荐’,保存前三篇笔记的封面图到相册”

AI将自动分步执行:启动App → 点击搜索框 → 输入文字 → 点击搜索 → 滑动浏览 → 长按图片 → 点击“保存” → 返回确认。整个过程无需人工干预。

小技巧:在交互模式下,你可以说“上一步重试”“跳过当前步骤”“暂停,我来手动点一下”,系统支持有限度的人工接管,尤其适用于登录、短信验证等敏感环节。

3.3 实测案例:从指令到结果的完整闭环

我们以一个真实高频需求为例——“帮我生成一份南京两日游攻略,并发到微信家庭群”

  1. 指令输入
    “打开小红书搜索‘南京旅游攻略’,找到一篇点赞超5000的笔记,提取其中的景点、美食、住宿信息,整理成清晰列表,然后用微信发给‘家人’群”

  2. AI执行过程(终端日志节选):

    [INFO] Capturing screenshot... [INFO] Sending image + instruction to autoglm-phone... [INFO] Planning action: OPEN_APP(com.xiaohongshu) [INFO] Action: CLICK on (x=210, y=1200) # 点击小红书图标 [INFO] Waiting for app launch... [INFO] Action: CLICK on (x=580, y=150) # 点击搜索框 [INFO] Action: INPUT_TEXT('南京旅游攻略') [INFO] Action: CLICK on (x=1020, y=150) # 点击搜索按钮 [INFO] Action: SCROLL_DOWN 3 times # 滑动查找高赞笔记 [INFO] Action: CLICK on (x=320, y=850) # 点击目标笔记 [INFO] Capturing full-page screenshot... [INFO] Extracting text via OCR... [INFO] Structuring data: [景点: 中华门, 美食: 李百蟹, 住宿: 玄武湖附近] [INFO] Opening WeChat... [INFO] Searching chat '家人'... [INFO] Pasting formatted text... [INFO] Task completed successfully.
  3. 最终效果
    微信家庭群中收到格式工整的攻略,含emoji图标、分段标题、重点标注,完全达到人工整理水平。

4. 稳定运行的关键:避坑指南与优化建议

4.1 常见问题速查表

问题现象可能原因解决方案
adb devices显示unauthorized手机未授权电脑调试手机弹出“允许USB调试”提示,勾选“始终允许”,点击确定
终端报错UnicodeDecodeError: 'gbk' codec can't decode...Windows默认用GBK读取UTF-8文件编辑scripts/check_deployment_cn.py,在open()函数中添加encoding='utf-8'参数
AI反复点击同一位置,无法进入下一步屏幕分辨率适配问题main.py中添加参数--scale-factor 1.0(根据手机DPI调整,常见值0.8~1.2)
执行输入指令时,文字未上屏ADB Keyboard未设为默认输入法进入手机「设置 → 语言与输入法」,确认“ADB Keyboard”已启用并设为默认
API调用返回429 Too Many Requests智谱API请求超频在指令间添加time.sleep(2),或升级API套餐

4.2 提升成功率的3个实用技巧

  1. 指令描述要“具象化”
    ❌ 差:“查天气”
    好:“打开墨迹天气App,定位到南京市秦淮区,查看今天下午2点的温度和空气质量指数”
    理由:明确App名、地理位置、时间点,减少AI歧义判断

  2. 复杂任务拆解为多轮指令
    不要试图用一句话完成所有操作。例如:
    第一轮:“打开小红书,搜索‘iPhone15评测’,保存前三篇笔记标题”
    第二轮:“打开微信,把刚才保存的标题发给‘数码群’”
    理由:降低单次推理复杂度,提高每步准确率

  3. 善用“确认机制”应对不确定性
    在敏感操作前,AI会主动暂停并询问:
    “检测到登录弹窗,是否需要我输入手机号?(Y/N)”
    此时输入Y,它会继续;输入N,则交由你手动处理。这是框架内置的安全设计,无需额外配置。

5. 超越Demo:这些场景,它已经能稳定交付

Open-AutoGLM的价值,远不止于“炫技”。我们在实际测试中验证了多个生产力场景,效果超出预期:

5.1 个人效率类

  • 信息聚合“汇总今日微信未读公众号文章标题,按阅读量排序,发到印象笔记”
    → 自动遍历订阅号列表,截图识别标题,OCR提取文字,整理排序,调用印象笔记API保存
  • 跨App搬运“把知乎回答里的代码块复制到Typora,加上注释‘来自知乎用户@xxx’”
    → 精准定位代码区域,长按复制,启动Typora,粘贴并插入前缀

5.2 家庭关怀类

  • 远程协助“帮爸妈把微信步数同步到华为健康App”
    → 启动微信运动 → 点击“邀请好友” → 截图识别二维码 → 启动华为健康 → 扫描 → 完成绑定
  • 智能提醒“每天上午9点,检查支付宝‘市民中心’里的医保余额,低于500元时微信通知我”
    → 定时唤醒 → 自动登录 → 截图识别数字 → OCR提取 → 判断阈值 → 触发微信消息

5.3 轻量开发类

  • UI回归测试“依次打开App首页、商品页、购物车页,截图保存到本地文件夹”
    → 自动生成操作流,批量截图,命名含页面标识,供设计师比对
  • 竞品功能扫描“对比美团、大众点评、抖音本地生活,搜索‘北京火锅’,记录各平台首屏展示的Top3商家名称”
    → 并行启动三款App,分别执行搜索,OCR提取结果,结构化输出对比表

这些不是理论设想,而是我们用vivo S20+Windows 11实测通过的真实用例。平均单任务耗时12~45秒,成功率在WiFi稳定环境下达92%(USB直连可达96%)。

6. 总结:它不是未来科技,而是今天就能用上的生产力杠杆

回看开头那个“点外卖”的例子——Open-AutoGLM真正解决的,从来不是“少点几次屏幕”这个表层问题。它化解的是注意力碎片化操作路径冗长带来的隐性成本:每一次手动切换App、每一次等待页面加载、每一次在密密麻麻的菜单中寻找目标,都在悄悄消耗你的认知带宽。

而它提供的,是一种新的交互范式:用意图代替操作,用语言代替路径,用结果代替过程

你不需要记住“美团的外卖入口在首页右下角第三个图标”,只需要说“点一杯瑞幸拿铁”;
你不必担心“微信收藏里的PDF怎么导出”,只需说“把上周收藏的所有PDF发到邮箱”;
甚至,你可以对它说:“帮我看看老板昨天发的会议纪要里,哪些事项分配给了我”,它就会自动完成全文检索、高亮标记、截图归档。

这不是科幻,这是智谱用开源精神,把前沿的Phone Agent技术,变成了你电脑里一个可执行的main.py。没有黑箱,没有云服务绑定,代码透明,逻辑可追溯,扩展接口清晰。

如果你也厌倦了在App丛林中手动跋涉,不妨今晚就花30分钟,搭起这条通往“全自动手机生活”的第一座桥。真正的效率革命,往往始于一句最朴素的指令。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 10:21:29

【Django毕设全套源码+文档】基于Django的游戏辅助和内容更新系统设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/18 10:49:44

零基础教程:5分钟学会用在线POSTMAN测试API

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个面向初学者的POSTMAN使用教程,包含:1. 如何发送第一个GET请求;2. 解读响应结果;3. 添加简单断言;4. 保存和分享…

作者头像 李华
网站建设 2026/4/18 8:18:19

解锁Galgame文本提取:探秘3大突破方法与实战技巧

解锁Galgame文本提取:探秘3大突破方法与实战技巧 【免费下载链接】MisakaHookFinder 御坂Hook提取工具—Galgame/文字游戏文本钩子提取 项目地址: https://gitcode.com/gh_mirrors/mi/MisakaHookFinder 在Galgame本地化与研究领域,文本提取技术始…

作者头像 李华