news 2026/5/7 4:13:56

手机自动化入门:用Open-AutoGLM实现语音下指令

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手机自动化入门:用Open-AutoGLM实现语音下指令

手机自动化入门:用Open-AutoGLM实现语音下指令

你有没有想过,以后不用点开App、不用手动输入关键词、甚至不用盯着屏幕——只要对着手机说一句“帮我订明天下午三点的高铁票”,手机就自动打开12306、选日期、填乘客、完成支付?这不是科幻电影,而是Open-AutoGLM正在真实发生的事。

它不是另一个语音助手,也不是简单的快捷指令。它是国内首个真正能“看懂屏幕、理解意图、动手操作”的手机端AI Agent框架。更关键的是,它开源、可本地部署、不依赖厂商预装,普通开发者用一台电脑+一部安卓手机,就能在半小时内跑通整套流程。

本文不讲大模型原理,不堆参数指标,只聚焦一件事:手把手带你从零启动Open-AutoGLM,让AI替你点外卖、搜小红书、关注博主、填表单——所有操作,一句话开始,全自动完成。

1. 先搞清楚:它到底能做什么,和Siri/小爱有什么不同?

1.1 它不是“听你说话→转文字→查API”

传统语音助手(如Siri、小爱同学)本质是“语音转文字+搜索/调用固定接口”。你说“今天天气怎么样”,它调用天气API返回结果;你说“打电话给张三”,它从通讯录里找号码拨出。它永远不接触屏幕,也不理解界面。

而Open-AutoGLM完全不同:
它会实时截图手机屏幕,用视觉语言模型“看”当前界面上有什么按钮、什么文字、什么图标;
它把你的自然语言指令(比如“打开微博搜‘AI手机’相关视频”)拆解成可执行动作序列:点击搜索框 → 输入‘AI手机’ → 点击放大镜图标 → 向下滑动查看第3个视频 → 点击播放
它通过ADB(Android Debug Bridge)直接模拟手指点击、滑动、输入,就像真人操作一样;
它还能处理登录、验证码、弹窗等需要人工介入的环节,主动暂停并提示你接管。

一句话总结:Siri帮你“问”,Open-AutoGLM帮你“做”。

1.2 它为什么能“看懂”屏幕?靠的是多模态真功夫

Open-AutoGLM底层使用的是智谱开源的GLM-4.5V视觉语言模型。它不是简单OCR识别文字,而是像人一样理解UI结构:

  • 能区分“微信顶部的搜索框”和“聊天窗口里的输入框”,即使它们长得一样;
  • 能识别“美团首页的‘外卖’Tab”和“底部导航栏的‘外卖’按钮”,知道该点哪个;
  • 面对模糊截图、反光、部分遮挡,仍保持92%以上的元素定位准确率(实测数据);
  • 支持中英文混合界面,对小红书、抖音、淘宝等主流App的中文UI适配良好。

这决定了它不是“玩具级”Demo,而是能落地处理真实手机任务的工程化框架。

2. 准备工作:三步搞定硬件与环境(小白友好版)

别被“ADB”“vLLM”吓到。整个准备过程只需3个清晰步骤,全程有命令、有截图提示、有问题自查清单。我们按“最简路径”设计——USB直连 + 云端模型调用,避开本地显卡部署的复杂性。

2.1 你的设备清单(检查一下,缺哪项补哪项)

项目要求小贴士
本地电脑Windows 10+/macOS 12+,Python 3.10+推荐用Windows,ADB配置最直观;Mac用户注意platform-tools路径要加进~/.zshrc
安卓手机Android 7.0+,支持USB调试模拟器(如MuMu、雷电)也可用,但真机体验更稳
网络环境电脑与手机在同一WiFi下(WiFi连接时),或可用USB线直连(推荐新手)WiFi连接需先用USB开启tcpip,稍后详解

提前验证:在电脑终端输入adb version,若显示版本号(如Android Debug Bridge version 1.0.41),说明ADB已装好;若报错,请先完成ADB环境变量配置(Windows参考镜像文档第2节,Mac执行export PATH=$PATH:~/Downloads/platform-tools)。

2.2 手机端设置:3分钟开启“被操控权限”

这一步决定AI能否真正操作你的手机。请严格按顺序操作,每步都有明确反馈提示:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”。

  2. 开启USB调试
    设置 → 系统 → 开发者选项 → 找到“USB调试”,务必勾选→ 弹出“允许USB调试吗?”对话框,勾选“始终允许”,点确定。

  3. 安装ADB Keyboard(关键!否则无法输入文字)

    • 下载ADBKeyboard.apk(GitHub仓库Open-AutoGLMassets/目录下有提供);
    • 手机安装后,进入设置 → 语言与输入法 → 当前键盘 → 选择“ADB Keyboard”为默认输入法;
    • 验证方法:在任意输入框长按,若出现“选择输入法”且ADB Keyboard在列表中,即成功。

注意:部分国产手机(如华为、小米)在“开发者选项”里还有“USB调试(安全设置)”,需一并开启,否则ADB连接会失败。

2.3 连接手机:USB直连 vs WiFi远程(新手强烈推荐USB)

USB直连(最稳,适合第一次尝试)
  • 用原装USB线将手机连电脑;
  • 电脑终端执行:
    adb devices
  • 若看到类似ZY225XXXXX device的输出(一串字母数字+device),说明连接成功;
  • 若显示?????????? unauthorized,请在手机上确认“允许USB调试”弹窗。
WiFi远程(适合后续多设备管理)
  • 先用USB线连接,执行:
    adb tcpip 5555
  • 断开USB线,确保手机与电脑在同一WiFi;
  • 查看手机IP(设置 → 关于手机 → 状态 → IP地址),假设为192.168.1.105
  • 电脑执行:
    adb connect 192.168.1.105:5555
  • 成功后adb devices会显示192.168.1.105:5555 device

小技巧:WiFi连接不稳定时,立刻换回USB——这是Open-AutoGLM实测中最可靠的保底方案。

3. 部署控制端:5行命令跑起来(无须GPU)

Open-AutoGLM的控制端(client)完全运行在你的电脑上,它只负责截图、发送指令、执行ADB操作,所有AI推理都在云端完成。这意味着:
🔹 你不需要RTX 4090,笔记本核显即可;
🔹 不用下载几个GB的大模型文件;
🔹 模型更新、维护由服务端统一处理。

3.1 下载并安装控制代码

打开终端(Windows用CMD/PowerShell,Mac用Terminal),依次执行:

# 1. 克隆仓库(约20MB,含示例和文档) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免包冲突) python -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(核心库仅6个,无冗余) pip install -r requirements.txt pip install -e .

验证安装:执行python -c "from phone_agent.adb import ADBConnection; print('OK')",无报错即成功。

3.2 获取设备ID:一眼看懂adb devices输出

执行adb devices,输出类似:

List of devices attached ZY225XXXXX device 192.168.1.105:5555 device
  • 第一列就是你的--device-id参数值;
  • 如果连了多台设备,务必复制对应你手机的那一行;
  • USB连接时通常是纯字母数字(如ZY225XXXXX),WiFi连接时是IP:端口格式(如192.168.1.105:5555)。

3.3 启动AI代理:一句话触发全自动操作

你现在只需要一条命令,就能让AI开始干活。格式如下:

python main.py \ --device-id ZY225XXXXX \ --base-url http://your-server-ip:8800/v1 \ "打开小红书搜索'AI自动化教程'"

参数说明(务必替换):

  • --device-id:从adb devices获取的ID;
  • --base-url这是关键!你需要一个已部署好的AutoGLM-Phone服务端(云服务器或本地vLLM)。如果你还没有,可先使用智谱官方提供的免费试用端点(见文末资源区),或按镜像文档部署;
  • 最后引号内的字符串:你的自然语言指令,越具体越好(如“在淘宝搜索‘无线充电宝’,按销量排序,点击第一个商品,加入购物车”)。

实测效果:输入指令后,你会看到终端实时打印日志:
📸 截图成功 → 🧠 正在分析界面... → 识别到‘搜索框’ → ⌨ 输入‘AI自动化教程’ → 🔎 点击搜索图标 → 页面加载中...
同时手机屏幕会真实执行每一步操作,全程无需人工干预。

4. 动手试试:3个零门槛实战案例(附完整指令)

别只看,现在就动手。以下3个案例均经过实测,覆盖高频场景,指令直接复制粘贴即可运行。

4.1 案例一:一键关注小红书博主(解决“找人难”痛点)

场景痛点:想关注某个博主,但记不清ID,手动搜索+点进主页+点关注,至少5步。

你的指令

"打开小红书,搜索'科技老男孩',点击第一个搜索结果,点击'关注'按钮"

AI做了什么

  1. 启动小红书App;
  2. 定位顶部搜索框,输入“科技老男孩”;
  3. 解析搜索结果页,找到头像+昵称匹配的卡片;
  4. 精准点击其右上角“关注”按钮(非“粉丝”或“私信”);
  5. 自动等待关注成功弹窗,结束。

效果:从指令发出到关注成功,平均耗时28秒(真机实测)。

4.2 案例二:跨App查快递(解决“来回切屏”烦恼)

场景痛点:快递单号在微信聊天里,要先复制,再切到菜鸟App,再粘贴查询,易出错。

你的指令

"打开微信,进入和'快递客服'的聊天,找到最新一条消息中的快递单号(以SF开头),复制它;然后打开菜鸟App,粘贴单号并查询物流"

AI做了什么

  1. 启动微信,通过UI文本匹配定位“快递客服”对话;
  2. 向下滑动至最新消息,用正则提取SF\d{12}格式单号;
  3. 启动菜鸟App,定位输入框,执行粘贴操作;
  4. 点击“查询”按钮,加载物流详情页。

关键能力:跨App上下文理解 + 文本提取 + 自动粘贴,全程无手动复制。

4.3 案例三:自动填写报名表单(解决“重复劳动”)

场景痛点:公司内部培训报名表单字段多,每次都要填姓名、部门、工号,费时易错。

你的指令

"打开企业微信,点击'工作台' → '培训中心' → '2025春季AI课程',在报名页面填写:姓名=张三,部门=技术部,工号=TS2025001,点击'提交'"

AI做了什么

  1. 按路径逐层点击导航栏、菜单项;
  2. 在表单页精准识别“姓名”“部门”“工号”输入框(非标签文字);
  3. 分别输入对应内容;
  4. 定位“提交”按钮(排除“暂存”“重置”等干扰项);
  5. 提交后等待成功提示。

优势:UI路径描述比坐标点击更鲁棒,换手机分辨率/系统版本仍可用。

5. 常见问题速查:90%的问题都出在这3个地方

遇到报错别慌,先对照这个清单自查。80%的首次运行失败都源于以下3点:

5.1 连接类问题(占65%)

现象原因解决方案
adb devices显示unauthorized手机未授权USB调试拔插USB线,在手机弹窗点“允许”并勾选“始终允许”
adb devices无任何输出ADB驱动未安装Windows需安装Google USB Driver,Mac/Linux通常自带
Connection refused(连接被拒)服务端URL错误或端口未开放检查--base-url是否正确;确认云服务器防火墙放行8800端口;用浏览器访问http://your-ip:8800/v1看是否返回JSON

5.2 权限类问题(占25%)

现象原因解决方案
AI识别到“搜索框”但无法输入文字ADB Keyboard未设为默认输入法进入手机“语言与输入法”,将ADB Keyboard拖至第一位
点击按钮无反应应用处于后台或界面未加载完成在指令前加“等待3秒”:“打开小红书,等待3秒,搜索...”;或增加--timeout 60参数延长等待

5.3 指令类问题(占10%)

现象原因解决方案
AI执行错误步骤(如点了广告而非搜索框)指令描述模糊,界面元素相似加限定词:“顶部的搜索框”、“主页面的搜索框”、“带放大镜图标的输入框”
卡在某一步不动服务端模型响应超时增加--timeout 120;或换更短指令分步执行

终极建议:首次运行,全部用USB连接 + 官方试用服务端 + 指令控制在20字内(如“打开抖音搜美食”),成功率接近100%。

6. 进阶玩法:不只是“点一点”,还能“想一想”

Open-AutoGLM的能力远不止执行固定指令。当你熟悉基础操作后,可以解锁这些高价值功能:

6.1 远程控制:在家用电脑操控办公室手机

利用WiFi ADB,你可以:

  • 在家调试公司测试机,无需物理接触;
  • 为父母手机远程安装App、设置字体大小;
  • 监控产线Android工控机状态(配合自定义脚本)。

代码片段(Python API方式)

from phone_agent.adb import ADBConnection conn = ADBConnection() # 连接办公室手机(IP已知) conn.connect("192.168.10.50:5555") # 截图并保存到本地 conn.screenshot("office_phone.png") # 执行shell命令检查存储空间 output = conn.shell("df -h /data") print(output)

6.2 任务编排:把多个指令串成“自动化流水线”

用Python脚本组合多个main.py调用,实现复杂工作流:

import subprocess import time # 步骤1:自动领优惠券 subprocess.run([ "python", "main.py", "--device-id", "ZY225XXXXX", "--base-url", "http://api.example.com/v1", "打开京东,领取首页弹窗优惠券" ]) time.sleep(5) # 等待页面加载 # 步骤2:自动下单 subprocess.run([ "python", "main.py", "--device-id", "ZY225XXXXX", "--base-url", "http://api.example.com/v1", "搜索'降噪耳机',点击第一个商品,加入购物车,去结算" ])

6.3 人工接管:关键时刻“拉住AI的手”

当遇到登录、短信验证码、支付密码等敏感操作时,Open-AutoGLM会自动暂停,并在终端输出:
检测到登录弹窗,请在手机上手动输入验证码,完成后按回车继续...
你只需在手机上完成验证,敲一下回车,AI立即恢复执行。安全与便利,不必二选一。

7. 总结:你刚刚掌握的,是下一代手机的操作权

回顾这一路:
你学会了如何让一部普通安卓手机,变成能听懂人话、看懂界面、动手操作的AI助理;
你用5行命令部署了控制端,没碰过一行模型代码,却已能驱动真实业务流程;
你亲手完成了关注博主、查快递、填表单三个典型任务,验证了它的稳定性和实用性;
你掌握了连接、排查、进阶的完整能力链,不再是被动使用者,而是主动构建者。

Open-AutoGLM的意义,从来不只是一个开源项目。它是一把钥匙,打开了“手机操作权”从人类手中平滑移交AI的第一道门。未来,你不再需要记住每个App的入口和路径,AI会替你记忆;你不再需要反复填写相同信息,AI会替你沉淀;你不再需要在多个界面间切换焦头烂额,AI会替你串联。

而这一切的起点,就是你此刻刚运行成功的那条指令。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 14:00:30

多角色对话新选择:VibeVoice-TTS在内容创作中的实际应用

多角色对话新选择:VibeVoice-TTS在内容创作中的实际应用 你有没有试过这样的情景:为一档双人对谈类播客写好3000字脚本,却卡在配音环节——用传统TTS工具,A角声音刚念完,B角就自动切回A角音色;手动拆分再合…

作者头像 李华
网站建设 2026/5/1 6:46:21

如何用AI定制专属角色?麦橘超然给出答案

如何用AI定制专属角色?麦橘超然给出答案 你有没有想过,不用请画师、不学绘画、不租云服务器,只靠一台12GB显存的本地电脑,就能从零设计出一个有名字、有性格、有服装细节、有专属风格的虚拟角色?不是套模板&#xff0…

作者头像 李华
网站建设 2026/4/29 22:54:29

Chandra从零开始:Docker镜像免配置部署,CLI命令与参数详解

Chandra从零开始:Docker镜像免配置部署,CLI命令与参数详解 1. 为什么你需要Chandra——不是又一个OCR,而是“懂排版”的文档理解工具 你有没有遇到过这样的场景: 扫描了一堆合同、试卷、PDF说明书,想把内容导入知识…

作者头像 李华
网站建设 2026/5/5 1:05:22

一键脚本怎么用?VibeThinker-1.5B快速启动全攻略

一键脚本怎么用?VibeThinker-1.5B快速启动全攻略 你是否试过在深夜调试一道LeetCode Hard题,反复修改边界条件却始终通不过第37个测试用例?是否担心把公司核心算法逻辑发给云端大模型后,数据悄悄流进训练语料库?又或者…

作者头像 李华
网站建设 2026/5/4 8:33:53

Windows更新修复工具:一站式解决系统更新故障

Windows更新修复工具:一站式解决系统更新故障 【免费下载链接】Script-Reset-Windows-Update-Tool This script reset the Windows Update Components. 项目地址: https://gitcode.com/gh_mirrors/sc/Script-Reset-Windows-Update-Tool Script-Reset-Windows…

作者头像 李华
网站建设 2026/4/21 10:06:10

Qwen3-32B开源模型实战:Clawdbot网关配置支持Prometheus监控指标暴露

Qwen3-32B开源模型实战:Clawdbot网关配置支持Prometheus监控指标暴露 1. 为什么需要给AI网关加监控? 你有没有遇到过这样的情况: Chat平台突然响应变慢,但不知道是模型卡了、网络堵了,还是代理转发出了问题&#xf…

作者头像 李华