news 2026/4/18 8:54:57

跟着做就对了!Open-AutoGLM完整操作流程图解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
跟着做就对了!Open-AutoGLM完整操作流程图解

跟着做就对了!Open-AutoGLM完整操作流程图解

你有没有想过,手机能自己“看懂”屏幕、理解你的指令、再像真人一样点开App、输入关键词、完成搜索甚至点击关注?不是科幻电影,是今天就能上手的现实——Open-AutoGLM 就是这样一个让手机真正“活起来”的AI Agent框架。它不依赖预设脚本,不靠固定坐标点击,而是用视觉语言模型实时理解界面,再通过 ADB 自动执行动作。一句话:你说人话,它办人事。

本文不是概念科普,也不是参数堆砌,而是一份零基础可照着敲、每一步有反馈、出错有解法的实操指南。无论你是刚配好Python环境的开发者,还是第一次听说ADB的新手,只要按顺序走完这六步,15分钟内就能让AI替你打开小红书、搜美食、点进博主主页并完成关注——全程无需手动触屏。

我们不讲“多模态感知架构”,只说“为什么这一步要开USB调试”;不谈“vLLM推理优化”,只告诉你“连不上设备时换根线真管用”。所有内容,都来自真实部署过程中的截图、报错、重试与验证。


1. 先搞明白:它到底能做什么,又不需要你做什么

Open-AutoGLM(准确说是其核心组件 AutoGLM-Phone)不是一个需要你写代码控制UI的自动化工具,而是一个能看、能想、能动手的手机智能助理。它的能力边界非常清晰:

  • 能看:截取当前手机屏幕,识别按钮文字、图标位置、输入框状态(比如“搜索框是否为空”、“登录按钮是否可点击”)

  • 能想:把你的自然语言指令(如“帮我把微信里昨天收到的PDF文件发到邮箱”)拆解成可执行动作序列(打开微信→找到聊天→长按PDF→选择转发→切换到邮箱App→粘贴发送)

  • 能动手:通过 ADB 发送点击、滑动、输入指令,真实操控设备,就像你亲手操作一样

  • 不做:不越权访问隐私数据(如读取短信、通讯录需明确授权)、不绕过系统级安全弹窗(如应用权限申请仍需你点“允许”)、不支持iOS(仅限Android 7.0+)

最关键的是:你不需要训练模型、不需标注数据、不需写一行逻辑判断代码。整个流程由预置模型和框架自动完成。你唯一要做的,就是把需求说清楚,比如:

“打开微博,搜索‘国产大模型评测’,进入阅读量最高的那条帖子,截图保存到相册”

这句话,就是你和AI之间的全部接口。


2. 准备三样东西:电脑、手机、网络,缺一不可

别被“AI框架”吓住——Open-AutoGLM 的本地控制端本质是个Python程序,对硬件要求极低。你只需要确认以下三件事已就绪:

2.1 你的电脑(Windows/macOS均可)

  • Python 版本 ≥ 3.10(检查命令:python --versionpython3 --version
  • 能正常运行命令行(Windows用CMD/PowerShell,macOS用Terminal)
  • 有管理员权限(用于配置环境变量)

小提示:如果你还没装Python,推荐直接去 python.org 下载安装包,勾选“Add Python to PATH”再安装,省去后续配置麻烦。

2.2 你的安卓手机(或模拟器)

  • 系统版本 ≥ Android 7.0(绝大多数2017年后的机型都满足)
  • 支持USB调试(几乎所有品牌都支持,包括华为、小米、OPPO、vivo、三星等)
  • 有可用USB数据线(重点:必须是支持数据传输的线,部分充电线无法识别设备)

2.3 网络连接方式(二选一)

方式优点注意事项
USB直连稳定、延迟低、无需配WiFi需物理连接,适合首次调试
WiFi远程解放双手,手机可放在桌面自由操作首次需USB连接开启TCP/IP,且手机与电脑在同一局域网

划重点:无论选哪种,ADB工具必须提前装好并加入系统PATH。这是整个流程的“地基”,地基不牢,后面全白搭。


3. 安装ADB:三分钟搞定,但必须一次成功

ADB(Android Debug Bridge)是电脑和安卓设备通信的唯一桥梁。Open-AutoGLM 所有操作——截图、点击、输入文字——都靠它转发。安装失败,后面所有步骤都会卡在“找不到设备”。

3.1 下载与解压

  • 去官网下载最新版平台工具:https://developer.android.com/tools/releases/platform-tools
  • 解压到一个路径不含中文和空格的文件夹,例如:
    C:\adb(Windows) 或~/adb(macOS)

3.2 配置环境变量(让系统 anywhere 都认识 adb)

Windows 用户:
  1. Win + R,输入sysdm.cpl→ 回车
  2. 切换到“高级”选项卡 → 点击“环境变量”
  3. 在“系统变量”中找到Path→ 点击“编辑” → “新建” → 粘贴你刚才的ADB解压路径(如C:\adb
  4. 点击“确定”保存所有窗口
  5. 重启命令行窗口(非常重要!旧窗口不生效),输入:
    adb version
    若显示类似Android Debug Bridge version 1.0.41,说明成功
macOS 用户:
  1. 打开 Terminal
  2. 输入以下命令(将~/Downloads/platform-tools替换为你实际的解压路径):
    echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc
  3. 输入adb version验证,同上

🧩 常见卡点:

  • 报错'adb' is not recognized...→ 环境变量没生效,务必重启终端
  • 显示command not found→ 路径写错,检查是否多打了斜杠或拼写错误
  • 版本号太老(如1.0.32)→ 建议重下新版,旧版可能不兼容新机型

4. 手机设置:四步打开“控制开关”

手机端设置是整个流程中最容易因品牌差异出问题的环节。我们按通用逻辑梳理,同时标注主流品牌(小米、华为、OPPO)的特殊操作。

4.1 开启开发者模式(一次设置,永久有效)

  • 进入设置 → 关于手机 → 版本号
  • 连续点击“版本号”7次,直到弹出提示:“您现在处于开发者模式”
  • 完成:返回设置首页,能看到新增的“开发者选项”

小米用户注意:若找不到“关于手机”,可在设置顶部搜索框直接搜“版本号”
华为用户注意:部分新机型需先开启“系统和更新”里的“开发人员选项”

4.2 开启USB调试(每次连接都需要)

  • 进入设置 → 开发者选项 → USB调试→ 开关打开
  • 完成:此时用USB线连接电脑,命令行输入adb devices应显示设备ID(如abcd1234 device

小米/Redmi用户必做:
在“开发者选项”中,额外开启两项

  • USB调试(安全设置)
  • USB安装
    否则ADB可识别设备,但无法执行点击/输入操作。

4.3 安装ADB Keyboard(让AI能“打字”)

Open-AutoGLM 需要向输入框发送文字(如搜索关键词),而标准ADB无法跨应用输入。ADB Keyboard 是专为此设计的输入法,它让AI指令能真正变成手机屏幕上的文字。

  • 下载APK:https://github.com/senzhk/ADBKeyBoard/releases/download/v1.0/ADBKeyboard.apk
  • 用USB线传到手机,或直接在手机浏览器下载安装
  • 安装完成后,进入设置 → 语言与输入法 → 当前输入法→ 切换为ADB Keyboard

验证:在任意输入框(如微信搜索栏)长按 → 选择“输入法” → 确认ADB Keyboard在列表中并已启用

4.4 (可选但推荐)开启无线调试(为WiFi连接铺路)

若计划用WiFi控制,现在就开启无线调试,避免后续反复插拔USB:

  • 进入设置 → 开发者选项 → 无线调试→ 开关打开
  • 点击“无线调试”,在“配对码”旁点“配对”,记下IP、端口、配对码
  • 在电脑命令行执行:
    adb pair 192.168.1.100:37845 # 输入配对码,回车 adb connect 192.168.1.100:37845

成功后adb devices会显示192.168.1.100:37845 device


5. 部署控制端:克隆、安装、验证,三步到位

现在本地环境已准备好,我们来部署Open-AutoGLM的控制程序。它本身不包含大模型,只是一个轻量级调度器,负责把你的指令发给云端模型,并把模型返回的操作指令翻译成ADB命令。

5.1 克隆代码仓库

打开命令行,进入你想存放项目的文件夹(如D:\projects),执行:

git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM

若未安装Git,可直接去GitHub页面点击绿色"Code"按钮 → "Download ZIP",解压后进入文件夹即可。

5.2 安装Python依赖(国内用户请用清华源)

# 推荐使用清华镜像加速(尤其在国内) pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .

验证:无报错即成功。若提示No module named 'torch',说明PyTorch未预装,请先运行:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

5.3 连接设备并验证(最关键的一步)

确保手机已通过USB或WiFi连接,然后执行:

adb devices

正确输出示例:

List of devices attached abcd1234 device

❌ 常见错误及解法:

  • List of devices attached(空)→ 检查USB线、开发者选项、小米的“USB调试(安全设置)”
  • unauthorized→ 手机弹出“允许USB调试吗?”对话框,务必勾选“始终允许”,再点确定
  • offline→ 重启ADB服务:adb kill-server && adb start-server

🧪 小实验:执行adb shell screencap -p /sdcard/screen.pngadb pull /sdcard/screen.png .
若当前目录生成了screen.png,说明ADB截图功能完全正常


6. 运行AI代理:一条命令,让手机开始工作

一切就绪,现在只需一条命令,就能启动AI助理。我们以最典型的场景为例:打开抖音,搜索指定博主并关注

6.1 使用第三方API(推荐新手,免GPU)

Open-AutoGLM 支持调用智谱BigModel或魔搭(ModelScope)的在线API,无需本地部署大模型。我们以魔搭为例(注册免费,API Key秒发):

  1. 访问 https://modelscope.cn,注册/登录
  2. 进入个人中心 → “Access Token” → 创建新Token → 复制保存
  3. 获取模型地址:ZhipuAI/AutoGLM-Phone-9B
  4. API入口:https://api-inference.modelscope.cn/v1

执行命令(替换<your-token><device-id>):

python main.py \ --device-id abcd1234 \ --base-url https://api-inference.modelscope.cn/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ --apikey "<your-token>" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:从adb devices输出中复制(USB连接时是字母数字串;WiFi连接时是192.168.x.x:5555
  • --base-url--model必须严格匹配所选平台(智谱用https://open.bigmodel.cn/api/paas/v4+autoglm-phone
  • 最后引号内的字符串,就是你给AI的自然语言指令,越具体越好

6.2 实时观察执行过程(你会看到什么?)

运行后,控制台将逐行输出AI的思考与行动:

[INFO] 截取当前屏幕... [INFO] 屏幕已上传至模型服务... [INFO] 模型返回动作:CLICK, x=520, y=1280, text="抖音" [INFO] 执行点击:adb shell input tap 520 1280 [INFO] 截取新屏幕... [INFO] 模型返回动作:CLICK, x=890, y=150, text="搜索框" [INFO] 执行点击... [INFO] 模型返回动作:INPUT, text="dycwo11nt61d" [INFO] 执行输入:adb shell am broadcast -a ADB_INPUT_TEXT --es msg "dycwo11nt61d" ... [INFO] 任务完成:已关注博主“XXX”

成功标志:手机屏幕上真实发生了对应操作,且最后控制台输出Task completed successfully

6.3 常见问题速查表(亲测有效)

现象可能原因解决方案
屏幕黑屏/报“敏感屏幕”小米/华为等品牌的安全策略拦截截图① 关闭“应用启动管理”中抖音/小红书的“自启动”和“后台活动”
② 在“设置→隐私→权限管理→无障碍”中,关闭所有无关无障碍服务(只留ADB Keyboard)
③ 换一根支持数据传输的USB线(6A快充线常不支持)
输入文字失败/乱码ADB Keyboard未设为默认输入法进入手机“语言与输入法”,确认ADB Keyboard已启用并设为默认
模型无响应/超时API Key无效或网络不通① 检查Token是否复制完整(含空格)
② 浏览器访问https://api-inference.modelscope.cn/v1看是否返回404(正常应返回API文档)
点击位置偏移手机分辨率与模型训练分辨率不一致main.py中添加参数--scale-factor 1.0(根据实际屏幕缩放调整,常见值0.8~1.2)

终极建议:首次运行,务必用USB连接 + 简单指令(如“打开设置”),验证基础链路畅通后再尝试复杂任务。


7. 总结:你已经掌握了手机AI助理的核心能力

回顾这六步,你其实只做了三件关键事:

  1. 打通通信链路:用ADB让电脑“看见”并“触摸”手机;
  2. 赋予输入能力:用ADB Keyboard让AI能“说话”(输入文字);
  3. 交付决策大脑:把自然语言指令交给云端视觉语言模型,让它规划并下达操作命令。

你不需要理解Transformer结构,也不用调参优化,Open-AutoGLM 已把所有复杂性封装在main.py一行命令里。真正的门槛,从来不是技术,而是敢不敢把第一句指令说出来

接下来,你可以尝试这些真实场景:

  • “把微信收藏里的‘Python学习笔记’PDF,用WPS打开并转成Word”
  • “打开高德地图,搜索‘最近的苹果授权店’,导航到距离最近的一家”
  • “进入淘宝,找到‘机械键盘’品类,按销量排序,截图前三款商品详情页”

每一次成功,都是AI从“玩具”变成“工具”的临界点。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:07:37

Bypass Paywalls Chrome Clean:突破信息壁垒的高效内容访问方案

Bypass Paywalls Chrome Clean&#xff1a;突破信息壁垒的高效内容访问方案 【免费下载链接】bypass-paywalls-chrome-clean 项目地址: https://gitcode.com/GitHub_Trending/by/bypass-paywalls-chrome-clean Bypass Paywalls Chrome Clean是一款专为Chromium内核浏览…

作者头像 李华
网站建设 2026/4/18 1:11:49

跨平台多媒体开发环境搭建:零基础掌握FFmpeg Kit配置指南

跨平台多媒体开发环境搭建&#xff1a;零基础掌握FFmpeg Kit配置指南 【免费下载链接】ffmpeg-kit FFmpeg Kit for applications. Supports Android, Flutter, iOS, Linux, macOS, React Native and tvOS. Supersedes MobileFFmpeg, flutter_ffmpeg and react-native-ffmpeg. …

作者头像 李华
网站建设 2026/4/18 8:52:36

中小企业AI降本攻略:DeepSeek-R1-Distill-Qwen-1.5B免费部署案例

中小企业AI降本攻略&#xff1a;DeepSeek-R1-Distill-Qwen-1.5B免费部署案例 你是不是也遇到过这些情况&#xff1a;客服要24小时响应&#xff0c;但招人成本越来越高&#xff1b;销售每天要写几十条产品话术&#xff0c;复制粘贴到麻木&#xff1b;技术同事被临时拉去改PPT、…

作者头像 李华