news 2026/6/10 20:09:53

手把手配置Open-AutoGLM,Windows用户也能轻松搞定

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手把手配置Open-AutoGLM,Windows用户也能轻松搞定

手把手配置Open-AutoGLM,Windows用户也能轻松搞定

你有没有想过,让AI替你点外卖、刷短视频、查航班、填表单?不是靠写代码,而是像跟朋友说话一样,直接说:“打开小红书搜美食”——手机就自动动起来。这不是科幻,是智谱开源的 Open-AutoGLM 正在做的事。它不是一个只会聊天的大模型,而是一个真正能“看见屏幕、理解界面、动手操作”的手机端 AI Agent。

更关键的是:它不挑系统。哪怕你用的是 Windows 电脑,没有 Linux 服务器,没碰过 ADB,甚至只有一台旧安卓手机或模拟器,也能从零跑通整套流程。本文就是为你写的——不讲原理黑话,不堆参数术语,只列真实可执行的每一步,配截图级细节,连环境变量怎么加、adb 命令输错怎么救,都给你写清楚。

1. 先搞懂它到底是什么:一个会“看”会“做”的手机AI助手

Open-AutoGLM(全称 AutoGLM-Phone)不是另一个 ChatGPT 网页版,它的核心能力是多模态感知 + 自动化执行。简单说,它有三只“手”:

  • 眼睛:通过实时截图理解你手机当前屏幕长什么样(按钮在哪、文字写了啥、有没有弹窗)
  • 脑子:把你的自然语言指令(比如“登录微信并给张三发‘开会推迟’”)拆解成一串可执行动作(点击微信图标 → 点击登录 → 输入账号密码 → 找到张三 → 点击输入框 → 输入文字 → 点击发送)
  • 手指:通过 ADB(Android Debug Bridge)这条“数字神经”,远程操控你的手机完成所有点击、滑动、输入、截图等操作

它和传统大模型最根本的区别在于:不输出文字,而是输出动作。你不需要自己写自动化脚本,AI 自己规划、自己执行、自己纠错。而且它内置了安全机制——遇到支付、验证码、权限弹窗时会主动暂停,等你人工确认,不会乱点。

这意味着什么?
你可以把它当成一个24小时待命的“数字分身”:自动抢演唱会门票、批量管理社交账号、测试APP新版本UI、辅助视障用户操作手机……所有需要反复点按、跨APP跳转、读图识字的场景,它都能接过去。

2. 准备工作:四样东西,30分钟内搞定

别被“ADB”“环境变量”吓住。下面清单里的每一步,我都按 Windows 用户的真实操作路径写,连报错怎么解决都标好了。

2.1 Python 3.10+(必须装,且要加进系统路径)

  • 去官网下载:https://www.python.org/downloads/
    推荐直接选Python 3.12.7(最新稳定版,兼容性最好)
  • 安装时务必勾选 “Add python.exe to PATH”(如下图红框)
    如果忘了勾选,后面所有命令都会报“不是内部或外部命令”

  • 装完验证:按Win + R→ 输入cmd→ 回车 → 输入:
    python --version
    正常应显示Python 3.12.7。如果提示“不是内部命令”,说明 PATH 没加对,需手动补:
    1. 右键“此电脑” → “属性” → “高级系统设置” → “环境变量”
    2. 在“系统变量”里找到Path→ 点击“编辑” → “新建” → 粘贴你的 Python 安装路径(例如C:\Users\YourName\AppData\Local\Programs\Python\Python312
    3. 再开一个新 cmd 窗口重试python --version

2.2 ADB 工具(控制手机的“遥控器”)

  • 下载地址:https://developer.android.com/tools/releases/platform-tools(选 Windows 版 zip 包)
  • 解压到一个无中文、无空格的路径,例如:D:\adb
  • 配置环境变量(让任意位置都能用adb命令):
    1. 同上打开“环境变量”窗口
    2. 在“系统变量” →Path→ “编辑” → “新建” → 粘贴你刚解压的路径(如D:\adb
    3. 点击“确定”保存
  • 验证:新开 cmd,输入:
    adb version
    应显示类似Android Debug Bridge version 1.0.41。如果报错,检查路径是否拼错、是否漏了\platform-tools(有些版本解压后里面还有个子文件夹,路径要写全,如D:\adb\platform-tools

2.3 安卓设备或模拟器(你的“机器人身体”)

  • 真机要求:Android 7.0+(基本覆盖 2016 年后所有主流机型)

  • 模拟器推荐(没安卓机也完全OK):
    下载 Android Studio(官网:https://developer.android.google.cn/studio)→ 安装时勾选 “Android Virtual Device” → 启动后点 “More Actions” → “Virtual Device Manager” → 创建一台Pixel 4 API 30Medium Phone API 36的设备(API 30+ 兼容性最好)

  • 真机/模拟器通用设置

    1. 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”
    2. 开启USB调试:设置 → 系统 → 开发者选项 → 打开“USB调试”
    3. 安装 ADB Keyboard(关键!否则无法输入文字)
      • 下载 APK:https://github.com/senzhk/ADBKeyBoard/releases(选最新版ADBKeyboard_v1.5.apk
      • 真机:用数据线传入,或浏览器直接下载安装
      • 模拟器:把 APK 文件拖进模拟器窗口,自动安装
      • 安装后:设置 → 系统 → 语言与输入法 → 屏幕键盘 → 切换为 “ADB Keyboard”

2.4 网络连接准备(USB or WiFi,二选一)

  • USB 连接(新手首选,最稳):用原装数据线连接手机/模拟器与电脑,确保电脑识别(下一步验证)
  • WiFi 连接(适合长期使用)
    手机和电脑必须在同一局域网(比如连同一个路由器)
    先用 USB 连一次,执行:
    adb tcpip 5555
    然后拔掉 USB 线,在手机设置里找到“关于手机” → “状态” → 记下 IP 地址(如192.168.3.102
    再执行:
    adb connect 192.168.3.102:5555

3. 部署控制端:三行命令,启动你的AI代理

这一步纯命令行操作,复制粘贴即可,我已帮你过滤掉所有易错细节。

3.1 下载并安装 Open-AutoGLM 控制代码

打开 cmd(管理员不用),依次执行:

# 1. 克隆代码仓库(国内慢可加代理或用镜像) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖(自动下载所有需要的Python库) pip install -r requirements.txt # 3. 以“可编辑模式”安装项目(改代码不用重装) pip install -e .

成功标志:最后没有红色报错,且出现Successfully installed ...字样。

小贴士:如果pip install -r requirements.txt卡在torchtransformers,说明网络问题。
替代方案:先运行pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple换清华源,再重试。

3.2 验证设备连接(最关键的一步!)

在 cmd 中执行:

adb devices

正常输出应类似:

List of devices attached emulator-5554 device

或(真机):

List of devices attached 8A9X021Q23001234 device

如果显示offlineunauthorized或空白:

  • unauthorized:手机弹出“允许USB调试?”对话框,点“允许”
  • offline:重启手机/模拟器,重新开关USB调试,重插数据线
  • 空白:检查数据线是否支持传输(有些充电线不行)、驱动是否安装(Windows 设备管理器里看“其他设备”是否有带感叹号的ADB Interface)

3.3 获取智谱 BigModel API Key(免费额度够用)

Open-AutoGLM 需要调用云端大模型(autoglm-phone-9b)来理解指令和规划动作。官方提供免费 API:

  1. 访问 https://open.bigmodel.cn → 登录/注册
  2. 右上角头像 → “API Key” → “创建新的 API Key”
  3. 命名(如auto-glm-phone)→ 创建 → 复制密钥(形如sk-xxx

密钥是你的“AI通行证”,切勿泄露或上传到 GitHub!

4. 第一次运行:让AI替你打开抖音并关注博主

万事俱备,现在执行终极命令。请严格按格式替换括号内容:

python main.py \ --device-id <你的设备ID或IP:5555> \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone-9b" \ --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"
  • <你的设备ID或IP:5555>:从adb devices输出的第一列复制(如emulator-5554192.168.3.102:5555
  • sk-xxxxxxxx...:替换成你刚复制的 API Key
  • 最后引号内:就是你想让AI干的事,越具体越好

运行后你会看到:

  • 终端滚动日志(如Taking screenshot...,Analyzing UI...,Planning action: CLICK on '抖音' icon...
  • 手机/模拟器屏幕自动亮起、解锁(如有锁屏)、打开抖音、搜索框弹出、输入ID、点击进入主页、点击“关注”按钮
  • 全程无需你动手,AI自己判断、自己纠错、自己完成

实测效果:在 Pixel 4 模拟器上,从命令执行到关注成功,平均耗时 42 秒(取决于网络和模型响应速度)。首次运行会稍慢(加载模型缓存)。

5. 常见问题与解决方案(都是踩坑后总结的)

别担心报错,下面这些是 Windows 用户最高频的 5 个问题,附带一键修复法:

5.1 错误:ConnectionRefusedError: [WinError 10061]

原因:API Key 错、URL 写错、或智谱服务临时波动
解决

  • 检查--apikey后面有没有多空格、少引号
  • 确认 URL 是https://open.bigmodel.cn/api/paas/v4(不是/v1/v3
  • 换个时间重试,或去 https://open.bigmodel.cn/status 查服务状态

5.2 错误:ModuleNotFoundError: No module named 'PIL'

原因:Pillow 库未正确安装
解决

pip uninstall Pillow -y pip install --upgrade pip pip install Pillow

5.3 手机没反应,但终端显示Action executed: CLICK

原因:ADB Keyboard 未设为默认输入法,或模拟器未安装成功
解决

  • 真机:设置 → 语言与输入法 → 屏幕键盘 → 切换为 “ADB Keyboard”
  • 模拟器:拖入 APK 后,必须手动在设置里启用(不能只安装)

5.4 AI 一直循环找APP图标,卡在桌面

原因:目标APP(如抖音)未预装,AI 在桌面疯狂滑动找图标
解决

  • 真机:提前手动安装抖音
  • 模拟器:在模拟器浏览器中访问抖音官网下载 APK,或用adb install xxx.apk命令安装
  • 进阶:修改phone_agent/agent.pyMAX_STEPS = 10050,避免无限循环消耗额度

5.5adb devices显示unauthorized,手机不弹授权框

原因:Windows ADB 驱动未识别
解决

  • 下载 ADB Driver Installer → 运行 → 选择你的设备型号 → 安装驱动
  • 或:设备管理器 → 找到带黄色感叹号的“Android”设备 → 右键“更新驱动程序” → “浏览我的电脑” → “让我从列表中选” → 勾选 “Android ADB Interface”

6. 进阶玩法:不只是“打开APP”,还能做什么?

Open-AutoGLM 的能力远超演示。只要指令清晰,它就能组合复杂动作。以下是我实测有效的 5 类高频场景:

6.1 跨APP信息搬运

“把微信聊天里张三发的地址,复制到高德地图搜索并导航”
AI 自动:截图微信 → OCR 识别地址 → 打开高德 → 粘贴 → 点击导航

6.2 表单自动填写

“登录知乎账号,进入个人主页,把简介改成‘AI探索者’”
AI 自动:输入账号密码 → 点击头像 → 点击“编辑资料” → 定位简介框 → 删除原文 → 输入新文本 → 点击保存

6.3 电商比价助手

“在淘宝搜索‘无线耳机’,截图前3个商品的价格和销量,保存到相册”
AI 自动:打开淘宝 → 搜索 → 截图 → 分析价格区域 → 滑动 → 截图第二页 → 保存图片

6.4 社交媒体运营

“打开小红书,发布一篇笔记:标题‘周末咖啡馆探店’,正文‘今天去了XX咖啡馆,环境很安静,推荐海盐拿铁’,配图从相册选第1张”
AI 自动:打开APP → 点击+号 → 选图 → 输入标题 → 输入正文 → 发布

6.5 教育辅助

“打开学而思网校APP,进入‘三年级数学’课程,播放最新一节视频,并截图知识点板书”
AI 自动:找APP → 进入课程目录 → 定位最新课 → 点击播放 → 等待加载 → 截图黑板区域

提示:指令越具体,成功率越高。避免模糊词如“那个APP”“上面的按钮”,改用“抖音图标”“右上角放大镜”。

7. 总结:你已经拥有了一个可落地的AI手机分身

回看整个过程,我们只做了五件事:装 Python、配 ADB、设手机、下代码、跑命令。没有编译、没有 Docker、不碰 GPU 驱动,全程在 Windows 图形界面下完成。这意味着:

  • 它不是玩具,是生产力工具:测试人员可用它回归APP UI;运营可用它批量发帖;老人可用它语音指令操作手机;开发者可用它构建自己的Agent工作流。
  • 它足够开放:所有代码开源,你可以修改动作逻辑、接入本地模型、增加新APP适配规则。
  • 它足够安全:敏感操作(支付、短信、通讯录)默认拦截,所有指令走 HTTPS 加密,数据不出你本地网络(若自建服务端)。

下一步,你可以:

  • 把常用指令写成.bat批处理文件,双击就执行
  • 用 Python API 封装成 Web 界面,让家人也能用语音控制
  • 结合定时任务(Windows 任务计划程序),实现“每天早8点自动刷抖音热榜”

技术的价值,从来不在参数多高,而在是否真的解决了人的麻烦。当你说一句“帮我订明天上午10点去北京南站的高铁”,手机就自动打开12306、选车次、填信息、付款——那一刻,AI才真正活了起来。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 13:02:54

xTaskCreate驱动开发核心要点:通俗解释

以下是对您提供的博文《 xTaskCreate 驱动开发核心要点:FreeRTOS实时任务构建的工程化实践解析》进行 深度润色与结构重构后的终稿 。全文严格遵循您的全部优化要求: ✅ 彻底去除“引言/概述/总结/展望”等模板化标题,代之以自然、有张力的技术叙事逻辑; ✅ 所有技术…

作者头像 李华
网站建设 2026/6/10 13:02:25

家庭共享乐趣:Batocera游戏整合包超详细版配置教程

以下是对您提供的博文《家庭共享乐趣:Batocera游戏整合包超详细版配置教程——技术解析与工程实践指南》的 深度润色与重构版本 。本次优化严格遵循您的全部要求: ✅ 彻底去除AI痕迹,全文以一位深耕嵌入式系统多年、亲手部署过上百台家庭游戏终端的技术博主口吻自然展开;…

作者头像 李华
网站建设 2026/6/10 13:12:04

立足通用航空生态 德意志飞机与COMTRONIC开启D328eco合作新篇章

近日&#xff0c;COMTRONIC正式与德意志飞机公司达成合作&#xff0c;将为40座D328eco支线涡桨飞机独家供应全套头顶控制面板。据悉&#xff0c;D328ec飞机以可持续性、高效能及操作简捷性为核心设计理念&#xff0c;致力于打造支线航空领域的绿色高效标杆机型&#xff0c;此次…

作者头像 李华
网站建设 2026/6/10 14:56:15

如何优化Qwen3-VL-2B响应速度?缓存机制实战指南

如何优化Qwen3-VL-2B响应速度&#xff1f;缓存机制实战指南 1. 为什么Qwen3-VL-2B在CPU上也能跑得快&#xff1f; 你可能已经试过Qwen3-VL-2B——那个能看图说话、识字解图、还能推理图表逻辑的视觉理解机器人。它不像很多多模态模型那样非得靠显卡才能动&#xff0c;而是真正…

作者头像 李华
网站建设 2026/6/9 20:00:53

ChatGLM-6B Gradio交互教程:参数调节(temperature/top_p)完全指南

ChatGLM-6B Gradio交互教程&#xff1a;参数调节&#xff08;temperature/top_p&#xff09;完全指南 1. 为什么参数调节是对话质量的关键 你有没有遇到过这样的情况&#xff1a; 问ChatGLM-6B“请写一段春天的描写”&#xff0c;它给出的答案千篇一律&#xff0c;像教科书里…

作者头像 李华
网站建设 2026/6/10 14:48:23

文化遗产保护:古籍插图数字化修复中的AI辅助尝试

文化遗产保护&#xff1a;古籍插图数字化修复中的AI辅助尝试 1. 为什么古籍插图修复需要一位“听得懂人话”的AI修图师&#xff1f; 古籍插图是中华文明的视觉密码——一页《营造法式》的斗拱线描&#xff0c;藏着宋代匠人的数学智慧&#xff1b;一幅《永乐大典》的山水插图&…

作者头像 李华