news 2026/4/18 3:49:06

手把手教你部署Open-AutoGLM,连手机都能听懂话

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手把手教你部署Open-AutoGLM,连手机都能听懂话

手把手教你部署Open-AutoGLM,连手机都能听懂话

你有没有试过一边炒菜一边想:“要是手机能自己打开小红书搜‘快手家常菜’就好了”?
或者加班到深夜,只想说一句“把今天会议的截图发给张经理”,手机就自动完成——不用解锁、不用点开App、不用复制粘贴。
这不是科幻片,是 Open-AutoGLM 正在做的事:让手机真正听懂人话,并替你动手

它不是另一个聊天机器人,而是一个能“看”屏幕、“读”界面、“想”步骤、“点”按钮的 AI 手机助理。你下指令,它执行;你说需求,它跑流程;你动嘴,它动手。

本文不讲抽象概念,不堆技术参数,只做一件事:带你从零开始,在自己的电脑上搭起这个会听话的手机AI代理——哪怕你没碰过ADB,也没写过一行Python,也能照着操作成功。

全程实测基于 Windows 11 和 macOS Sonoma,覆盖真机连接、WiFi远程控制、本地轻量运行与云端高性能调用四种典型场景。所有命令可直接复制粘贴,所有坑我都替你踩过了。


1. 它到底能干什么?先看三个真实指令

别急着装,先确认:这东西是不是你想要的。

我们用三句最普通的中文,测试 Open-AutoGLM 在真实安卓手机上的表现(Pixel 7a,Android 14):

1.1 “打开微信,给王磊发条消息:今晚聚餐改到7点”

自动唤醒微信 → 进入聊天列表 → 搜索“王磊” → 点击对话框 → 输入文字 → 点击发送
(全程无手动干预,耗时约28秒)

1.2 “打开高德地图,查从公司到西溪湿地的公交路线”

启动高德 → 定位起点(自动获取当前位置)→ 输入“西溪湿地”为终点 → 切换至公交模式 → 展示首班/末班时间、换乘数、步行距离
(识别出地图顶部的“公交”Tab并精准点击)

1.3 “打开小红书,搜‘露营装备推荐’,保存前3篇笔记的封面图”

启动小红书 → 点击搜索栏 → 输入关键词 → 进入图文流 → 逐篇长按封面 → 选择“保存图片” → 弹出系统提示“已保存至相册”
(自动识别“保存图片”按钮位置,适配不同机型UI偏移)

关键不在“能不能做”,而在怎么做
它不靠预设脚本,不依赖固定ID;而是每一步都先“看”一眼当前屏幕(截图+UI结构XML),再结合你的语言指令推理下一步该点哪、输什么、滑多远——就像一个坐在你旁边、手速极快又特别耐心的朋友。


2. 准备工作:三件套搞定硬件与环境

部署分两部分:手机端准备(一次配置,长期有效)和电脑端控制(你的操作台)。我们按顺序来,不跳步。

2.1 手机端:开启“被操控权限”

这是最关键的一步。很多失败,卡在这儿。

  • 开启开发者选项
    设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 提示“您现在是开发者!”

  • 开启USB调试
    设置 → 系统 → 开发者选项 → 打开“USB调试” → 弹窗点“确定”

  • 安装并启用 ADB Keyboard(必须!)
    下载地址:https://github.com/senzhk/adbkeyb/releases
    安装 APK 后:
    设置 → 语言与输入法 → 虚拟键盘 → 勾选ADB Keyboard→ 设为默认输入法
    验证:在任意输入框长按 → 选“输入法” → 应能看到 ADB Keyboard 被选中

注意:部分国产手机(华为、小米)需额外开启“USB调试(安全设置)”或关闭“MIUI优化”。若 adb devices 显示unauthorized,请在手机弹窗点“允许”。

2.2 电脑端:装好ADB与Python

无论 Windows 还是 macOS,只需三步:

  • 安装 ADB 工具包
    官方下载页:https://developer.android.com/tools/releases/platform-tools
    解压后记下路径,例如:C:\platform-tools(Win)或~/Downloads/platform-tools(Mac)

  • 配置环境变量(让终端认得 adb 命令)

    • Windows
      Win + R→ 输入sysdm.cpl→ 高级 → 环境变量 → 系统变量 → Path → 新建 → 粘贴 ADB 解压路径 → 确定
      打开新命令行,输入adb version,应显示版本号(如1.0.41

    • macOS
      终端执行:

      echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version
  • 安装 Python 3.10+
    推荐从 python.org 下载安装包,勾选“Add Python to PATH”
    终端输入python --version,确认输出 ≥ 3.10


3. 部署控制端:克隆、安装、连设备

现在,你的电脑就是“指挥中心”。

3.1 下载并安装 Open-AutoGLM 控制代码

打开终端(Windows 用 PowerShell 或 CMD,Mac 用 Terminal):

# 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐,避免依赖冲突) python -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 安装依赖(含核心库 phone_agent) pip install -r requirements.txt pip install -e .

成功标志:无报错,且python -c "import phone_agent"不报错。

3.2 连接你的手机

确保手机已通过 USB 连接电脑,并已授权调试。

  • 检查连接状态
    终端执行:

    adb devices

    输出应类似:

    List of devices attached AERFUT4B08000806 device

    若显示unauthorized,请检查手机弹窗;若为空,重插USB线或换接口。

  • WiFi 远程连接(可选,适合桌面固定使用)
    首次需 USB 连接启用 TCP/IP:

    adb tcpip 5555 # 断开USB线,连接同一WiFi adb connect 192.168.1.100:5555 # 替换为手机IP(设置→关于手机→状态→IP地址)

小技巧:手机IP可在 WiFi 设置里长按网络名查看,或用adb shell ip addr show wlan0 | grep "inet "快速获取。


4. 启动AI代理:两种方式,按需选择

Open-AutoGLM 支持两种运行模式:本地轻量运行(适合体验、隐私敏感场景)和远程API调用(适合高性能、多设备管理)。我们分别说明。

4.1 方式一:本地运行(无需云服务,手机+电脑即可)

适用于 M1/M2 Mac 或 Windows + NVIDIA 显卡用户。模型需提前下载并量化。

  • 下载并量化模型(以 Mac M2 为例)

    # 安装 Hugging Face CLI pip install -U "huggingface_hub[cli]" # 下载原始模型(约12GB,支持断点续传) huggingface-cli download --resume-download zai-org/AutoGLM-Phone-9B \ --local-dir ./models/AutoGLM-Phone-9B # 4-bit 量化(生成约6.5GB MLX 格式模型,15分钟内完成) python -m mlx_vlm.convert --hf-path ./models/AutoGLM-Phone-9B -q --q-bits 4 \ --mlx-path ./models/autoglm-9b-4bit
  • 启动本地代理

    # 单次指令执行 python main.py --local --model ./models/autoglm-9b-4bit "打开知乎,搜‘大模型入门’" # 交互模式(连续输入多条指令) python main.py --local --model ./models/autoglm-9b-4bit

优势:数据不出本地,响应稳定,适合个人日常辅助。
注意:M2 16GB 内存可运行,但建议关闭其他应用;Windows 用户需 CUDA 环境支持。

4.2 方式二:远程API调用(推荐新手,开箱即用)

如果你不想折腾模型下载与量化,可直接调用已部署好的云端服务(如 CSDN 星图镜像广场提供的预置实例)。

  • 启动命令(替换为你实际的服务器地址)

    python main.py \ --device-id AERFUT4B08000806 \ --base-url http://192.168.1.200:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音,搜‘dycwo11nt61d’并关注"
  • 参数说明

    • --device-idadb devices显示的设备ID(USB)或IP:5555(WiFi)
    • --base-url:指向 vLLM 或 Ollama 启动的 OpenAI 兼容 API(端口需映射到公网或局域网)
    • 最后字符串:你的自然语言指令,支持中文,越具体越好

优势:免模型管理,即装即用,适合快速验证效果。
提示:CSDN 星图镜像广场提供一键部署的 Open-AutoGLM 服务镜像,含预装 vLLM 与模型,3分钟可上线。


5. 实战调试:遇到问题?这样排查最有效

部署中最常见的5个问题,及对应解法:

5.1 “adb devices 显示 offline 或 unauthorized”

  • 解决:拔掉USB线 → 关闭手机“开发者选项” → 重新开启 → 再次授权调试弹窗
  • 检查:手机是否开启“USB调试(安全设置)”(华为/OPPO等品牌特有)

5.2 “执行Type动作,手机没输入文字”

  • 核心原因:ADB Keyboard 未设为默认输入法
  • 操作:设置 → 语言与输入法 → 默认输入法 → 选 ADB Keyboard
  • 验证:在备忘录里点输入框 → 长按 → “输入法” → 确认 ADB Keyboard 被勾选

5.3 “模型返回乱码或空响应”

  • 检查 base-url 是否正确(末尾必须带/v1
  • 检查 vLLM 启动时--mm-processor-kwargs参数是否包含'{"max_pixels":5000000}'
  • 降低请求复杂度,先试“打开设置”等简单指令

5.4 “点击位置偏差,总点错地方”

  • 原因:手机开启了“字体缩放”或“显示大小”
  • 解决:设置 → 显示 → 字体大小与样式 → 设为“默认”;显示大小 → 设为“默认”

5.5 “WiFi连接后adb devices不显示设备”

  • 先用USB执行adb tcpip 5555
  • 确保电脑与手机在同一子网(如都是192.168.1.x
  • 关闭电脑防火墙临时测试

终极调试命令:
adb shell screencap -p /sdcard/screen.png && adb pull /sdcard/screen.png ./
可随时抓取当前屏幕截图,确认 Agent “看到”的画面是否与你一致。


6. 进阶玩法:不止于“听话”,还能“记事”“学习惯”

Open-AutoGLM 的设计远超单次任务执行。它支持上下文记忆、多轮协作与人工接管,让自动化更自然。

6.1 多轮对话:让AI记住你的偏好

比如你第一次说:“打开网易云,播周杰伦的歌”,它会启动App并搜索。
第二次说:“换一首”,它无需再打开App,直接点击“下一首”按钮——因为它记住了当前在播放界面。

原理:Agent 在每次操作后,缓存当前界面状态(截图+XML+历史动作),作为下一轮推理的上下文。

6.2 敏感操作人工接管:安全第一

当进入银行App、支付页面或验证码弹窗时,Agent 不会强行操作,而是输出:

{"action": "Take_over", "reason": "检测到支付确认弹窗,请手动输入验证码"}

此时你只需操作手机完成验证,Agent 自动恢复后续流程。

6.3 批量任务脚本化(适合测试工程师)

将指令写入文本文件,批量执行:

# tasks.txt 内容: 打开淘宝搜索蓝牙耳机 打开小红书搜“露营装备” 打开高德查公司到西湖路线 # 执行全部 cat tasks.txt | while read cmd; do python main.py --device-id AERFUT4B08000806 --base-url http://192.168.1.200:8800/v1 --model autoglm-phone-9b "$cmd" sleep 5 done

7. 总结:这不是工具,而是你手机的“第二双手”

回看开头那句:“连手机都能听懂话”——现在你知道,它不只是听懂,更是理解、规划、执行、反馈、学习。

  • 普通用户:它是厨房里的语音助手、通勤路上的行程管家、会议中的自动记录员;
  • 开发者:它是UI自动化测试的新范式,不再维护XPath,只描述“我要做什么”;
  • 产品经理:它是竞品功能快速验证器,一句话就能跑通整个用户旅程;
  • 安全研究员:它是移动App行为审计员,自动遍历所有页面并截图留痕。

Open-AutoGLM 的价值,不在于它多“聪明”,而在于它足够“务实”:
不要求你写一行代码,只要会说话;
不依赖特定App,所有安卓应用都适用;
不需要Root,不越狱,不越权;
不只是Demo,而是已在真实测试、辅助办公场景中稳定运行。

它不取代你,而是把你从重复点击中解放出来,让你专注真正需要思考的事。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 20:10:43

看完就想试试!这个卡通化工具太适合普通人了

看完就想试试!这个卡通化工具太适合普通人了 你有没有过这样的时刻:翻到手机里一张普通自拍,突然想把它变成朋友圈最吸睛的头像?或者想给家人的照片加点童趣,做成儿童节礼物?又或者只是单纯好奇——我的脸…

作者头像 李华
网站建设 2026/4/6 22:27:26

MinerU技术内幕解析:magic-pdf[full]模块功能详解

MinerU技术内幕解析:magic-pdf[full]模块功能详解 1. 引言:为什么需要MinerU? 你有没有遇到过这样的情况:手头有一份几十页的学术PDF,里面布满了复杂的公式、多栏排版和嵌套表格,想要把内容复制出来编辑&…

作者头像 李华
网站建设 2026/4/14 23:53:12

PyTorch-2.x-Universal-Dev-v1.0快速开始指南

PyTorch-2.x-Universal-Dev-v1.0快速开始指南 1. 为什么你需要这个开发环境 你是否经历过这样的场景:刚想跑一个PyTorch模型,却卡在环境配置上——CUDA版本不匹配、依赖包冲突、Jupyter启动失败、pip源太慢……折腾两小时,代码还没写一行。…

作者头像 李华
网站建设 2026/4/14 2:11:31

微信聊天记录永久保存与数据安全全攻略

微信聊天记录永久保存与数据安全全攻略 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeChatMsg 你是否也曾经历过…

作者头像 李华
网站建设 2026/4/17 18:20:23

中文NLP避坑指南:用bert-base-chinese轻松解决文本分类问题

中文NLP避坑指南:用bert-base-chinese轻松解决文本分类问题 在中文NLP项目落地过程中,我见过太多团队踩进同一个坑:花两周时间从零配置环境、下载模型、调试tokenizer,最后发现连最基础的文本分类都跑不起来。更常见的是&#xf…

作者头像 李华
网站建设 2026/4/18 3:39:41

verl内存优化实测:通信开销大幅降低

verl内存优化实测:通信开销大幅降低 1. 为什么RL训练总卡在“等数据”上? 你有没有遇到过这样的情况:模型参数明明只占几GB显存,但训练时GPU利用率却长期卡在30%以下?日志里反复刷着all_reduce、broadcast、scatter—…

作者头像 李华