news 2026/4/18 7:51:48

Open-AutoGLM部署教程:从克隆仓库到指令执行完整手册

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM部署教程:从克隆仓库到指令执行完整手册

Open-AutoGLM部署教程:从克隆仓库到指令执行完整手册

1. Open-AutoGLM – 智谱开源的手机端AI Agent框架

你有没有想过,让AI帮你操作手机?不是简单的语音助手,而是真正“看得懂”屏幕、“想得出”步骤、“点得准”按钮的智能体。Open-AutoGLM 正是这样一个项目——由智谱开源的手机端 AI Agent 框架,它能让大模型像人一样使用手机。

AutoGLM-Phone 是基于视觉语言模型(VLM)构建的 AI 手机助理框架。它的核心能力是通过多模态理解手机屏幕内容,并借助 ADB(Android Debug Bridge)自动操控设备。你只需要用自然语言下达指令,比如“打开小红书搜美食”,系统就能自动解析你的意图,识别当前界面元素,规划出点击、滑动、输入等操作序列,并一步步执行完成任务。

而 Phone Agent 则是在 AutoGLM 基础上进一步封装的智能助理系统。它不仅能完成基础自动化,还内置了安全机制:在涉及敏感操作(如支付、删除)时会暂停并提示确认;遇到登录或验证码场景,也支持人工临时接管。更棒的是,它支持远程 ADB 调试,可以通过 WiFi 或局域网连接设备,实现无需插线的灵活控制与开发调试。

本文将带你从零开始,完整走一遍 Open-AutoGLM 的本地控制端部署流程:从克隆代码、配置环境,到连接真机、发送指令,手把手教你如何让 AI 真正“上手”你的手机。

2. 硬件与软件环境准备

在开始之前,先确保你的本地电脑和安卓设备满足以下基本要求。

2.1 系统与工具清单

  • 操作系统:Windows 或 macOS(Linux 同样适用,但本文以主流桌面系统为主)
  • Python 版本:建议使用 Python 3.10 或更高版本。较低版本可能导致依赖冲突。
  • 安卓设备:Android 7.0 及以上系统的手机或模拟器(推荐真机测试,体验更真实)
  • ADB 工具:Android SDK Platform Tools,用于与设备通信

2.2 安装并配置 ADB

ADB 是整个系统与手机交互的桥梁。我们需要先安装它,并确保命令行可以全局调用。

Windows 用户配置步骤:
  1. 前往 Android 开发者官网 下载platform-tools压缩包。
  2. 解压到一个固定目录,例如C:\platform-tools
  3. 设置环境变量:
    • 按下Win + R,输入sysdm.cpl回车,打开“系统属性”。
    • 点击“高级”选项卡 → “环境变量”。
    • 在“系统变量”区域找到Path,双击编辑。
    • 新增一条路径:C:\platform-tools(根据实际解压位置调整)。
  4. 验证安装: 打开命令提示符(CMD)或 PowerShell,输入:
adb version

如果返回类似Android Debug Bridge version 1.xx.xx的信息,说明配置成功。

macOS 用户配置方法:

macOS 用户可以直接在终端中临时添加路径,或写入 shell 配置文件永久生效。

假设你把platform-tools解压到了~/Downloads/platform-tools,运行以下命令:

export PATH=${PATH}:~/Downloads/platform-tools

为了永久生效,你可以将这行命令添加到你的 shell 配置文件中(如.zshrc.bash_profile):

echo 'export PATH=${PATH}:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

同样,用adb version验证是否可用。

提示:如果你使用 Homebrew,也可以直接安装:

brew install android-platform-tools

这样就无需手动管理路径了。

3. 手机端设置:开启调试权限

为了让电脑能控制手机,必须在设备上启用开发者选项和 USB 调试功能。

3.1 开启开发者模式

  1. 进入手机“设置”应用。
  2. 找到“关于手机”。
  3. 连续点击“版本号”7 次,直到弹出提示:“您已进入开发者模式”。

3.2 启用 USB 调试

  1. 返回“设置”主菜单,进入“开发者选项”。
  2. 找到“USB 调试”并勾选启用。
  3. 当你首次通过 USB 连接电脑时,手机可能会弹出“允许 USB 调试吗?”的对话框,请点击“允许”。

3.3 安装 ADB Keyboard(关键!)

这是很多人忽略但极其重要的一步:让 AI 能够输入文字

默认情况下,ADB 只能模拟点击和滑动,无法输入中文或复杂字符。为此,项目推荐使用 ADB Keyboard 这个开源输入法。

操作步骤如下:

  1. 访问 GitHub 项目页面下载最新版ADBKeyboard.apk
  2. 将 APK 文件传到手机并安装。
  3. 进入“设置”→“语言与输入法”→“当前输入法”,选择“ADB Keyboard”作为默认输入法。

完成后,AI 就可以通过 ADB 发送文本指令,实现搜索、填写表单等操作。

4. 部署本地控制端:克隆与安装 Open-AutoGLM

现在我们回到本地电脑,部署 Open-AutoGLM 的控制端代码。

4.1 克隆项目仓库

打开终端或命令行工具,执行以下命令:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

这个仓库包含了所有与手机交互的核心逻辑,包括屏幕抓取、动作规划、ADB 控制等模块。

4.2 安装 Python 依赖

建议使用虚拟环境来隔离依赖,避免与其他项目冲突。

# 创建虚拟环境(可选但推荐) python -m venv venv source venv/bin/activate # macOS/Linux # 或在 Windows 上: # venv\Scripts\activate

然后安装所需依赖:

pip install -r requirements.txt pip install -e .

其中-e .表示以“可编辑模式”安装当前项目,便于后续修改调试。

注意:部分依赖可能因平台差异出现安装失败,尤其是opencv-pythonpyautogui。若遇问题,可尝试升级 pip 并重试:

pip install --upgrade pip

5. 连接设备:USB 与 WiFi 两种方式

设备准备就绪后,接下来就是建立连接。Open-AutoGLM 支持两种连接方式:USB 和 WiFi(远程 ADB),各有优劣。

5.1 使用 USB 连接(稳定首选)

  1. 用数据线将手机连接电脑。
  2. 手机弹出“允许调试”提示时,点击“允许”。
  3. 在终端运行:
adb devices

正常输出应类似:

List of devices attached ABCDEF1234567890 device

只要看到设备 ID 后面显示device,说明连接成功。

5.2 使用 WiFi 远程连接(免线自由)

如果你希望摆脱数据线束缚,可以使用 ADB over TCP/IP 实现无线控制。

前提:需先通过 USB 成功连接一次。

步骤如下:

  1. 先用 USB 连接设备,确保adb devices能识别。
  2. 在终端执行:
adb tcpip 5555

这条命令会让设备监听 5555 端口的 TCP 连接。

  1. 断开 USB 数据线。
  2. 查看手机 WiFi IP 地址(通常在“设置 → 关于手机 → 状态信息”里)。
  3. 使用 IP 连接设备:
adb connect 192.168.x.x:5555

替换192.168.x.x为你的手机实际 IP。

连接成功后,再次运行adb devices,你会看到设备出现在列表中,连接类型为 TCP。

小技巧:你可以编写脚本自动获取设备 IP 并连接,提升效率。

6. 启动 AI 代理:执行第一条自然语言指令

终于到了最激动人心的环节——让 AI 接管手机!

6.1 命令行方式启动

Open-AutoGLM项目根目录下运行:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://<云服务器IP>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:通过adb devices获取的设备唯一标识,如果是 WiFi 连接,则填IP:5555格式。
  • --base-url:指向你部署的 vLLM 或其他推理服务的地址,格式为http://公网IP:端口/v1
  • --model:指定使用的模型名称,需与服务端注册的一致。
  • 最后的字符串:你要下达的自然语言指令,越清晰越好。

执行后,你会看到程序开始工作:

  1. 抓取当前手机屏幕截图;
  2. 将图像和指令一起发送给云端模型;
  3. 模型返回下一步操作(如“点击搜索框”);
  4. ADB 执行该操作;
  5. 循环直至任务完成。

整个过程就像一个“AI 观察员”在看着手机,一边思考一边动手。

6.2 使用 Python API 编程调用

除了命令行,你还可以在自己的项目中集成 Phone Agent 的能力。

以下是一个完整的远程连接示例:

from phone_agent.adb import ADBConnection, list_devices # 创建 ADB 连接管理器 conn = ADBConnection() # 连接远程设备(WiFi) success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # (可选)为 USB 设备开启 TCP/IP 模式 success, message = conn.enable_tcpip(5555) if success: ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

这段代码展示了如何动态管理设备连接,非常适合嵌入到自动化测试、远程运维等系统中。

7. 常见问题与排查建议

尽管流程看似简单,但在实际部署中仍可能遇到各种问题。以下是高频故障及解决方案。

7.1 ADB 无法识别设备

  • 现象adb devices显示unauthorized或空白。
  • 原因:未授权调试或驱动问题。
  • 解决
    • 检查手机是否弹出“允许调试”对话框,务必点击“允许”。
    • Windows 用户可尝试安装手机厂商官方驱动(如华为 HiSuite、小米助手)。
    • 重启 ADB 服务:adb kill-server && adb start-server

7.2 连接被拒绝或超时

  • 现象adb connect失败,提示“connection refused”。
  • 原因:防火墙阻挡、端口未开放、设备未开启 tcpip。
  • 解决
    • 确保设备已执行adb tcpip 5555
    • 检查手机和电脑是否在同一局域网。
    • 关闭电脑防火墙或添加例外规则。
    • 使用 USB 先连通再切换为无线模式。

7.3 模型无响应或输出乱码

  • 现象:AI 不执行动作,或返回无法理解的操作指令。
  • 原因:服务端模型未正确加载,或参数不匹配。
  • 解决
    • 确认 vLLM 服务已启动且日志无报错。
    • 检查--base-url是否正确指向/v1接口。
    • 确保max-model-len设置足够大(建议 ≥ 8192),否则长上下文会被截断。
    • 查看模型是否支持多模态输入(必须能处理图像)。

7.4 输入中文失败

  • 现象:搜索框输入英文正常,但中文变成拼音或乱码。
  • 原因:ADB Keyboard 未设为默认输入法,或编码问题。
  • 解决
    • 再次确认 ADB Keyboard 已激活。
    • 在手机设置中将其设为唯一启用的输入法。
    • 尝试重启 ADB Keyboard 应用。

8. 总结

通过这篇教程,你应该已经完成了 Open-AutoGLM 的完整部署流程:从环境准备、ADB 配置、手机调试设置,到克隆代码、安装依赖、连接设备,最终成功下发了一条自然语言指令并让 AI 自动执行。

这套系统的核心价值在于:将大模型的认知能力与真实世界的操作能力结合起来。它不只是“聊天”,而是“做事”。无论是批量操作多个账号、自动化测试 App 功能,还是辅助视障用户使用手机,都有广阔的应用前景。

当然,目前它还在早期阶段,对复杂界面的理解、多步容错能力仍有提升空间。但只要你掌握了这套部署方法,就可以在此基础上做二次开发,比如接入更强的 VLM 模型、增加动作记忆机制、或是构建可视化操作面板。

未来,每个人或许都会有一个“数字分身”,替我们在手机上完成重复劳动。而现在,你已经迈出了第一步。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 7:36:51

YOLO11怎么用?从项目目录到训练脚本详细说明

YOLO11怎么用&#xff1f;从项目目录到训练脚本详细说明 YOLO11 是目前在目标检测领域备受关注的一个高效算法版本&#xff0c;它延续了YOLO系列“又快又准”的核心优势&#xff0c;并在模型结构、推理速度和小目标检测能力上做了进一步优化。相比前代版本&#xff0c;YOLO11 …

作者头像 李华
网站建设 2026/4/18 6:42:19

麦橘超然显存爆了怎么办?float8量化部署实战解决

麦橘超然显存爆了怎么办&#xff1f;float8量化部署实战解决 1. 麦橘超然&#xff1a;Flux 离线图像生成控制台简介 你是不是也遇到过这种情况&#xff1a;兴致勃勃想用“麦橘超然”模型画一张高质量的AI图&#xff0c;结果刚输入提示词&#xff0c;显存就直接拉满&#xff0…

作者头像 李华
网站建设 2026/4/15 16:14:55

百度网盘终极加速秘籍:告别龟速下载的免费提速方案

百度网盘终极加速秘籍&#xff1a;告别龟速下载的免费提速方案 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘下载速度慢如蜗牛而抓狂吗&#xff1f;今天我要分…

作者头像 李华
网站建设 2026/4/18 7:31:48

小米设备解锁终极教程:3步快速获取解锁令牌

小米设备解锁终极教程&#xff1a;3步快速获取解锁令牌 【免费下载链接】MiUnlockTool MiUnlockTool developed to retrieve encryptData(token) for Xiaomi devices for unlocking bootloader, It is compatible with all platforms. 项目地址: https://gitcode.com/gh_mirr…

作者头像 李华
网站建设 2026/3/26 22:03:38

shadPS4键盘鼠标终极配置指南:告别手柄束缚的完美方案

shadPS4键盘鼠标终极配置指南&#xff1a;告别手柄束缚的完美方案 【免费下载链接】shadPS4 shadPS4 是一个PlayStation 4 模拟器&#xff0c;支持 Windows、Linux 和 macOS 系统&#xff0c;用 C 编写。还提供了调试文档、键盘鼠标映射说明等&#xff0c;方便用户使用。源项目…

作者头像 李华