Open-AutoGLM如何实现跨平台控制？USB/WiFi双模式部署教程-程序员充电站

Open-AutoGLM如何实现跨平台控制？USB/WiFi双模式部署教程

1. Open-AutoGLM：智谱开源的手机端AI Agent框架

你有没有想过，让AI直接帮你操作手机？不是简单的语音助手，而是真正“看得懂”屏幕、“想得清楚”下一步、“动得了手”完成整套流程的智能体。这就是Open-AutoGLM—— 智谱AI推出的开源手机端AI Agent框架。

它不是一个只能回答问题的聊天机器人，而是一个能“动手”的多模态智能助理。通过结合视觉语言模型（VLM）和安卓调试桥（ADB），Open-AutoGLM 能够理解手机屏幕上显示的内容，解析用户的自然语言指令，并自动规划出一系列点击、滑动、输入等操作，最终替你完成任务。比如你说：“打开小红书搜美食”，它就能自己启动App、进入搜索框、输入关键词、浏览结果，整个过程无需你动手。

这个项目的核心是AutoGLM-Phone，一个基于视觉语言模型构建的手机智能助理系统。它不仅能“看”屏幕，还能“思考”下一步该做什么，再通过 ADB 发送指令来“执行”。这种“感知-决策-行动”的闭环，正是AI Agent的核心能力。

更进一步，Phone Agent在此基础上做了工程化封装，提供了更稳定的远程控制能力、敏感操作确认机制，以及人工接管入口。这意味着你在使用时既安全又灵活——遇到登录或验证码，可以暂停让真人处理；同时支持WiFi连接，实现真正的远程操控。

本文将带你从零开始，完整部署 Open-AutoGLM 的控制端，在本地电脑上通过 USB 或 WiFi 连接真实安卓设备，调用云端运行的 AI 模型，实现跨平台的智能控制。无论你是开发者、自动化爱好者，还是对AI Agent感兴趣的技术探索者，都能快速上手。

2. 硬件与环境准备

在开始之前，先确保你的开发环境已经准备好。以下是最低配置要求：

操作系统：Windows 或 macOS（Linux也可行，但本文以Win/Mac为主）
Python版本：建议使用 Python 3.10 或更高版本
安卓设备：Android 7.0 及以上系统的手机或模拟器
ADB工具：Android Debug Bridge，用于与设备通信

2.1 安装并配置 ADB

ADB 是连接电脑与安卓设备的关键工具。你需要先下载 Android SDK Platform Tools 并将其加入系统路径。

Windows 用户配置步骤：

前往 Android 开发者官网下载platform-tools压缩包。
解压到任意目录，例如C:\platform-tools。
按下Win + R，输入sysdm.cpl，打开“系统属性”。
点击“高级” → “环境变量”。
在“系统变量”中找到Path，点击“编辑” → “新建”，添加刚才解压的路径（如C:\platform-tools）。
打开命令提示符（CMD），输入以下命令验证是否成功：

adb version

如果返回类似Android Debug Bridge version X.X.X，说明安装成功。

macOS 用户配置方法：

macOS 用户可以直接在终端中临时添加路径，或写入 shell 配置文件永久生效。

假设你把 platform-tools 解压到了~/Downloads/platform-tools，执行以下命令：

export PATH=${PATH}:~/Downloads/platform-tools

为了永久生效，你可以将这行代码写入.zshrc或.bash_profile：

echo 'export PATH=${PATH}:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

再次运行adb version验证即可。

3. 手机端设置：开启调试权限

为了让电脑能够控制手机，必须在手机上启用开发者选项和USB调试功能。

3.1 开启开发者模式

打开手机“设置”应用。
进入“关于手机”。
找到“版本号”或“内部版本号”，连续点击7次。
屏幕会提示“您已进入开发者模式”。

3.2 启用 USB 调试

返回设置主界面，进入“系统” → “开发者选项”。
找到“USB调试”并勾选启用。
当你首次通过USB连接电脑时，手机会弹出授权提示，选择“允许”。

注意：不同品牌手机的菜单名称可能略有差异，请根据实际情况查找。

3.3 安装 ADB Keyboard（推荐）

默认情况下，AI无法向输入框发送文字。为了解决这个问题，建议安装ADB Keyboard，这是一个专为 ADB 设计的虚拟键盘。

前往 GitHub 下载 ADBKeyboard.apk。
将APK文件传到手机并安装。
进入“设置” → “语言与输入法” → “当前输入法”，切换为ADB Keyboard。

这样，AI就可以通过 ADB 命令直接输入文本内容了。

4. 部署 Open-AutoGLM 控制端

现在我们已经在本地电脑和手机之间建立了基础通信能力，接下来部署 Open-AutoGLM 的控制代码。

4.1 克隆项目仓库

打开终端或命令行工具，执行以下命令：

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装依赖库

项目依赖多个Python库，包括 PyTorch、Transformers、Pillow 等。使用 pip 安装：

pip install -r requirements.txt pip install -e .

其中-e .表示以可编辑模式安装当前项目，便于后续调试。

如果你使用的是 M1/M2 Mac，部分依赖可能需要额外处理，请参考官方文档中的适配说明。

5. 设备连接方式：USB vs WiFi

Open-AutoGLM 支持两种设备连接方式：USB有线连接和WiFi无线连接。前者稳定可靠，适合调试；后者灵活自由，适合远程控制。

5.1 USB 连接方式

这是最简单直接的方式。

使用数据线将手机连接到电脑。
手机弹出“允许USB调试？”对话框时，点击“允许”。
在终端运行：

adb devices

你应该看到输出类似：

List of devices attached ABCDEF1234567890 device

只要状态是device，就表示连接成功。

5.2 WiFi 远程连接方式

如果你希望摆脱数据线束缚，可以通过WiFi进行远程控制。

注意：首次启用WiFi ADB必须先通过USB连接。

步骤如下：

先用USB连接设备，并确保adb devices显示正常。
在终端执行：

adb tcpip 5555

这条命令会让设备在5555端口监听TCP/IP连接。 3. 断开USB线。 4. 获取手机IP地址（可在“设置”→“WLAN”中查看，如192.168.1.100）。 5. 使用以下命令连接：

adb connect 192.168.1.100:5555

再次运行adb devices，你会看到：

List of devices attached 192.168.1.100:5555 device

连接成功！

小贴士：某些厂商（如华为、小米）可能会限制远程ADB，需在开发者选项中手动开启“无线调试”或“网络ADB”。

6. 启动 AI 代理：让AI接管手机

所有准备工作完成后，终于可以启动AI代理，让它替你操作手机了。

6.1 命令行方式运行任务

在Open-AutoGLM根目录下，运行主程序：

python main.py \ --device-id <你的设备ID或IP:5555> \ --base-url http://<云服务器IP>:<映射端口>/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数说明：

--device-id：来自adb devices的设备标识，如果是WiFi连接，则填写IP:5555。
--base-url：指向你部署在云服务器上的 vLLM 服务地址，格式为http://公网IP:端口/v1。
--model：指定使用的模型名称，目前支持autoglm-phone-9b。
最后的字符串：你要下达的自然语言指令。

例如：

python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://47.98.123.45:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书，搜索‘周末探店’，点赞前三条笔记"

运行后，你会看到AI逐步截图、分析界面、生成动作指令，并通过ADB执行点击、滑动等操作。整个过程就像有人在替你操作手机。

6.2 使用 Python API 实现远程控制

除了命令行，你也可以在自己的脚本中集成 Open-AutoGLM 的控制能力。

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 在 USB 设备上启用 TCP/IP success, message = conn.enable_tcpip(5555) if success: ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

这段代码展示了如何：

动态连接设备
查询设备信息
获取IP地址
管理连接生命周期

你可以将其嵌入到Web后台、自动化平台或CI/CD流程中，打造个性化的AI控制中心。

7. 常见问题与排查建议

尽管部署流程清晰，但在实际操作中仍可能出现一些问题。以下是常见故障及解决方案。

7.1 ADB 连接失败

现象：adb devices显示unauthorized或无设备。

解决方法：

检查手机是否弹出“允许USB调试”对话框，务必点击“允许”。
更换数据线或USB接口，有些线仅支持充电。
重启 ADB 服务：
```
adb kill-server adb start-server
```

7.2 WiFi 连接被拒绝

现象：adb connect返回failed to connect。

原因与对策：

手机与电脑不在同一局域网 → 确保两者连接同一个WiFi。
防火墙阻止了5555端口 → 关闭防火墙或放行该端口。
厂商限制 → 尝试在开发者选项中开启“无线调试”。
设备未正确进入tcpip模式 → 重新执行adb tcpip 5555。

7.3 模型无响应或乱码

现象：AI长时间不执行动作，或输出乱码指令。

可能原因：

云端 vLLM 服务未正确启动。
--base-url地址错误或端口未映射。
模型参数不匹配，特别是max-model-len设置过小。

检查清单：

确认云服务器上 vLLM 已启动且监听正确端口。
使用curl测试API连通性：
```
curl http://<server-ip>:8800/v1/models
```
应返回模型信息。
查看日志是否有OOM（显存不足）报错，必要时降低max-model-len。

7.4 输入中文失败

现象：AI尝试输入文字但无反应。

原因：未正确设置 ADB Keyboard 为默认输入法。

解决方法：

进入手机“语言与输入法”设置。
将默认输入法切换为ADB Keyboard。
可通过以下命令测试输入：
```
adb shell input text "HelloWorld"
```

8. 总结

Open-AutoGLM 是一个极具潜力的开源项目，它将视觉语言模型的能力延伸到了真实的移动设备操作层面。通过 ADB + VLM 的组合，实现了从“理解意图”到“执行动作”的完整闭环，真正迈出了AI Agent实用化的一步。

本文详细介绍了如何在本地电脑部署 Open-AutoGLM 控制端，通过 USB 或 WiFi 连接真实安卓设备，并调用云端模型完成自动化任务。无论是日常高频操作（如批量点赞、信息采集），还是复杂流程（如自动注册、表单填写），都可以交给AI来完成。

更重要的是，这套方案完全开放、可定制、可扩展。你可以：

替换更强的视觉模型提升识别精度
接入企业内部系统实现办公自动化
结合RPA工具打造跨平台智能体
构建远程运维监控平台

未来，随着多模态模型能力不断增强，这类“能看会动”的AI Agent 将在智能家居、远程协助、无障碍交互等领域发挥更大价值。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Open-AutoGLM如何实现跨平台控制？USB/WiFi双模式部署教程