news 2026/4/18 7:54:10

手把手教你部署Open-AutoGLM,轻松打造会干活的AI助理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手把手教你部署Open-AutoGLM,轻松打造会干活的AI助理

手把手教你部署Open-AutoGLM,轻松打造会干活的AI助理

你有没有想过,有一天只要说一句“帮我点个外卖”,手机就能自动打开App、选餐厅、下单支付,全程不需要你动手?这听起来像科幻片的场景,现在通过Open-AutoGLM已经可以实现了。

这是一个由智谱AI开源的手机端AI Agent框架,名字叫AutoGLM-Phone。它不只是会聊天的AI,而是一个真正能“动手做事”的智能助理。你只需要用自然语言下指令,比如“打开小红书搜美食”、“给老板发条微信说我在路上了”,它就能看懂屏幕、理解界面、自动点击滑动,把整套操作完成。

更厉害的是——它是开源的,你可以自己部署,完全掌控数据安全,还能根据需求定制功能。本文就是一份从零开始的实战部署指南,哪怕你是第一次接触ADB、AI模型或者自动化工具,也能一步步跟着操作,亲手让AI接管你的手机。

准备好了吗?我们这就开始。

1. Open-AutoGLM 是什么?它为什么特别?

在讲怎么用之前,先搞清楚:这到底是个什么东西?

简单来说,Open-AutoGLM 是一个基于视觉语言模型(VLM)的手机自动化智能体(Agent)框架。它的核心能力有三个:

  • 看得懂屏幕:通过截图+多模态模型分析,理解当前手机界面有哪些按钮、文字、输入框。
  • 听得懂人话:接收你的自然语言指令,比如“查一下明天北京到上海的高铁票”。
  • 做得了事情:结合 ADB(Android Debug Bridge),自动执行点击、滑动、输入等操作,真正“动手”。

和传统意义上的“脚本自动化”不同,Open-AutoGLM 不需要你提前写死每一步操作。它具备自主规划能力,能根据当前界面动态决定下一步该做什么,就像一个真人用户在操作手机。

举个例子:

指令:“打开抖音,搜索ID为 dycwo11nt61d 的博主并关注他。”

AI会这样思考和行动:

  1. 当前是不是在桌面?不是就先返回桌面。
  2. 找“抖音”图标,点击进入。
  3. 进入后找搜索框,点击并调用ADB键盘输入账号名。
  4. 点击搜索结果中的目标用户。
  5. 判断是否已关注,如果没有,点击“关注”按钮。

整个过程无需人工干预,也不依赖固定坐标或控件ID,靠的是对界面语义的理解。

而且系统还内置了敏感操作确认机制,比如涉及支付、删除等动作时,会暂停并提示你确认,避免误操作。同时支持验证码、登录弹窗等人机交互场景下的“人工接管”,非常贴心。

一句话总结:

它让大模型真正接入了移动设备的操作层,实现了“语言即指令,AI即助手”的闭环体验。


2. 部署前的准备工作

要让这个AI助理跑起来,我们需要准备三样东西:

  1. 一台安卓设备(真机或模拟器)
  2. 本地电脑环境(运行控制端代码)
  3. 一个可用的AutoGLM模型服务(云端或本地)

下面我们逐一配置。

2.1 硬件与系统要求

项目要求
操作系统Windows / macOS(推荐)
Python 版本3.10 或更高版本
安卓设备Android 7.0+ 或 HarmonyOS 设备
ADB 工具必须安装并配置好环境变量
网络连接手机与电脑在同一局域网(WiFi方式)或USB直连

建议优先使用Windows + 真机macOS + Android Studio 模拟器组合,稳定性最好。

2.2 安装Python环境

如果你还没装Python,请去官网下载 python.org 最新版(3.10~3.12均可)。

安装时务必勾选“Add Python to PATH”,否则后续命令行无法识别python命令。

验证是否安装成功:

python --version

输出类似Python 3.12.7即表示正常。

2.3 下载并配置ADB工具

ADB(Android Debug Bridge)是连接和控制安卓设备的核心工具。

下载地址:

前往 Android开发者官网 下载 platform-tools 包。

解压后得到adb.exe(Windows)或可执行文件(macOS/Linux)。

配置环境变量:

Windows:

  1. 右键“此电脑” → 属性 → 高级系统设置 → 环境变量
  2. 在“系统变量”中找到Path,点击编辑 → 新建
  3. 添加你解压后的 platform-tools 文件夹路径(如C:\tools\platform-tools
  4. 保存后打开新终端,输入:
    adb version
    如果显示版本号,说明配置成功。

macOS:在终端中执行:

export PATH=${PATH}:~/Downloads/platform-tools

(假设你解压到了 Downloads 目录)

为了永久生效,可以把这行加到.zshrc.bash_profile中。


3. 手机端设置:开启调试权限

无论用真机还是模拟器,都必须开启开发者选项和USB调试。

3.1 开启开发者模式

进入手机「设置」→「关于手机」→ 连续点击“版本号”7次以上,直到提示“您已进入开发者模式”。

3.2 启用USB调试

返回设置主菜单 →「开发者选项」→ 打开「USB调试」开关。

部分手机还需要开启「USB安装」、「USB调试(安全设置)」等选项,请根据提示操作。

3.3 安装ADB Keyboard(关键!)

这是实现文本输入的关键组件。

  1. 下载 ADB Keyboard.apk(GitHub开源项目)
  2. 将APK文件拖入模拟器窗口,或通过浏览器在手机上下载安装
  3. 安装完成后,进入「设置」→「语言与输入法」→「当前输入法」→ 切换为ADB Keyboard

这样AI才能通过命令向输入框发送文字,而不是只能点击。


4. 部署控制端代码(Open-AutoGLM)

现在回到本地电脑,我们要把核心控制程序部署下来。

4.1 克隆项目仓库

打开终端,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装Python依赖

项目依赖较多,包括 fastapi、pydantic、opencv-python、uiautomator2 等。

一键安装:

pip install -r requirements.txt

然后以可编辑模式安装项目本身:

pip install -e .

这一步的作用是让你修改代码后无需重新打包即可生效,适合开发调试。


5. 连接设备:USB or WiFi?

有两种方式让电脑控制手机:USB线缆 和 WiFi无线。

5.1 USB连接(推荐新手)

  1. 用数据线将手机连上电脑
  2. 手机弹出“允许USB调试?”对话框时,点击“允许”
  3. 在终端输入:
    adb devices
    正常情况下会列出设备ID,状态为device

如果显示unauthorized,说明未授权,请重新插拔并确认授权弹窗。

5.2 WiFi远程连接(适合长期使用)

优点是不用插线,支持远程控制。

前提:手机和电脑在同一WiFi网络下。

步骤如下:

# 第一步:先用USB连接,启动ADB TCP服务 adb tcpip 5555 # 第二步:断开USB,用IP连接 adb connect 192.168.x.x:5555

其中192.168.x.x是你手机的局域网IP(可在设置→WLAN中查看)。

连接成功后,再运行adb devices,应该能看到带IP地址的设备列表。

之后每次开机只需执行一次adb connect即可。


6. 启动AI代理:让它开始干活

一切准备就绪,终于到了最激动人心的时刻——让AI接管手机!

Open-AutoGLM 支持两种运行方式:命令行直接调用Python API集成

6.1 使用命令行快速测试

在项目根目录下运行:

python main.py \ --device-id <你的设备ID或IP:5555> \ --base-url http://<云服务器IP>:<映射端口>/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

参数说明
--device-id通过adb devices获取的设备标识
--base-url模型服务的API地址(vLLM或BigModel)
--model模型名称,官方提供autoglm-phone-9b
最后的字符串你要下达的自然语言指令
示例(使用智谱BigModel云服务):
python main.py \ --device-id emulator-5554 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_actual_api_key_here" \ "打开美团,搜索附近的火锅店"

记得把your_actual_api_key_here替换成你在 bigmodel.cn 注册后生成的API Key。

运行后你会看到AI开始截图、分析界面、生成操作步骤,并在手机上自动执行。

6.2 使用Python API进行高级控制

如果你想把AI助理集成到自己的应用中,可以用Python API方式调用。

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备IP(用于WiFi连接) ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

这种方式更适合做批量任务、定时自动化、企业级集成等场景。


7. 常见问题与排查建议

部署过程中可能会遇到一些问题,以下是高频故障及解决方案:

7.1 ADB连接失败

  • 现象adb devices显示offline或无设备
  • 解决方法
    • 重启ADB服务:adb kill-server && adb start-server
    • 重新插拔USB线,确认授权弹窗已允许
    • 检查手机是否开启了“仅充电”模式,改为“文件传输”或“MTP”模式

7.2 模型无响应或乱码

  • 现象:AI一直思考但不执行操作,或输出乱码
  • 可能原因
    • vLLM服务未正确启动
    • max_model_len设置过小导致上下文截断
    • 显存不足导致推理失败
  • 建议
    • 检查GPU显存是否足够(至少16GB用于9B模型)
    • 调整启动参数中的--max-model-len 8192
    • 查看服务端日志是否有OOM错误

7.3 输入中文失败

  • 现象:搜索框无法输入汉字
  • 原因:ADB Keyboard未设为默认输入法
  • 解决
    • 进入手机设置 → 语言与输入法 → 默认键盘 → 选择 ADB Keyboard
    • 测试命令:adb shell input text "hello"是否能在输入框显示

7.4 防火墙阻止连接

  • 现象:WiFi连接时报“connection refused”
  • 解决
    • 检查云服务器防火墙是否放行了对应端口(如8800)
    • 本地路由器是否限制了ADB端口
    • 尝试改用USB连接排除网络问题

8. 总结:你的AI助理已经上线

恭喜你!经过以上步骤,你应该已经成功部署了 Open-AutoGLM,并亲眼见证了AI如何听懂一句话,然后自己动手完成一连串复杂的手机操作。

回顾一下我们走过的路:

  1. 理解了 Open-AutoGLM 的核心价值:让AI不仅能说,还能做
  2. 准备好了 Python、ADB、手机调试环境
  3. 成功连接设备(USB/WiFi)
  4. 通过命令行或API启动AI代理,执行真实任务
  5. 掌握了常见问题的排查技巧

这套系统不仅适用于个人效率提升,比如自动打卡、查信息、回消息,也完全可以扩展为企业级自动化工具,比如客服机器人自动演示产品、测试团队批量验证App流程。

更重要的是,它是开源的。这意味着你可以:

  • 查看每一行代码,了解AI是如何决策的
  • 修改行为逻辑,定制专属工作流
  • 本地部署模型,保障数据隐私
  • 贡献代码,参与社区共建

未来,随着多模态模型能力不断增强,这类“能看会动”的AI助理将会越来越普及。而你现在掌握的,正是通往下一代人机交互方式的第一把钥匙。

别忘了,技术的意义从来不是取代人类,而是让我们从重复劳动中解放出来,去做更有创造力的事。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 0:30:13

短视频配音太难?IndexTTS 2.0帮你精准踩点生成

短视频配音太难&#xff1f;IndexTTS 2.0帮你精准踩点生成 你有没有这样的经历&#xff1a;花了一整天剪出一条节奏感拉满的短视频&#xff0c;背景音乐卡点到位&#xff0c;画面切换丝滑&#xff0c;结果一配上旁白——语速慢了半拍&#xff0c;情绪完全不对味&#xff0c;整…

作者头像 李华
网站建设 2026/4/17 7:36:13

DeepSeek-Coder-V2:提升编程效率的终极AI代码助手

DeepSeek-Coder-V2&#xff1a;提升编程效率的终极AI代码助手 【免费下载链接】DeepSeek-Coder-V2 项目地址: https://gitcode.com/GitHub_Trending/de/DeepSeek-Coder-V2 还在为写代码时频繁卡壳而烦恼吗&#xff1f;是否经常在调试复杂bug时感到力不从心&#xff1f;…

作者头像 李华
网站建设 2026/4/18 0:25:29

NomNom存档编辑器:告别存档焦虑症的终极解决方案

NomNom存档编辑器&#xff1a;告别存档焦虑症的终极解决方案 【免费下载链接】NomNom NomNom is the most complete savegame editor for NMS but also shows additional information around the data youre about to change. You can also easily look up each item individua…

作者头像 李华
网站建设 2026/4/18 0:22:20

元宇宙场景渲染帧率压测:技术挑战与测试实践指南

在元宇宙应用的快速发展中&#xff0c;渲染帧率压力测试&#xff08;Frame Rate Pressure Testing&#xff09;已成为保障体验质量的核心环节。其核心目标是通过模拟高负载场景&#xff0c;系统性评估虚拟环境的渲染性能&#xff0c;从而预防潜在的体验风险。本文将从概念出发&…

作者头像 李华
网站建设 2026/4/18 0:26:43

Glyph性能瓶颈在哪?GPU算力分配优化实战

Glyph性能瓶颈在哪&#xff1f;GPU算力分配优化实战 1. Glyph是什么&#xff1a;视觉推理的新思路 你有没有遇到过这样的问题——想让大模型读一篇上万字的报告&#xff0c;结果还没开始分析&#xff0c;系统就提示“上下文超限”&#xff1f;传统语言模型对输入长度有严格限…

作者头像 李华