从部署到实战：Open-AutoGLM完整使用手册-程序员充电站

从部署到实战：Open-AutoGLM完整使用手册

Open-AutoGLM不是又一个“能跑起来就行”的AI玩具。它是一套真正能接管你手机的智能体框架——当你对它说“打开小红书搜美食”，它会自己截图、看懂界面、思考下一步该点哪里、调出键盘输入文字、再点击搜索按钮，整个过程无需你碰一下屏幕。这不是科幻，是今天就能在你电脑上跑通的现实。本文不讲虚的，只聚焦一件事：让你从零开始，亲手把这套手机AI助理搭起来、连上真机、并让它完成第一个真实任务。全程不跳步、不省略关键细节，哪怕你没写过一行Python，也能照着操作成功。

1. 先搞清楚：它到底是什么，又能做什么

Open-AutoGLM是智谱AI开源的Phone Agent实现，核心是一个叫AutoGLM-Phone-9B的多模态模型。它不像普通大模型只能“聊天”，而是具备三项硬能力：看得见（理解手机屏幕截图）、想得清（规划操作步骤）、动得了（通过ADB命令控制手机）。这三者组合起来，就形成了一个闭环：观察→思考→执行。

它能做的不是“生成一段文案”或“画一张图”，而是在真实安卓设备上完成端到端的操作任务。比如：

“打开美团，搜索附近评分4.8以上的火锅店，选第二家，下单一份毛肚锅底”
“进微信，找到‘技术群’，把刚收到的PDF文件转发给张工”
“打开抖音，关注抖音号为dycwo11nt61d的博主，然后点赞他最新一条视频”

这些指令背后，是模型在实时分析你的手机画面，识别图标、文字、按钮位置，再决定是点击、滑动、长按还是输入文字。它甚至知道什么时候该停下来等你确认——比如要支付时，它不会直接点“确认付款”，而是弹出提示：“即将支付28.5元，是否继续？”

这种能力，让Open-AutoGLM跳出了传统AI工具的范畴，成为你手机里的“数字分身”。它不替代你思考，但能把你脑中的指令，变成屏幕上实实在在的动作。

1.1 它和普通AI应用有啥本质区别

很多人第一次接触时会疑惑：这不就是个自动化脚本吗？其实差别很大：

对比维度	普通UI自动化脚本（如Appium）	Open-AutoGLM
依赖前提	必须提前知道APP包名、Activity名、控件ID	只需自然语言指令，自动识别当前界面元素
适应性	界面一改就失效，维护成本高	能理解视觉内容，应对APP版本更新、UI微调
操作逻辑	按固定步骤执行，无法动态调整	基于当前屏幕状态实时规划，支持条件分支
学习门槛	需要掌握编程、Android开发知识	用户只需会说人话，开发者只需调用API

简单说，脚本是“死”的，它按剧本走；Open-AutoGLM是“活”的，它边看边想边做。

2. 准备工作：硬件、软件与手机设置

别急着敲代码。这一步卡住的人最多，但只要按顺序做完，后面就顺畅了。我们分三块：你的电脑、你的手机、以及连接它们的桥梁（ADB）。

2.1 电脑环境：装好Python和ADB

你需要一台能跑Python的电脑（Windows或Mac都行），最低配置建议：16GB内存、50GB空闲硬盘。重点不是性能多强，而是环境配得稳。

Python安装（3.10+）

Windows：去python.org下载安装包，务必勾选“Add Python to PATH”，否则后续命令会报错。装完后打开CMD，输入python --version，看到Python 3.10.x就成功了。
Mac：推荐用Homebrew安装，终端里执行brew install python@3.10。如果没装Homebrew，先去官网装一个。

ADB工具安装（关键！）
ADB是安卓调试桥，没有它，你的电脑根本“摸不到”手机。

去Android开发者官网下载对应系统的platform-tools压缩包。
解压到一个简单路径，比如C:\adb（Win）或~/adb（Mac）。
配置环境变量：这是最容易出错的一步。
- Win：右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入你解压的路径（如C:\adb）。
- Mac：终端执行echo 'export PATH=$PATH:/Users/你的用户名/adb' >> ~/.zshrc，然后source ~/.zshrc。
验证：新开一个命令行窗口，输入adb version。如果显示类似Android Debug Bridge version 1.0.41，说明一切就绪。

2.2 手机设置：开启“被控制”的权限

你的手机需要主动授权，才能让电脑操控它。这个过程分两步，缺一不可。

第一步：开启开发者模式

进入手机“设置”→“关于手机”→连续点击“版本号”7次。
看到“您已处于开发者模式”提示后，返回上一级，就能看到“开发者选项”了。

第二步：开启USB调试 + 安装ADB Keyboard

进入“开发者选项”，找到并开启“USB调试”。
下载ADBKeyboard.apk（GitHub搜索或直接找项目文档链接）。
用数据线连手机和电脑，在电脑命令行执行：
```
adb install ADBKeyboard.apk
```
手机安装完成后，进入“设置”→“系统”→“语言和输入法”→“虚拟键盘”，把“ADB Keyboard”设为默认输入法。
这一步极其重要。没有它，AI想给你手机输入“美食”两个字都做不到，因为普通输入法不响应ADB指令。

2.3 连接验证：确保电脑和手机“握手成功”

现在，用USB线把手机连到电脑。手机屏幕上会弹出“允许USB调试吗？”的提示，一定要点“允许”（勾选“始终允许”，避免每次重连都问）。

然后回到电脑命令行，输入：

adb devices

正常输出应该是：

List of devices attached ABC123456789 device

那一串字母数字就是你的设备ID。如果显示unauthorized，说明手机没点“允许”；如果显示空，检查数据线、USB调试开关、或者换一个USB口试试。

3. 部署核心：下载模型、启动服务、安装客户端

Open-AutoGLM由三部分组成：云端的AI模型服务（负责“看”和“想”）、本地的控制端（负责“动”）、以及连接它们的协议（HTTP API）。我们按这个顺序来。

3.1 下载并启动AI模型服务

模型文件约18GB，国内用户强烈推荐用ModelScope镜像源，速度快很多：

git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git

国际用户可用Hugging Face：

git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B

接着安装高性能推理引擎vLLM：

pip install vllm

最后，启动模型服务。这里提供一个精简可靠的启动命令（Windows/Mac通用，已去掉冗余参数）：

python -m vllm.entrypoints.openai.api_server \ --model ./AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --port 8000 \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt '{"image":10}'

注意：如果你的显卡显存小于12GB，可能需要加--gpu-memory-utilization 0.9来限制显存占用；纯CPU运行可加--device cpu，但速度会明显变慢。

等看到Uvicorn running on http://0.0.0.0:8000，说明服务已就绪。你可以用浏览器访问http://localhost:8000/docs，看到OpenAI兼容的API文档，证明它真的在“呼吸”。

3.2 安装Open-AutoGLM控制端

这是你和AI交互的“手柄”。在电脑上执行：

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

-e .表示“开发模式安装”，意味着你修改代码后无需重新安装就能生效，对调试非常友好。

3.3 第一次运行：让AI打开你的手机“设置”

万事俱备，来个最简单的测试。在Open-AutoGLM目录下，执行：

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"

你会看到类似这样的输出：

💭 思考过程: 当前在桌面，需要打开设置应用 执行动作: {"action": "Launch", "app": "设置"}

同时，你的手机上，“设置”APP应该已经自动打开了。

如果成功，恭喜你，整个链路已经打通。如果失败，最常见的原因是：手机没连上（adb devices无输出）、模型服务没启动（http://localhost:8000/docs打不开）、或者手机屏幕是黑的（AI看不到东西，必须亮屏且解锁）。

4. 实战操作：从命令行到Python API

能打开“设置”只是起点。真正的价值在于处理复杂、多步骤的真实任务。

4.1 命令行模式：快速验证想法

命令行是最直接的方式，适合快速试错。语法很简单：

python main.py --base-url [模型地址] --model [模型名] "你的自然语言指令"

几个经过实测的实用例子：

订外卖（美团）：

python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开美团，搜索‘海底捞’，进入第一家店铺，点一份‘毛肚’，下单"

查快递（菜鸟）：

python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开菜鸟裹裹，查看我的最新一个快递的物流信息"

社交互动（微信）：

python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开微信，找到‘老板’，发送消息‘方案已发邮箱，请查收’"

你会发现，指令越具体，成功率越高。“打开微信发消息”比“帮我沟通工作”更可靠。这不是模型笨，而是它需要明确的目标来规划路径。

4.2 Python API模式：嵌入你的工作流

当你想把它集成进自己的程序，或者做批量任务时，API模式更灵活。一个最简示例：

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型服务地址 model_config = ModelConfig( base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b", ) # 创建智能体实例 agent = PhoneAgent(model_config=model_config) # 执行任务，返回结构化结果 result = agent.run("打开小红书，搜索‘北京咖啡探店’") print(f"任务状态: {result.status}") print(f"最终界面: {result.final_state}")

result对象里包含了完整的执行日志、每一步的动作、截图（如果启用了保存）、以及最终状态。你可以用它来构建自动化报告、监控任务成功率，或者作为更大系统的一个模块。

4.3 敏感操作：安全永远是第一位的

Open-AutoGLM内置了人工确认机制，这是它区别于“危险脚本”的关键设计。当任务涉及支付、删除联系人、清除数据等高风险操作时，它会暂停并等待你的明确许可。

你可以自定义确认逻辑，比如改成弹窗、发邮件通知，或者集成企业审批流：

def my_confirmation(message): print(f"\n 【安全确认】{message}") return input("输入 y 确认执行，其他键取消: ").strip().lower() == 'y' agent = PhoneAgent( model_config=model_config, confirmation_callback=my_confirmation, # 注入你的确认函数 )

这样，即使AI规划了一条完美的支付路径，它也会在最后一步停下来，等你拍板。技术可以很酷，但安全底线不能让渡。

5. 进阶技巧：提升稳定性与定制化能力

跑通是第一步，用好是关键。以下技巧能帮你把Open-AutoGLM从“能用”变成“好用”。

5.1 WiFi无线连接：摆脱数据线束缚

USB线虽然稳定，但不方便。WiFi连接让你能隔墙控制手机：

先用USB连上，执行adb tcpip 5555开启TCP/IP模式。
断开USB，确保手机和电脑在同一WiFi下。
在电脑上执行adb connect 192.168.x.x:5555（x.x.x是手机IP，可在手机WiFi设置里看到）。
再次adb devices，应显示192.168.x.x:5555 device。

之后所有命令里的--device-id参数，就可以换成这个IP地址了。注意：WiFi环境要稳定，否则容易掉线。

5.2 自定义系统提示词：让AI更懂你的领域

模型的“性格”和“专长”由系统提示词（System Prompt）决定。默认提示词是通用的，但你可以针对特定场景优化它。

编辑phone_agent/config/prompts.py，找到SYSTEM_PROMPT变量。比如，你想让它成为电商专家，可以改成：

SYSTEM_PROMPT = """ 你是一位资深的手机电商购物助手，专注于在淘宝、京东、拼多多上帮用户高效选购商品。 请严格遵守： 1. 搜索时优先使用销量和好评率排序； 2. 对比商品时，重点关注价格、运费、售后保障； 3. 下单前，务必确认优惠券已领取、满减活动已生效； 4. 如果遇到验证码或登录页，立即停止并请求人工接管。 """

改完保存，重启main.py，AI就会带着这个“新身份”去执行任务了。

5.3 环境变量配置：让部署更灵活

把配置项从命令行移到环境变量，能让部署更干净。在系统中设置：

PHONE_AGENT_BASE_URL=http://localhost:8000/v1
PHONE_AGENT_MODEL=autoglm-phone-9b
PHONE_AGENT_DEVICE_ID=ABC123456789

设置后，你就可以直接运行python main.py "打开设置"，无需再重复写那些--base-url参数了。这对写自动化脚本或Docker部署特别有用。

6. 应用场景：它能在哪些地方真正帮你省时间

理论再好，不如看它干了什么。以下是基于真实测试总结出的高频、高价值场景。

6.1 生活服务：把琐事交给AI

外卖点餐：从“打开美团”到“下单成功”，平均耗时45秒，比手动操作快2倍。AI会自动跳过广告页，直奔搜索框。
打车出行：输入“叫一辆车去首都机场”，它能自动填写目的地、选择车型、预估费用，并在司机接单后读出车牌号。
酒店预订：说“订一晚上海外滩附近、价格500以内、带免费WiFi的酒店”，它会筛选、对比、进入详情页、完成预订。

6.2 电商购物：做你的24小时买手

比价购物：指令“在淘宝、京东、拼多多上分别搜索‘AirPods Pro 2代’，找出价格最低且有官方旗舰店的”，AI会依次打开三个APP，截图比对，给出结论。
批量操作：比如“把购物车里所有未付款订单，按价格从高到低排序，然后对前三名下单”，它能精准识别购物车列表，执行排序和下单。

6.3 社交与内容：解放你的手指

朋友圈管理：指令“进入我所有好友的朋友圈，对最近24小时内发布美食照片的，统一点赞”，它能自动遍历、识别图片内容、执行点赞。
内容创作辅助：说“打开小红书，搜索‘AI绘画教程’，收藏前5篇笔记，并把标题和摘要复制到剪贴板”，它能完成搜索、浏览、收藏、提取信息一整套动作。

这些不是Demo，而是每天都在发生的、可复现的生产力提升。它的价值不在于“炫技”，而在于把那些重复、机械、耗时的手动操作，变成一句语音的事。

7. 排查指南：遇到问题，先看这几点

部署过程中，90%的问题都集中在以下三个环节。按顺序排查，能省下大量时间。

7.1 连接类问题

adb devices不显示设备：
检查手机是否开启了“USB调试”；数据线是否支持数据传输（有些充电线不行）；尝试更换USB接口或重启ADB服务（adb kill-server && adb start-server）。
WiFi连接后adb devices显示offline：
手机和电脑不在同一局域网；手机WiFi设置了代理；重启手机的“无线调试”开关。

7.2 模型类问题

启动vLLM时报错CUDA out of memory：
显存不足。降低--gpu-memory-utilization值（如0.8），或加--device cpu强制用CPU（牺牲速度保功能）。
模型服务启动后，main.py报Connection refused：
检查--base-url地址是否正确（http://localhost:8000/v1，不是/api）；确认模型服务进程还在运行（ps aux | grep vllm）。

7.3 执行类问题

AI一直“思考”但不动：
手机屏幕是否亮着？是否锁屏？AI需要看到画面才能工作。保持屏幕常亮，或在开发者选项里关闭“休眠时保持USB调试”。
中文输入失败，显示乱码：
确认ADB Keyboard已设为默认输入法；在手机“语言和输入法”设置里，把ADB Keyboard的权限全部打开（尤其“允许完全访问”）。
操作执行错误，比如点错了按钮：
当前界面太复杂，AI识别有误。此时，不要反复重试，而是用--debug参数运行（python main.py --debug ...），它会把每一步的截图和思考过程保存下来，方便你分析是哪一步理解错了。

8. 总结：你已经拥有了一个可成长的AI助手

回顾整个过程，你完成了：

环境筑基：配好了Python、ADB、手机开发者模式，这是所有智能操作的地基；
模型落地：下载了18GB的多模态模型，用vLLM把它变成了一个随时待命的API服务；
客户端贯通：安装了Open-AutoGLM，让它能听懂你的自然语言，并把指令翻译成ADB命令；
实战验证：从“打开设置”到“订外卖”，亲眼见证了AI如何在真实设备上完成端到端任务；
安全加固：理解了敏感操作确认机制，并学会了如何自定义它。

Open-AutoGLM的价值，不在于它今天能做什么，而在于它为你打开了一扇门：一扇通往“所想即所得”的人机协作之门。它不是一个封闭的黑盒，而是一个开放的平台。你可以给它换更强大的模型，可以给它写更专业的提示词，可以把它嵌入你的业务系统，甚至可以贡献代码，让它支持更多APP、更多场景。

技术终将迭代，但那种“让机器替我动手”的自由感，从今天起，已经属于你了。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

从部署到实战：Open-AutoGLM完整使用手册