从部署到实战:Open-AutoGLM完整使用手册
Open-AutoGLM不是又一个“能跑起来就行”的AI玩具。它是一套真正能接管你手机的智能体框架——当你对它说“打开小红书搜美食”,它会自己截图、看懂界面、思考下一步该点哪里、调出键盘输入文字、再点击搜索按钮,整个过程无需你碰一下屏幕。这不是科幻,是今天就能在你电脑上跑通的现实。本文不讲虚的,只聚焦一件事:让你从零开始,亲手把这套手机AI助理搭起来、连上真机、并让它完成第一个真实任务。全程不跳步、不省略关键细节,哪怕你没写过一行Python,也能照着操作成功。
1. 先搞清楚:它到底是什么,又能做什么
Open-AutoGLM是智谱AI开源的Phone Agent实现,核心是一个叫AutoGLM-Phone-9B的多模态模型。它不像普通大模型只能“聊天”,而是具备三项硬能力:看得见(理解手机屏幕截图)、想得清(规划操作步骤)、动得了(通过ADB命令控制手机)。这三者组合起来,就形成了一个闭环:观察→思考→执行。
它能做的不是“生成一段文案”或“画一张图”,而是在真实安卓设备上完成端到端的操作任务。比如:
- “打开美团,搜索附近评分4.8以上的火锅店,选第二家,下单一份毛肚锅底”
- “进微信,找到‘技术群’,把刚收到的PDF文件转发给张工”
- “打开抖音,关注抖音号为dycwo11nt61d的博主,然后点赞他最新一条视频”
这些指令背后,是模型在实时分析你的手机画面,识别图标、文字、按钮位置,再决定是点击、滑动、长按还是输入文字。它甚至知道什么时候该停下来等你确认——比如要支付时,它不会直接点“确认付款”,而是弹出提示:“即将支付28.5元,是否继续?”
这种能力,让Open-AutoGLM跳出了传统AI工具的范畴,成为你手机里的“数字分身”。它不替代你思考,但能把你脑中的指令,变成屏幕上实实在在的动作。
1.1 它和普通AI应用有啥本质区别
很多人第一次接触时会疑惑:这不就是个自动化脚本吗?其实差别很大:
| 对比维度 | 普通UI自动化脚本(如Appium) | Open-AutoGLM |
|---|---|---|
| 依赖前提 | 必须提前知道APP包名、Activity名、控件ID | 只需自然语言指令,自动识别当前界面元素 |
| 适应性 | 界面一改就失效,维护成本高 | 能理解视觉内容,应对APP版本更新、UI微调 |
| 操作逻辑 | 按固定步骤执行,无法动态调整 | 基于当前屏幕状态实时规划,支持条件分支 |
| 学习门槛 | 需要掌握编程、Android开发知识 | 用户只需会说人话,开发者只需调用API |
简单说,脚本是“死”的,它按剧本走;Open-AutoGLM是“活”的,它边看边想边做。
2. 准备工作:硬件、软件与手机设置
别急着敲代码。这一步卡住的人最多,但只要按顺序做完,后面就顺畅了。我们分三块:你的电脑、你的手机、以及连接它们的桥梁(ADB)。
2.1 电脑环境:装好Python和ADB
你需要一台能跑Python的电脑(Windows或Mac都行),最低配置建议:16GB内存、50GB空闲硬盘。重点不是性能多强,而是环境配得稳。
Python安装(3.10+)
- Windows:去python.org下载安装包,务必勾选“Add Python to PATH”,否则后续命令会报错。装完后打开CMD,输入
python --version,看到Python 3.10.x就成功了。 - Mac:推荐用Homebrew安装,终端里执行
brew install python@3.10。如果没装Homebrew,先去官网装一个。
ADB工具安装(关键!)
ADB是安卓调试桥,没有它,你的电脑根本“摸不到”手机。
- 去Android开发者官网下载对应系统的platform-tools压缩包。
- 解压到一个简单路径,比如
C:\adb(Win)或~/adb(Mac)。 - 配置环境变量:这是最容易出错的一步。
- Win:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入你解压的路径(如
C:\adb)。 - Mac:终端执行
echo 'export PATH=$PATH:/Users/你的用户名/adb' >> ~/.zshrc,然后source ~/.zshrc。
- Win:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入你解压的路径(如
- 验证:新开一个命令行窗口,输入
adb version。如果显示类似Android Debug Bridge version 1.0.41,说明一切就绪。
2.2 手机设置:开启“被控制”的权限
你的手机需要主动授权,才能让电脑操控它。这个过程分两步,缺一不可。
第一步:开启开发者模式
- 进入手机“设置”→“关于手机”→连续点击“版本号”7次。
- 看到“您已处于开发者模式”提示后,返回上一级,就能看到“开发者选项”了。
第二步:开启USB调试 + 安装ADB Keyboard
- 进入“开发者选项”,找到并开启“USB调试”。
- 下载
ADBKeyboard.apk(GitHub搜索或直接找项目文档链接)。 - 用数据线连手机和电脑,在电脑命令行执行:
adb install ADBKeyboard.apk - 手机安装完成后,进入“设置”→“系统”→“语言和输入法”→“虚拟键盘”,把“ADB Keyboard”设为默认输入法。
这一步极其重要。没有它,AI想给你手机输入“美食”两个字都做不到,因为普通输入法不响应ADB指令。
2.3 连接验证:确保电脑和手机“握手成功”
现在,用USB线把手机连到电脑。手机屏幕上会弹出“允许USB调试吗?”的提示,一定要点“允许”(勾选“始终允许”,避免每次重连都问)。
然后回到电脑命令行,输入:
adb devices正常输出应该是:
List of devices attached ABC123456789 device那一串字母数字就是你的设备ID。如果显示unauthorized,说明手机没点“允许”;如果显示空,检查数据线、USB调试开关、或者换一个USB口试试。
3. 部署核心:下载模型、启动服务、安装客户端
Open-AutoGLM由三部分组成:云端的AI模型服务(负责“看”和“想”)、本地的控制端(负责“动”)、以及连接它们的协议(HTTP API)。我们按这个顺序来。
3.1 下载并启动AI模型服务
模型文件约18GB,国内用户强烈推荐用ModelScope镜像源,速度快很多:
git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git国际用户可用Hugging Face:
git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B接着安装高性能推理引擎vLLM:
pip install vllm最后,启动模型服务。这里提供一个精简可靠的启动命令(Windows/Mac通用,已去掉冗余参数):
python -m vllm.entrypoints.openai.api_server \ --model ./AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --port 8000 \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt '{"image":10}'注意:如果你的显卡显存小于12GB,可能需要加
--gpu-memory-utilization 0.9来限制显存占用;纯CPU运行可加--device cpu,但速度会明显变慢。
等看到Uvicorn running on http://0.0.0.0:8000,说明服务已就绪。你可以用浏览器访问http://localhost:8000/docs,看到OpenAI兼容的API文档,证明它真的在“呼吸”。
3.2 安装Open-AutoGLM控制端
这是你和AI交互的“手柄”。在电脑上执行:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .-e .表示“开发模式安装”,意味着你修改代码后无需重新安装就能生效,对调试非常友好。
3.3 第一次运行:让AI打开你的手机“设置”
万事俱备,来个最简单的测试。在Open-AutoGLM目录下,执行:
python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"你会看到类似这样的输出:
💭 思考过程: 当前在桌面,需要打开设置应用 执行动作: {"action": "Launch", "app": "设置"}同时,你的手机上,“设置”APP应该已经自动打开了。
如果成功,恭喜你,整个链路已经打通。如果失败,最常见的原因是:手机没连上(adb devices无输出)、模型服务没启动(http://localhost:8000/docs打不开)、或者手机屏幕是黑的(AI看不到东西,必须亮屏且解锁)。
4. 实战操作:从命令行到Python API
能打开“设置”只是起点。真正的价值在于处理复杂、多步骤的真实任务。
4.1 命令行模式:快速验证想法
命令行是最直接的方式,适合快速试错。语法很简单:
python main.py --base-url [模型地址] --model [模型名] "你的自然语言指令"几个经过实测的实用例子:
订外卖(美团):
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开美团,搜索‘海底捞’,进入第一家店铺,点一份‘毛肚’,下单"查快递(菜鸟):
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开菜鸟裹裹,查看我的最新一个快递的物流信息"社交互动(微信):
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开微信,找到‘老板’,发送消息‘方案已发邮箱,请查收’"
你会发现,指令越具体,成功率越高。“打开微信发消息”比“帮我沟通工作”更可靠。这不是模型笨,而是它需要明确的目标来规划路径。
4.2 Python API模式:嵌入你的工作流
当你想把它集成进自己的程序,或者做批量任务时,API模式更灵活。一个最简示例:
from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型服务地址 model_config = ModelConfig( base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b", ) # 创建智能体实例 agent = PhoneAgent(model_config=model_config) # 执行任务,返回结构化结果 result = agent.run("打开小红书,搜索‘北京咖啡探店’") print(f"任务状态: {result.status}") print(f"最终界面: {result.final_state}")result对象里包含了完整的执行日志、每一步的动作、截图(如果启用了保存)、以及最终状态。你可以用它来构建自动化报告、监控任务成功率,或者作为更大系统的一个模块。
4.3 敏感操作:安全永远是第一位的
Open-AutoGLM内置了人工确认机制,这是它区别于“危险脚本”的关键设计。当任务涉及支付、删除联系人、清除数据等高风险操作时,它会暂停并等待你的明确许可。
你可以自定义确认逻辑,比如改成弹窗、发邮件通知,或者集成企业审批流:
def my_confirmation(message): print(f"\n 【安全确认】{message}") return input("输入 y 确认执行,其他键取消: ").strip().lower() == 'y' agent = PhoneAgent( model_config=model_config, confirmation_callback=my_confirmation, # 注入你的确认函数 )这样,即使AI规划了一条完美的支付路径,它也会在最后一步停下来,等你拍板。技术可以很酷,但安全底线不能让渡。
5. 进阶技巧:提升稳定性与定制化能力
跑通是第一步,用好是关键。以下技巧能帮你把Open-AutoGLM从“能用”变成“好用”。
5.1 WiFi无线连接:摆脱数据线束缚
USB线虽然稳定,但不方便。WiFi连接让你能隔墙控制手机:
- 先用USB连上,执行
adb tcpip 5555开启TCP/IP模式。 - 断开USB,确保手机和电脑在同一WiFi下。
- 在电脑上执行
adb connect 192.168.x.x:5555(x.x.x是手机IP,可在手机WiFi设置里看到)。 - 再次
adb devices,应显示192.168.x.x:5555 device。
之后所有命令里的--device-id参数,就可以换成这个IP地址了。注意:WiFi环境要稳定,否则容易掉线。
5.2 自定义系统提示词:让AI更懂你的领域
模型的“性格”和“专长”由系统提示词(System Prompt)决定。默认提示词是通用的,但你可以针对特定场景优化它。
编辑phone_agent/config/prompts.py,找到SYSTEM_PROMPT变量。比如,你想让它成为电商专家,可以改成:
SYSTEM_PROMPT = """ 你是一位资深的手机电商购物助手,专注于在淘宝、京东、拼多多上帮用户高效选购商品。 请严格遵守: 1. 搜索时优先使用销量和好评率排序; 2. 对比商品时,重点关注价格、运费、售后保障; 3. 下单前,务必确认优惠券已领取、满减活动已生效; 4. 如果遇到验证码或登录页,立即停止并请求人工接管。 """改完保存,重启main.py,AI就会带着这个“新身份”去执行任务了。
5.3 环境变量配置:让部署更灵活
把配置项从命令行移到环境变量,能让部署更干净。在系统中设置:
PHONE_AGENT_BASE_URL=http://localhost:8000/v1PHONE_AGENT_MODEL=autoglm-phone-9bPHONE_AGENT_DEVICE_ID=ABC123456789
设置后,你就可以直接运行python main.py "打开设置",无需再重复写那些--base-url参数了。这对写自动化脚本或Docker部署特别有用。
6. 应用场景:它能在哪些地方真正帮你省时间
理论再好,不如看它干了什么。以下是基于真实测试总结出的高频、高价值场景。
6.1 生活服务:把琐事交给AI
- 外卖点餐:从“打开美团”到“下单成功”,平均耗时45秒,比手动操作快2倍。AI会自动跳过广告页,直奔搜索框。
- 打车出行:输入“叫一辆车去首都机场”,它能自动填写目的地、选择车型、预估费用,并在司机接单后读出车牌号。
- 酒店预订:说“订一晚上海外滩附近、价格500以内、带免费WiFi的酒店”,它会筛选、对比、进入详情页、完成预订。
6.2 电商购物:做你的24小时买手
- 比价购物:指令“在淘宝、京东、拼多多上分别搜索‘AirPods Pro 2代’,找出价格最低且有官方旗舰店的”,AI会依次打开三个APP,截图比对,给出结论。
- 批量操作:比如“把购物车里所有未付款订单,按价格从高到低排序,然后对前三名下单”,它能精准识别购物车列表,执行排序和下单。
6.3 社交与内容:解放你的手指
- 朋友圈管理:指令“进入我所有好友的朋友圈,对最近24小时内发布美食照片的,统一点赞”,它能自动遍历、识别图片内容、执行点赞。
- 内容创作辅助:说“打开小红书,搜索‘AI绘画教程’,收藏前5篇笔记,并把标题和摘要复制到剪贴板”,它能完成搜索、浏览、收藏、提取信息一整套动作。
这些不是Demo,而是每天都在发生的、可复现的生产力提升。它的价值不在于“炫技”,而在于把那些重复、机械、耗时的手动操作,变成一句语音的事。
7. 排查指南:遇到问题,先看这几点
部署过程中,90%的问题都集中在以下三个环节。按顺序排查,能省下大量时间。
7.1 连接类问题
adb devices不显示设备:
检查手机是否开启了“USB调试”;数据线是否支持数据传输(有些充电线不行);尝试更换USB接口或重启ADB服务(adb kill-server && adb start-server)。WiFi连接后
adb devices显示offline:
手机和电脑不在同一局域网;手机WiFi设置了代理;重启手机的“无线调试”开关。
7.2 模型类问题
启动vLLM时报错
CUDA out of memory:
显存不足。降低--gpu-memory-utilization值(如0.8),或加--device cpu强制用CPU(牺牲速度保功能)。模型服务启动后,
main.py报Connection refused:
检查--base-url地址是否正确(http://localhost:8000/v1,不是/api);确认模型服务进程还在运行(ps aux | grep vllm)。
7.3 执行类问题
AI一直“思考”但不动:
手机屏幕是否亮着?是否锁屏?AI需要看到画面才能工作。保持屏幕常亮,或在开发者选项里关闭“休眠时保持USB调试”。中文输入失败,显示乱码:
确认ADB Keyboard已设为默认输入法;在手机“语言和输入法”设置里,把ADB Keyboard的权限全部打开(尤其“允许完全访问”)。操作执行错误,比如点错了按钮:
当前界面太复杂,AI识别有误。此时,不要反复重试,而是用--debug参数运行(python main.py --debug ...),它会把每一步的截图和思考过程保存下来,方便你分析是哪一步理解错了。
8. 总结:你已经拥有了一个可成长的AI助手
回顾整个过程,你完成了:
- 环境筑基:配好了Python、ADB、手机开发者模式,这是所有智能操作的地基;
- 模型落地:下载了18GB的多模态模型,用vLLM把它变成了一个随时待命的API服务;
- 客户端贯通:安装了Open-AutoGLM,让它能听懂你的自然语言,并把指令翻译成ADB命令;
- 实战验证:从“打开设置”到“订外卖”,亲眼见证了AI如何在真实设备上完成端到端任务;
- 安全加固:理解了敏感操作确认机制,并学会了如何自定义它。
Open-AutoGLM的价值,不在于它今天能做什么,而在于它为你打开了一扇门:一扇通往“所想即所得”的人机协作之门。它不是一个封闭的黑盒,而是一个开放的平台。你可以给它换更强大的模型,可以给它写更专业的提示词,可以把它嵌入你的业务系统,甚至可以贡献代码,让它支持更多APP、更多场景。
技术终将迭代,但那种“让机器替我动手”的自由感,从今天起,已经属于你了。
--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。