手机秒变智能体！Open-AutoGLM部署全流程详解-程序员充电站

手机秒变智能体！Open-AutoGLM部署全流程详解

1. 这不是科幻，是今天就能用上的手机AI助手

你有没有想过，手机能自己“看”屏幕、“想”下一步、“点”出结果？不是语音助手那种简单应答，而是真正理解界面、规划路径、执行操作的完整智能体——就像给手机装上一个会思考的手。

Open-AutoGLM 就是这样一套开源框架。它不依赖云端识别，不调用第三方API，所有视觉理解、任务拆解、动作生成都在本地完成。你只需说一句“打开小红书搜美食攻略”，它就能自动截图分析当前界面、定位搜索框、输入文字、点击搜索、滚动浏览结果——整个过程无需你碰一下屏幕。

这不是概念演示，而是已落地的工程实现：基于 AutoGLM-Phone-9B 多模态模型，结合 ADB 自动化控制，构建起“观察→思考→执行”的闭环。它不追求炫技，只解决一个真实问题：把重复性手机操作交给AI，把时间还给你。

本文不讲大道理，不堆技术术语。从你手边那台旧安卓手机开始，到第一次看到AI自动打开设置——全程可验证、每步有反馈、失败有排查。哪怕你从未配过环境，也能照着做出来。

2. 准备工作：三样东西，缺一不可

别被“AI”吓住。Open-AutoGLM 的部署门槛其实很低：一台能连电脑的安卓手机、一台普通笔记本、和一点耐心。我们只准备真正要用的东西，不装一堆用不上的工具。

2.1 你的硬件清单（越简单越好）

你手头已有的设备	为什么必须	实际建议
安卓手机（Android 7.0+）	模型需要实时截图和操作权限	旧款华为P20、小米6、三星S8都完全可用，不用换新机
Windows/macOS电脑	运行模型服务和控制端	16GB内存足够，显卡非必需（CPU也能跑，只是稍慢）
USB数据线（能传数据）	首次连接调试的稳定通道	别用充电线，插上后电脑要能识别设备

注意：iOS设备暂不支持。这不是技术限制，而是苹果系统对自动化操作的严格管控。安卓开放的调试机制，才是这件事能做成的前提。

2.2 软件安装：只装四个关键组件

我们跳过所有冗余步骤，只装真正驱动系统运转的四样：

Python 3.10+（运行基础）

Windows：去 python.org 下载安装包，务必勾选 “Add Python to PATH”
macOS：终端执行brew install python@3.10（没装Homebrew先装：/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"）
验证：命令行输入python --version，显示3.10.x或更高即成功

ADB 工具（手机与电脑的“神经”）

去 Android平台工具官网下载对应系统的压缩包
解压到一个简单路径，比如D:\adb（Windows）或~/adb（macOS）
配置环境变量（关键一步）：
- Windows：右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入你的ADB解压路径
- macOS：终端执行echo 'export PATH=$PATH:~/adb' >> ~/.zshrc && source ~/.zshrc
验证：命令行输入adb version，看到版本号即成功

ADB Keyboard（让AI能“打字”）

没有它，AI再聪明也输不了中文。这不是普通输入法，而是专为自动化设计的命令行键盘。

下载ADBKeyboard.apk（GitHub搜索或直接下载此链接）
连接手机后，在电脑命令行执行：
```
adb install ADBKeyboard.apk
```
手机设置→系统→语言和输入法→虚拟键盘→启用ADB Keyboard
再进入“默认键盘”，把它设为当前输入法

Git（代码搬运工）

Windows：下载 Git for Windows，一路下一步
macOS：终端执行brew install git
验证：git --version

现在检查：打开命令行，依次输入python --version、adb version、git --version，全部返回版本号，说明环境齐了。

3. 手机端设置：三步开启“被操控”权限

安卓的开发者模式，是让手机听懂电脑指令的钥匙。这三步必须手动操作，无法跳过，但每步都有明确提示。

3.1 开启开发者选项（5秒搞定）

手机设置 → 关于手机 → 连续点击“版本号”7次
屏幕会弹出“您现在处于开发者模式”提示（别担心，这很安全）

3.2 启用USB调试（授权信任）

返回设置 → 系统 → 开发者选项 → 找到“USB调试”并开启
第一次连接电脑时，手机屏幕会弹出“允许USB调试吗？”对话框 →务必勾选“始终允许”，再点确定

3.3 验证连接：让电脑“看见”手机

用USB线连接手机和电脑
电脑命令行执行：
```
adb devices
```
如果看到类似ABC123456789 device的输出（一串字母数字+device），说明连接成功
如果显示unauthorized，回到手机确认调试授权；如果空白，检查数据线和USB调试开关

小技巧：连接成功后，手机通知栏会显示“USB用于文件传输”。点开它，改成“USB用于传输照片（PTP）”或“仅充电”均可，不影响ADB工作。

4. 模型部署：下载、启动、验证三部曲

Open-AutoGLM 的核心是 AutoGLM-Phone-9B 模型。它约18GB，但国内用户有更快捷的获取方式。

4.1 下载模型（选一个，别都下）

国内用户强烈推荐 ModelScope 镜像（速度快10倍）：

git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git

国际用户用 Hugging Face：

git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B

下载完成后，你会得到一个AutoGLM-Phone-9B文件夹，记住它的完整路径（如D:\models\AutoGLM-Phone-9B）

4.2 安装推理引擎 vLLM（让模型跑起来）

vLLM 是专为大模型优化的推理框架，能让9B模型在消费级显卡上流畅运行：

pip install vllm

无显卡用户：同样可以运行，只是速度稍慢，加--device cpu参数即可
NVIDIA显卡用户：命令行输入nvidia-smi，能看到显卡信息即CUDA环境正常

4.3 启动模型服务（一行命令，静待成功）

进入模型文件夹所在目录，执行以下命令（根据你的系统选择）：

Windows 用户：

python -m vllm.entrypoints.openai.api_server ^ --served-model-name autoglm-phone-9b ^ --model ./AutoGLM-Phone-9B ^ --port 8000 ^ --max-model-len 25480

macOS/Linux 用户：

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model ./AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480

成功标志：看到Uvicorn running on http://0.0.0.0:8000和API server running on http://0.0.0.0:8000/v1字样，服务就启动好了。
如果卡住或报错，请先检查模型路径是否正确、磁盘空间是否充足（需预留20GB以上）。

5. 控制端安装：让AI“接管”你的手机

模型在后台跑着，现在需要一个“指挥官”告诉它：操作哪台手机、执行什么任务。

5.1 克隆并安装 Open-AutoGLM 项目

git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM pip install -r requirements.txt pip install -e .

这一步会安装所有依赖，包括phone_agent核心库。-e .表示以开发模式安装，后续改代码能立即生效。

5.2 第一次运行：用最简单的指令测试

确保模型服务（上一步）正在运行，然后在同一台电脑上，执行：

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"

你将看到什么？

终端会打印💭 思考过程:，描述AI如何分析当前桌面、定位设置图标
接着输出执行动作: {"action": "Launch", "app": "设置"}
同时，你的手机屏幕上，设置APP会自动打开！

如果手机没反应，请按顺序检查：

adb devices是否显示设备为device（不是offline或unauthorized）
模型服务终端是否有报错（如端口被占，可换--port 8001）
手机是否亮屏且未锁屏（AI无法操作黑屏或锁屏界面）

这一步成功，意味着整条链路——从指令输入、视觉理解、动作规划到设备执行——全部打通。后面所有复杂操作，都是这个流程的延伸。

6. 实战应用：从点外卖到刷抖音，一句话的事

现在，你可以把日常那些“点点点”的操作，变成一句话指令。我们不列一堆命令，只给三个最常用、最能体现能力的真实场景。

6.1 场景一：美团订餐（覆盖搜索、筛选、跳转）

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开美团，搜索附近评分4.8分以上的火锅店，按距离排序，进入第一家店铺页面"

AI实际做了什么？

截图识别桌面，找到美团图标并点击
进入APP后，识别顶部搜索框，点击并输入“火锅”
分析结果页，找到“评分”筛选项，点击并选择“4.8+”
再找“排序”按钮，选择“距离最近”
最后，定位第一个店铺卡片，点击进入详情页

6.2 场景二：微信发消息（精准触达，不点错人）

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开微信，找到置顶联系人‘妈妈’，发送文字‘我到家了，饭做好了吗？’"

关键能力：

区分“置顶联系人”和普通好友（不是靠名字匹配，而是理解UI布局）
在聊天界面准确识别输入框位置，调用 ADB Keyboard 输入中文
发送后自动退出，不残留界面

6.3 场景三：抖音关注博主（跨APP操作）

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音，搜索用户‘dycwo11nt61d’，进入主页，点击关注按钮"

难点突破：

抖音搜索结果页结构复杂，AI需准确识别用户名而非昵称
主页的“关注”按钮在不同机型位置不同，AI通过视觉定位而非固定坐标
整个流程在抖音APP内完成，不跳转到浏览器

提示：所有指令用自然语言，不必学语法。“帮我查明天北京天气”、“把相册里上周拍的猫照片发给张三”——怎么想就怎么说。

7. 进阶技巧：让AI更懂你、更安全、更省心

Open-AutoGLM 不是“玩具”，它提供了生产级的定制能力。这里分享三个最实用的进阶用法。

7.1 WiFi远程控制：摆脱数据线束缚

USB线虽稳定，但不方便。WiFi连接只需两步：

手机端：设置 → 系统 → 开发者选项 → 无线调试 → 开启

电脑端：

# 先用USB连一次，开启TCP/IP模式 adb tcpip 5555 # 断开USB，用WiFi连接（IP地址在手机无线调试页查看） adb connect 192.168.1.100:5555 adb devices # 应显示 device

之后所有命令中的--device-id改为192.168.1.100:5555即可。

7.2 敏感操作人工确认（防误触的关键防线）

涉及支付、删除、隐私的操作，AI会主动暂停：

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开美团，下单一份水煮鱼"

当AI识别到“确认支付”按钮时，终端会输出：

需要确认: 即将支付68元，是否继续？ 请输入 y/n:

你敲y才执行，敲n就停止。这个机制可关闭，但强烈建议保留。

7.3 自定义提示词：让AI成为你的专属助手

修改phone_agent/config/prompts.py中的SYSTEM_PROMPT，例如：

SYSTEM_PROMPT = """ 你是一个专注电商购物的AI助手，只服务于淘宝、京东、拼多多。 当用户说‘找便宜的’，你必须按价格从低到高排序； 当用户说‘靠谱的’，你必须优先选择带‘官方旗舰店’标识的商品； 所有操作前，先确认当前APP是否已登录。 """

保存后重启main.py，AI就会按你的规则行事。

8. 常见问题：快速定位，5分钟解决

部署中遇到问题？别查文档，先看这三条高频答案：

8.1 “adb devices 显示 offline”

原因：手机和电脑的ADB服务版本不一致，或USB连接不稳定
解法：
```
adb kill-server adb start-server adb devices
```
若仍无效，换根数据线，或重启手机开发者选项（关再开）。

8.2 “模型启动报 CUDA out of memory”

原因：显存不足（9B模型建议12GB显存）
解法：
- 降低显存占用：启动命令加--gpu-memory-utilization 0.8
- 改用CPU：--device cpu（速度慢3-5倍，但能跑）
- 清理后台：关闭其他占用GPU的程序（如游戏、浏览器）

8.3 “AI识别不了屏幕，一直说‘找不到搜索框’”

原因：手机开启了深色模式、或使用了第三方主题，导致颜色识别偏差
解法：
- 手机设置 → 显示 → 关闭“深色模式”
- 设置 → 主题 → 恢复为“系统默认主题”
- 重启模型服务，重试

所有问题根源都指向三点：ADB连接状态、模型服务端口、手机屏幕状态。每次出问题，先检查这三项，90%的问题当场解决。

9. 安全与边界：AI再强，也要守住底线

Open-AutoGLM 的设计哲学是：能力开放，责任明确。它不隐藏风险，而是把控制权交还给你。

9.1 本地化处理，隐私不离手

所有屏幕截图、文本识别、动作规划，均在你的电脑或手机本地完成
模型服务http://localhost:8000默认只监听本机，外部网络无法访问
你不需要注册账号、上传截图、绑定手机号——零云端依赖

9.2 你能掌控的三个安全开关

开关位置	如何设置	作用
ADB调试开关	手机设置里关闭	彻底切断电脑对手机的控制能力
敏感操作确认	`main.py`默认开启	所有支付、删除、授权类操作强制人工确认
APP权限管理	手机设置→应用→Phone Agent→权限	可关闭相机、存储等非必要权限

9.3 一条铁律：别让它碰密码和验证码

AI可以帮你打开银行APP，但绝不要让它输入登录密码
验证码图片由AI识别成功率不高，且涉及隐私，遇到时请手动输入
建议首次使用，从“打开设置”“搜索天气”等无风险指令开始，逐步建立信任

记住：AI是工具，不是替身。它的价值在于解放双手，而不是替代判断。

10. 总结：你已经拥有了一个可进化的手机智能体

回看这一路：

你亲手配置了ADB，让电脑认出了手机；
你下载并启动了18GB的多模态模型，让它能在本地“看懂”屏幕；
你运行了第一行指令，看着手机自动打开设置——那一刻，科幻照进了现实；
你用一句话，让AI完成了点外卖、发微信、刷抖音的全套操作；
你设置了WiFi远程、人工确认、自定义提示词，把它变成了真正属于你的助手。

Open-AutoGLM 的意义，从来不是取代人类，而是把人从机械劳动中释放出来。它不会写诗，但能帮你发朋友圈；它不懂艺术，但能帮你调好滤镜；它不擅长决策，但能把你的决策，一秒变成行动。

下一步，你可以：

试试更多APP：淘宝比价、高德导航、小红书种草……它的能力边界，由你来探索
写个脚本：用Python API批量处理重复任务，比如每天自动整理相册
加入社区：GitHub上提Issue、修Bug、贡献新APP支持，让这个项目越来越强大

技术终将普惠。而今天，你已经站在了起点。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。