零基础部署AutoGLM-Phone,轻松实现手机自动化操作
你有没有想过,让AI替你点外卖、查价格、发朋友圈,甚至帮你抢演唱会门票?不是写脚本,不是学编程,而是像跟朋友说话一样,直接说一句“打开小红书搜美食”,手机就自动完成整套操作——这不再是科幻场景,而是今天就能上手的现实。
Open-AutoGLM 是智谱开源的手机端AI Agent框架,核心模型 AutoGLM-Phone 是一个真正理解屏幕、能动手执行的视觉语言智能体。它不依赖预设规则,不靠固定坐标点击,而是像人一样“看懂”界面、“想清楚”步骤、“稳准快”地操作。本文不讲抽象原理,不堆技术参数,只带你从零开始,用最直白的方式,在30分钟内跑通整条链路:云上跑模型、本地连手机、一句话发号施令——全程无需Linux命令基础,Windows用户照着做就能成功。
1. 先搞明白:它到底能做什么?
AutoGLM-Phone 不是另一个“语音助手”,而是一个能“看见+思考+动手”的手机AI助理。它的能力边界,直接决定你能省多少事:
- 真·多模态理解:不是简单OCR识别文字,而是结合图像布局、按钮位置、图标语义、上下文关系,判断“这个蓝色带箭头的按钮大概率是‘搜索’”
- 跨App任务编排:指令“比价京东和淘宝的LUMMI MOOD洗发水,选便宜的下单”,它会自动:退出当前App → 启动京东 → 搜索商品 → 截图/提取价格 → 启动淘宝 → 重复搜索 → 对比 → 进入低价平台下单
- 安全可控的执行:遇到登录页、验证码、支付确认等敏感操作,自动暂停并提示人工接管,绝不越界
- 远程灵活控制:支持USB直连调试,也支持WiFi远程连接,开发测试、家庭自动化、批量设备管理都适用
关键在于——你不需要告诉它“点第几行第几列”,只需要说人话。它把“意图→理解→规划→执行”全包了。
2. 环境准备:三步搞定软硬件基础
别被“云服务器”“Docker”吓到。这套方案设计时就考虑了新手友好性:服务端可租用现成算力,本地只需装几个基础工具。我们按真实操作顺序拆解:
2.1 云服务器:租一台“AI大脑”(5分钟)
你不需要自己买显卡、装系统。推荐使用算力云平台(如AI Galaxy),注册后按指引操作:
- 选配置:显存40G左右(A40/A100/4090),够跑9B模型不卡顿
- 选系统:Ubuntu 22.04(开箱即用,兼容性最好)
- 关键设置:务必开启高带宽(下载模型动辄10GB+),并记下控制台显示的外网端口映射关系(比如“宿主机8800端口 → 容器内8000端口”)
小贴士:新用户通常有免费试用额度或优惠券,先领再开实例,成本几乎为零。
2.2 本地电脑:装好“指挥官”(Windows/macOS通用)
你的笔记本就是控制中心,只需三样东西:
- Python 3.10+:去 python.org 下载安装,勾选“Add Python to PATH”
- ADB工具:安卓调试桥,是连接手机的唯一通道
- Windows:下载 Android Platform Tools,解压后记下文件夹路径(如
C:\platform-tools) - macOS:终端运行
brew install android-platform-tools,或手动下载解压
- Windows:下载 Android Platform Tools,解压后记下文件夹路径(如
- 环境变量配置(仅Windows需手动):
Win+R输入sysdm.cpl→ “高级” → “环境变量”- 在“系统变量”里找到
Path→ “编辑” → “新建” → 粘贴你的ADB解压路径 - 打开新命令行窗口,输入
adb version,看到版本号即成功
2.3 手机端:打开“被操控权限”(3分钟)
安卓手机需开启开发者选项,这是所有自动化操作的前提:
- 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者”
- 启用USB调试:设置 → 系统 → 开发者选项 → 打开“USB调试”
- 安装ADB Keyboard(关键!):
- 下载 ADB Keyboard APK
- 手机安装后,进入“设置 → 语言与输入法 → 虚拟键盘 → 勾选ADB Keyboard,并设为默认输入法”
为什么需要它?AutoGLM-Phone要往App里输文字(比如搜索关键词),必须通过ADB模拟键盘输入,普通输入法无法被程序调用。
3. 服务端部署:让AI模型在云端“上岗”
这一步在云服务器上操作(SSH连接后执行)。我们用Docker+vLLM组合,确保高性能、易维护:
3.1 安装Docker与NVIDIA驱动支持
# 更新系统并安装Docker sudo apt-get update sudo apt-get install -y docker.io docker-compose # 配置国内镜像加速(大幅提升拉取速度) sudo mkdir -p /etc/docker sudo tee /etc/docker/daemon.json <<-'EOF' { "registry-mirrors": ["https://docker.m.daocloud.io"] } EOF sudo systemctl restart docker # 安装NVIDIA容器工具(让Docker能调用GPU) curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt-get update sudo apt-get install -y nvidia-container-toolkit sudo nvidia-ctk runtime configure --runtime=docker sudo systemctl restart docker3.2 下载模型:用ModelScope一键获取
# 安装魔搭SDK pip install modelscope # 创建模型目录并下载(自动处理分片、权重) mkdir -p /opt/model modelscope download --model 'ZhipuAI/AutoGLM-Phone-9B' --local_dir '/opt/model'模型约8GB,带宽充足时10分钟内完成。下载路径
/opt/model后续会挂载进容器。
3.3 启动vLLM推理服务
# 拉取官方vLLM镜像 docker pull vllm/vllm-openai:v0.12.0 # 启动容器(注意替换端口!根据你云服务器控制台显示的映射端口修改 -p 参数) docker run -it \ --gpus all \ -p 8800:8000 \ --ipc=host \ -v /opt/model:/app/model \ --name autoglm \ vllm/vllm-openai:v0.12.0进入容器后,启动API服务:
# 安装必要依赖 pip install -U transformers --pre # 启动服务(严格复制此命令,参数已针对AutoGLM-Phone优化) python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model /app/model \ --port 8000 \ --max-model-len 25480 \ --chat-template-content-format string \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --limit-mm-per-prompt "{\"image\":10}"验证是否成功:在云服务器浏览器访问
http://localhost:8000/docs,能看到OpenAI兼容的API文档页面,说明服务已就绪。
4. 本地控制端:连接手机,发出第一条指令
现在,AI大脑在云端待命,你的电脑和手机已准备好“握手”。最后一步,让三者联通:
4.1 克隆并安装Open-AutoGLM控制代码
# 在本地电脑(非服务器!)执行 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .4.2 连接你的安卓手机
USB方式(推荐新手):
手机用数据线连电脑 → 命令行运行adb devices→ 若显示一串设备ID(如ABC123 device),说明连接成功WiFi方式(适合长期使用):
# 先用USB连一次,开启无线调试 adb tcpip 5555 # 断开USB,用WiFi连接(手机和电脑在同一局域网) adb connect 192.168.1.100:5555 # 替换为手机实际IP adb devices # 应显示 IP:5555 device
查手机IP:设置 → WLAN → 点击当前网络 → 查看“IP地址”
4.3 发出你的第一条自然语言指令
在Open-AutoGLM目录下,执行:
python main.py \ --device-id ABC123 \ # 替换为adb devices显示的ID --base-url http://YOUR_SERVER_IP:8800/v1 \ # 替换为你的云服务器公网IP和端口 --model "autoglm-phone-9b" \ "打开小红书搜索‘北京咖啡探店’,保存前3篇笔记的图片"你会看到:
- 控制台实时打印AI的思考过程(如
<think>当前在桌面,需先启动小红书App...</think>) - 手机屏幕自动亮起、启动App、输入搜索词、滑动浏览、长按保存图片
- 全程无需你碰手机,指令结束自动退出
5. 实战技巧:让AI更懂你、更可靠
刚跑通只是开始。这些经验来自真实踩坑总结,帮你避开90%的常见问题:
5.1 提示词怎么写才有效?(不是越长越好)
- 明确动作起点:避免模糊表述。❌“帮我找好吃的” → “打开美团,搜索‘上海本帮菜’,筛选评分4.5以上”
- 指定关键元素:涉及账号、ID、链接时,直接粘贴完整字符串。“抖音号:dycwo11nt61d”
- 限定范围防乱跑:加一句“只在小红书App内操作,不要切换到其他应用”
5.2 连接不稳定?试试这三招
| 问题现象 | 快速解决 |
|---|---|
adb devices不显示设备 | 重启手机开发者选项,或换USB线/USB口 |
| WiFi连接后频繁断开 | 改用USB直连;或在手机“开发者选项”中关闭“Wi-Fi ADB调试”再重开 |
| 指令执行一半卡住 | 检查手机是否息屏/锁屏 → 设置中关闭“休眠时断开USB调试” |
5.3 敏感操作如何安全接管?
当AI遇到登录页、短信验证码、支付确认弹窗时,会自动暂停并输出:<action_required>请手动输入验证码,完成后回复‘继续’</action_required>
此时你只需:
- 在手机上输入验证码
- 回到命令行,直接回车(或输入
continue) - AI立即恢复执行
这是框架内置的安全机制,无需额外配置,放心使用。
6. 总结:你已经拥有了一个私人AI手机助理
回顾整个流程,你完成了:
在云端部署了一个能“看懂”屏幕的9B级视觉语言模型
让本地电脑通过ADB与安卓手机建立稳定通信
用一句自然语言,驱动AI完成跨App、多步骤、带判断的复杂操作
这不是玩具,而是生产力工具。你可以用它:
- 电商运营:每天自动比价、截图竞品详情页、生成商品描述草稿
- 内容创作者:一键下载热门视频封面、批量保存灵感图片、自动生成小红书文案初稿
- 普通用户:设置闹钟、查快递、订外卖、甚至帮父母操作复杂App
技术门槛已被大幅降低,真正的价值在于你想让它做什么。现在,关掉这篇教程,拿起手机,试试那句你最想说的指令——比如:“打开微信,给张三发消息‘会议改到下午三点了’,然后截屏发到工作群”。
行动,永远比等待更接近答案。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。