零基础部署AutoGLM-Phone，轻松实现手机自动化操作-程序员充电站

零基础部署AutoGLM-Phone，轻松实现手机自动化操作

你有没有想过，让AI替你点外卖、查价格、发朋友圈，甚至帮你抢演唱会门票？不是写脚本，不是学编程，而是像跟朋友说话一样，直接说一句“打开小红书搜美食”，手机就自动完成整套操作——这不再是科幻场景，而是今天就能上手的现实。

Open-AutoGLM 是智谱开源的手机端AI Agent框架，核心模型 AutoGLM-Phone 是一个真正理解屏幕、能动手执行的视觉语言智能体。它不依赖预设规则，不靠固定坐标点击，而是像人一样“看懂”界面、“想清楚”步骤、“稳准快”地操作。本文不讲抽象原理，不堆技术参数，只带你从零开始，用最直白的方式，在30分钟内跑通整条链路：云上跑模型、本地连手机、一句话发号施令——全程无需Linux命令基础，Windows用户照着做就能成功。

1. 先搞明白：它到底能做什么？

AutoGLM-Phone 不是另一个“语音助手”，而是一个能“看见+思考+动手”的手机AI助理。它的能力边界，直接决定你能省多少事：

真·多模态理解：不是简单OCR识别文字，而是结合图像布局、按钮位置、图标语义、上下文关系，判断“这个蓝色带箭头的按钮大概率是‘搜索’”
跨App任务编排：指令“比价京东和淘宝的LUMMI MOOD洗发水，选便宜的下单”，它会自动：退出当前App → 启动京东 → 搜索商品 → 截图/提取价格 → 启动淘宝 → 重复搜索 → 对比 → 进入低价平台下单
安全可控的执行：遇到登录页、验证码、支付确认等敏感操作，自动暂停并提示人工接管，绝不越界
远程灵活控制：支持USB直连调试，也支持WiFi远程连接，开发测试、家庭自动化、批量设备管理都适用

关键在于——你不需要告诉它“点第几行第几列”，只需要说人话。它把“意图→理解→规划→执行”全包了。

2. 环境准备：三步搞定软硬件基础

别被“云服务器”“Docker”吓到。这套方案设计时就考虑了新手友好性：服务端可租用现成算力，本地只需装几个基础工具。我们按真实操作顺序拆解：

2.1 云服务器：租一台“AI大脑”（5分钟）

你不需要自己买显卡、装系统。推荐使用算力云平台（如AI Galaxy），注册后按指引操作：

选配置：显存40G左右（A40/A100/4090），够跑9B模型不卡顿
选系统：Ubuntu 22.04（开箱即用，兼容性最好）
关键设置：务必开启高带宽（下载模型动辄10GB+），并记下控制台显示的外网端口映射关系（比如“宿主机8800端口 → 容器内8000端口”）

小贴士：新用户通常有免费试用额度或优惠券，先领再开实例，成本几乎为零。

2.2 本地电脑：装好“指挥官”（Windows/macOS通用）

你的笔记本就是控制中心，只需三样东西：

Python 3.10+：去 python.org 下载安装，勾选“Add Python to PATH”
ADB工具：安卓调试桥，是连接手机的唯一通道
- Windows：下载 Android Platform Tools，解压后记下文件夹路径（如C:\platform-tools）
- macOS：终端运行brew install android-platform-tools，或手动下载解压
环境变量配置（仅Windows需手动）：
1. Win+R输入sysdm.cpl→ “高级” → “环境变量”
2. 在“系统变量”里找到Path→ “编辑” → “新建” → 粘贴你的ADB解压路径
3. 打开新命令行窗口，输入adb version，看到版本号即成功

2.3 手机端：打开“被操控权限”（3分钟）

安卓手机需开启开发者选项，这是所有自动化操作的前提：

开启开发者模式：设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者”
启用USB调试：设置 → 系统 → 开发者选项 → 打开“USB调试”
安装ADB Keyboard（关键！）：
- 下载 ADB Keyboard APK
- 手机安装后，进入“设置 → 语言与输入法 → 虚拟键盘 → 勾选ADB Keyboard，并设为默认输入法”
为什么需要它？AutoGLM-Phone要往App里输文字（比如搜索关键词），必须通过ADB模拟键盘输入，普通输入法无法被程序调用。

3. 服务端部署：让AI模型在云端“上岗”

这一步在云服务器上操作（SSH连接后执行）。我们用Docker+vLLM组合，确保高性能、易维护：

3.1 安装Docker与NVIDIA驱动支持

# 更新系统并安装Docker sudo apt-get update sudo apt-get install -y docker.io docker-compose # 配置国内镜像加速（大幅提升拉取速度） sudo mkdir -p /etc/docker sudo tee /etc/docker/daemon.json <<-'EOF' { "registry-mirrors": ["https://docker.m.daocloud.io"] } EOF sudo systemctl restart docker # 安装NVIDIA容器工具（让Docker能调用GPU） curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt-get update sudo apt-get install -y nvidia-container-toolkit sudo nvidia-ctk runtime configure --runtime=docker sudo systemctl restart docker

3.2 下载模型：用ModelScope一键获取

# 安装魔搭SDK pip install modelscope # 创建模型目录并下载（自动处理分片、权重） mkdir -p /opt/model modelscope download --model 'ZhipuAI/AutoGLM-Phone-9B' --local_dir '/opt/model'

模型约8GB，带宽充足时10分钟内完成。下载路径/opt/model后续会挂载进容器。

3.3 启动vLLM推理服务

# 拉取官方vLLM镜像 docker pull vllm/vllm-openai:v0.12.0 # 启动容器（注意替换端口！根据你云服务器控制台显示的映射端口修改 -p 参数） docker run -it \ --gpus all \ -p 8800:8000 \ --ipc=host \ -v /opt/model:/app/model \ --name autoglm \ vllm/vllm-openai:v0.12.0

进入容器后，启动API服务：

# 安装必要依赖 pip install -U transformers --pre # 启动服务（严格复制此命令，参数已针对AutoGLM-Phone优化） python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model /app/model \ --port 8000 \ --max-model-len 25480 \ --chat-template-content-format string \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --limit-mm-per-prompt "{\"image\":10}"

验证是否成功：在云服务器浏览器访问http://localhost:8000/docs，能看到OpenAI兼容的API文档页面，说明服务已就绪。

4. 本地控制端：连接手机，发出第一条指令

现在，AI大脑在云端待命，你的电脑和手机已准备好“握手”。最后一步，让三者联通：

4.1 克隆并安装Open-AutoGLM控制代码

# 在本地电脑（非服务器！）执行 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

4.2 连接你的安卓手机

USB方式（推荐新手）：
手机用数据线连电脑 → 命令行运行adb devices→ 若显示一串设备ID（如ABC123 device），说明连接成功

WiFi方式（适合长期使用）：

# 先用USB连一次，开启无线调试 adb tcpip 5555 # 断开USB，用WiFi连接（手机和电脑在同一局域网） adb connect 192.168.1.100:5555 # 替换为手机实际IP adb devices # 应显示 IP:5555 device

查手机IP：设置 → WLAN → 点击当前网络 → 查看“IP地址”

4.3 发出你的第一条自然语言指令

在Open-AutoGLM目录下，执行：

python main.py \ --device-id ABC123 \ # 替换为adb devices显示的ID --base-url http://YOUR_SERVER_IP:8800/v1 \ # 替换为你的云服务器公网IP和端口 --model "autoglm-phone-9b" \ "打开小红书搜索‘北京咖啡探店’，保存前3篇笔记的图片"

你会看到：

控制台实时打印AI的思考过程（如<think>当前在桌面，需先启动小红书App...</think>）
手机屏幕自动亮起、启动App、输入搜索词、滑动浏览、长按保存图片
全程无需你碰手机，指令结束自动退出

5. 实战技巧：让AI更懂你、更可靠

刚跑通只是开始。这些经验来自真实踩坑总结，帮你避开90%的常见问题：

5.1 提示词怎么写才有效？（不是越长越好）

明确动作起点：避免模糊表述。❌“帮我找好吃的” → “打开美团，搜索‘上海本帮菜’，筛选评分4.5以上”
指定关键元素：涉及账号、ID、链接时，直接粘贴完整字符串。“抖音号：dycwo11nt61d”
限定范围防乱跑：加一句“只在小红书App内操作，不要切换到其他应用”

5.2 连接不稳定？试试这三招

问题现象	快速解决
`adb devices`不显示设备	重启手机开发者选项，或换USB线/USB口
WiFi连接后频繁断开	改用USB直连；或在手机“开发者选项”中关闭“Wi-Fi ADB调试”再重开
指令执行一半卡住	检查手机是否息屏/锁屏 → 设置中关闭“休眠时断开USB调试”

5.3 敏感操作如何安全接管？

当AI遇到登录页、短信验证码、支付确认弹窗时，会自动暂停并输出：
<action_required>请手动输入验证码，完成后回复‘继续’</action_required>
此时你只需：

在手机上输入验证码
回到命令行，直接回车（或输入continue）
AI立即恢复执行

这是框架内置的安全机制，无需额外配置，放心使用。

6. 总结：你已经拥有了一个私人AI手机助理

回顾整个流程，你完成了：
在云端部署了一个能“看懂”屏幕的9B级视觉语言模型
让本地电脑通过ADB与安卓手机建立稳定通信
用一句自然语言，驱动AI完成跨App、多步骤、带判断的复杂操作

这不是玩具，而是生产力工具。你可以用它：

电商运营：每天自动比价、截图竞品详情页、生成商品描述草稿
内容创作者：一键下载热门视频封面、批量保存灵感图片、自动生成小红书文案初稿
普通用户：设置闹钟、查快递、订外卖、甚至帮父母操作复杂App

技术门槛已被大幅降低，真正的价值在于你想让它做什么。现在，关掉这篇教程，拿起手机，试试那句你最想说的指令——比如：“打开微信，给张三发消息‘会议改到下午三点了’，然后截屏发到工作群”。

行动，永远比等待更接近答案。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

零基础部署AutoGLM-Phone，轻松实现手机自动化操作