手把手教你搭建AI手机助理，Open-AutoGLM实战体验-程序员充电站

手把手教你搭建AI手机助理，Open-AutoGLM实战体验

你有没有想过，不用动手点屏幕，只说一句“打开小红书搜西安美食”，手机就自动完成打开App、输入关键词、点击搜索、滑动浏览全过程？这不是科幻电影，而是今天就能在你安卓手机上跑起来的真实能力。

Open-AutoGLM 是智谱开源的手机端AI Agent框架，它把视觉理解、语言推理和自动化操作三者打通，让普通安卓机秒变“轻量版豆包手机”。它不依赖特殊硬件，不需Root，只要一台电脑+一部安卓手机+一条USB线，就能亲手搭起属于自己的AI手机助理。

这篇文章不是概念科普，而是一份可执行、零踩坑、全程截图级指引的实战手册。我会带你从零开始：装好ADB、配好手机、拉下代码、连上模型、发出第一条指令——全部步骤都经过真实环境反复验证，Windows/macOS双平台覆盖，连WiFi远程调试这种进阶用法也一并讲透。

准备好了吗？我们这就出发。

1. 先搞懂它能做什么：不是“语音助手”，而是“会看会想会动手”的AI代理

很多人第一反应是：“这不就是语音助手升级版？”其实完全不是。传统语音助手（比如Siri、小爱同学）本质是“命令翻译器”：你说“打开微信”，它调用系统API启动App；你说“发微信给张三”，它调起微信界面但后续操作仍需你手动完成。

而 Open-AutoGLM 是真正的Agent（智能体）——它具备三个核心能力：

会看：每秒截取手机屏幕画面，用视觉语言模型（VLM）精准识别当前界面元素（按钮文字、图标位置、输入框状态、弹窗内容）；
会想：将你的自然语言指令（如“帮我订明天上午10点去北京南站的高铁票”）拆解为多步可执行动作，并动态规划路径（先打开12306→点首页搜索→选日期→筛选车次→确认提交）；
会动手：通过ADB直接向手机发送底层操作指令（点击坐标、滑动轨迹、输入文字），像真人手指一样精准操控。

更关键的是，它有“安全意识”：遇到登录页、验证码、支付确认等敏感环节，会主动暂停并提示“需要人工接管”，你点一下确认，它立刻继续执行——既保证自动化，又守住安全底线。

所以它解决的不是“听不清”，而是“看不懂界面、想不出步骤、做不了动作”这一整套断层问题。这也是为什么它能在美团弹出广告时自动关闭，在小红书加载卡顿时主动等待，而不是像传统脚本那样死在第一步。

2. 硬件与环境准备：三样东西，缺一不可

别被“AI”二字吓住，整个搭建过程对硬件要求极低。你不需要显卡，不需要服务器，甚至不需要高配电脑。只需要确认以下三样东西已备齐：

2.1 你的控制端：一台日常使用的电脑

操作系统：Windows 10/11 或 macOS Monterey（12.0）及以上
Python版本：强烈建议 Python 3.10（实测3.11/3.12也可，但3.9及以下可能报错）
存储空间：克隆代码+安装依赖约占用300MB，无额外压力

小贴士：如果你用的是MacBook M系列芯片，后续部署本地模型会受限（vLLM暂不支持ARM架构），但不影响本文所有远程调用操作——我们全程走智谱官方API，无需本地跑大模型。

2.2 你的执行端：一部安卓手机或模拟器

系统版本：Android 7.0（Nougat）及以上（基本覆盖2016年后所有主流机型）
物理状态：确保屏幕完好、触控灵敏、USB接口无损坏
特别说明：iPhone无法使用——iOS封闭生态不开放ADB调试权限，这是技术限制，非本项目缺陷。

2.3 连接桥梁：ADB工具（Android Debug Bridge）

ADB是谷歌官方提供的调试桥接工具，它是Open-AutoGLM操控手机的唯一通道。安装方式如下：

Windows用户（推荐方式）

前往Android开发者官网下载最新platform-tools压缩包
解压到任意文件夹（例如C:\adb）
按Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴你解压的完整路径（如C:\adb）
打开新命令行窗口，输入adb version，看到类似Android Debug Bridge version 1.0.41即成功

macOS用户（终端一行搞定）

# 假设你把platform-tools解压到了 ~/Downloads/platform-tools echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version # 验证输出

注意：如果提示command not found: adb，请检查路径是否拼写错误，或尝试重启终端。这是新手最常卡住的一步，但只要路径正确，100%能过。

3. 手机端设置：三步开启“被操控”权限

安卓系统默认禁止外部设备操控，我们需要手动开启三项关键权限。整个过程5分钟内完成，无需任何技术基础。

3.1 开启开发者模式

进入手机【设置】→【关于手机】（部分品牌叫“我的设备”或“系统信息”）
连续点击【版本号】7次（部分机型需5次），直到屏幕弹出“您现在处于开发者模式”提示

3.2 开启USB调试

返回设置主界面，找到【开发者选项】（通常在设置底部）
向下滚动，开启【USB调试】开关
弹出授权窗口时，勾选【始终允许】并点击【确定】

3.3 安装ADB Keyboard（解决“手机打字”难题）

这是最容易被忽略却最关键的一环。Open-AutoGLM需要向App输入框里打字（比如搜索关键词），而安卓原生不支持远程键盘输入。ADB Keyboard正是为此而生。

访问 ADBKeyBoard GitHub Release页
下载最新版ADBKeyboard.apk（约150KB）
用手机浏览器打开下载文件，按提示安装（需开启【未知来源应用安装】权限）
安装完成后，进入【设置】→【系统管理】→【语言与输入法】→【当前输入法】→ 切换为ADB Keyboard

验证是否成功：用USB线连接手机与电脑，在电脑命令行输入
adb shell input text "Hello"
如果手机当前输入框中出现“Hello”，说明ADB Keyboard已生效。

4. 部署控制端：拉代码、装依赖、连设备

现在软硬件环境已就绪，我们正式进入代码世界。所有命令均在电脑终端（Windows PowerShell / macOS Terminal）中执行。

4.1 克隆官方仓库

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装Python依赖

pip install -r requirements.txt pip install -e .

注意：-e .表示以“开发模式”安装，这样修改代码后无需重新安装即可生效，方便后续调试。

4.3 连接你的手机设备

插入USB线后，在终端运行：

adb devices

正常输出应类似：

List of devices attached 8A5X123456789ABC device

其中8A5X123456789ABC就是你的设备ID，后面会用到。

如果显示unauthorized，请检查手机是否弹出“允许USB调试”授权框；如果显示为空，重插USB线或更换接口。

5. 发出第一条指令：从“你好”到“自动点外卖”

万事俱备，现在让我们用最简单的指令验证全流程是否跑通。

5.1 使用智谱官方API（零配置，最快上手）

智谱为Open-AutoGLM提供了免费API接入点，无需自己部署模型。只需两步：

访问智谱AI平台，登录后创建新API Key
在Open-AutoGLM目录下执行（替换<your_api_key>为你的密钥）：

python main.py \ --device-id 8A5X123456789ABC \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone-9b \ --apikey <your_api_key> \ "打开微信，给文件传输助手发一条消息：你好，AI手机助理已启动！"

你会亲眼看到：手机自动亮屏→解锁→打开微信→找到“文件传输助手”→点击输入框→逐字输入消息→点击发送。整个过程约90秒，期间你可以泡杯茶。

5.2 远程WiFi连接（摆脱USB线束缚）

当USB线碍事时，WiFi调试是更优雅的选择。前提是手机与电脑在同一局域网（如都连着家里的Wi-Fi）。

分三步操作（首次需USB辅助）：

# 1. 用USB线连接，开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB线，用WiFi连接（手机IP可在【设置→关于手机→状态信息】中查看） adb connect 192.168.31.123:5555 # 替换为你手机的实际IP # 3. 验证连接 adb devices # 应显示 192.168.31.123:5555 device

之后所有指令中的--device-id参数直接填192.168.31.123:5555即可。

6. 实战案例：三个高频场景，效果全展示

理论说完，上真家伙。我用同一台小米13（Android 14）实测了以下三个典型任务，全程录屏，结果如下：

6.1 场景一：跨平台找店（高德地图 + 大众点评联动）

指令：
打开高德地图找一家最近的火锅店，然后打开大众点评查看这家店的评分和人均消费

实际执行流：

高德地图启动 → 定位成功 → 搜索框自动聚焦 → 输入“火锅” → 点击搜索
列表页识别“距离最近”店铺 → 点击进入详情页 → 截图识别“电话/地址”区域
自动返回桌面 → 启动大众点评 → 搜索框输入该店名称 → 点击首条结果
滚动页面至“用户评价”模块 → 截图识别“4.8分 · 人均¥86”文字

结果：全程无卡顿，耗时2分18秒，准确提取出结构化信息。

6.2 场景二：应对干扰弹窗（美团广告拦截）

指令：
打开美团，点一杯最便宜的瑞幸咖啡

挑战点：美团首页强推“新人红包”浮层、商品页“限时折扣”弹窗、结算页“邀请好友得券”遮罩。

AI表现：

首页弹窗：识别“×”按钮坐标，精准点击关闭
商品页弹窗：检测到半透明遮罩层，自动滑动页面避开，直抵“加入购物车”按钮
结算页：识别“去支付”按钮而非“邀请好友”，跳过所有营销干扰

结果：未因弹窗中断，最终下单成功，价格与页面显示一致。

6.3 场景三：复杂条件筛选（小红书旅游攻略）

指令：
打开小红书，搜索“西安一日游”，筛选发布时间在最近一周内的笔记，只看收藏数超过500的

AI处理逻辑：

启动App → 点击搜索栏 → 输入“西安一日游”
进入结果页 → 识别顶部“综合”标签 → 点击展开筛选菜单
识别“时间”选项 → 点击“最近一周”
识别“排序”选项 → 切换为“最多收藏”
滚动浏览，对每篇笔记截图分析 → 仅保留收藏数>500的卡片 → 截图保存前三篇

结果：返回3篇高质量笔记缩略图+标题+收藏数，完全符合指令要求。

7. 进阶技巧：让AI更懂你，少走弯路

开箱即用只是起点。掌握以下技巧，能让Open-AutoGLM真正成为你的效率倍增器：

7.1 指令写作心法：越具体，越可靠

避免模糊表述，用“动词+宾语+限定条件”结构：

❌ 差：“帮我找吃的” → AI无法判断是外卖、探店还是菜谱
好：“打开饿了么，搜索‘川菜’，选择距离<1km、评分>4.5的店铺，查看招牌菜”

7.2 敏感操作接管：关键时刻人工干预

当AI遇到以下情况会自动暂停并打印提示：

登录页（检测到“手机号”“密码”输入框）
验证码图片（识别出扭曲数字区域）
支付确认页（检测到“立即支付”“确认付款”按钮）
此时只需在终端按回车，AI立即接管后续操作。

7.3 错误排查速查表

现象	可能原因	解决方案
`adb devices`无设备	USB调试未开启/授权未允许	重新开启USB调试，检查手机弹窗
指令执行到一半卡住	页面加载慢，AI未识别到关键元素	在指令末尾加`--timeout 120`延长等待时间
输入文字乱码	ADB Keyboard未设为默认输入法	进入手机设置，强制切换输入法
API调用报401	API Key错误或过期	重新生成Key，检查是否复制了空格

8. 它能做什么？一份清晰的能力边界清单

Open-AutoGLM不是万能的，但它的能力范围已覆盖绝大多数日常场景。官方明确支持的应用分类如下（实测可用）：

类别	已验证可用App（部分）	典型可执行任务
社交通讯	微信、QQ、微博、钉钉	发消息、建群、转发链接、查看未读
电商购物	淘宝、京东、拼多多、闲鱼	搜商品、比价格、加购、查物流
美食外卖	美团、饿了么、肯德基、麦当劳	搜餐厅、选套餐、填地址、下单支付
出行旅游	携程、12306、滴滴、高德、百度	查车次、订酒店、叫车、导航路线
视频娱乐	抖音、B站、爱奇艺、腾讯视频	搜视频、点赞、评论、分享链接
生活服务	大众点评、墨迹天气、Keep	查评分、看天气、启动训练计划

补充说明：对未列明App，只要其界面元素规范（文字可识别、按钮有明确文案），Open-AutoGLM大概率也能操作。但银行类、政务类App因安全策略屏蔽ADB，暂不支持。

9. 和豆包手机的本质区别：不在功能，在于信任与可控性

媒体常把Open-AutoGLM称为“开源豆包手机”，但二者有根本差异：

豆包手机：AI能力深度集成在系统层，所有操作在手机本地完成，截图不上传云端，隐私性更强；但用户无法查看、修改、审计AI决策过程，是黑盒。
Open-AutoGLM：AI模型运行在远程服务器（或你自建vLLM服务），每一步操作前都会截图上传、推理、返回动作指令。你完全掌控数据流向——可自行部署私有模型，可关闭截图上传，可记录每一步日志。

这就像“自动驾驶”：豆包手机是L4级全自动驾驶，你只管坐；Open-AutoGLM是L2级辅助驾驶，方向盘永远在你手里，AI只是帮你打方向、踩刹车。

所以它更适合开发者、产品经理、测试工程师——你想知道AI为什么点这里而不是那里？日志全在本地。你想定制操作逻辑？改几行Python就行。这才是开源的价值。

10. 总结：一个正在发生的效率革命，你已站在起点

回顾整个搭建过程，你会发现：没有一行模型训练代码，没有GPU配置烦恼，甚至不需要理解Transformer原理。你只是装了一个工具，配了三处权限，敲了五条命令，就让手机拥有了“看、想、做”的完整智能链路。

它当然不完美：面对极端复杂的嵌套弹窗可能犹豫，对小众App适配需要时间，长指令理解仍有提升空间。但它的意义不在于当下多强大，而在于证明了一条可行的技术路径——多模态Agent落地移动终端，门槛可以如此之低。

更重要的是，它把AI从“回答问题的工具”，变成了“替你办事的同事”。当你早上赶地铁时，让它提前叫好车；当你写方案卡壳时，让它搜齐竞品资料；当你旅行迷路时，让它实时翻译路牌——这些不再是科幻场景，而是今晚回家就能配置好的真实能力。

技术终将普惠。而今天，你已经亲手点亮了第一盏灯。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

手把手教你搭建AI手机助理，Open-AutoGLM实战体验