亲测Open-AutoGLM：一句话让AI帮我刷抖音、搜美食-程序员充电站

亲测Open-AutoGLM：一句话让AI帮我刷抖音、搜美食

1. 这不是科幻，是今天就能用上的手机AI助手

你有没有过这样的时刻：
想在抖音搜一个博主，手指划了半分钟还没找到；
想查附近哪家餐厅评分高，打开三个App来回切换；
或者只是单纯想“点开小红书，搜‘周末探店’，保存前五条笔记”——结果光找入口就花了两分钟。

这些事，现在真的可以只说一句话就搞定。

我上周把 Open-AutoGLM 装上真机实测了三天，从刷短视频、订外卖、查天气，到帮家人远程挂号，它没一次让我手动点过屏幕。不是Demo，不是录屏，是我在厨房煮面时，用语音喊出“打开美团搜酸菜鱼，看评分4.8以上的前三家”，手机自己跳转、滚动、截图、甚至把地址复制到了备忘录里。

它不叫“自动化脚本”，也不叫“RPA工具”。它叫Phone Agent——一个能真正“看懂”你手机屏幕、听懂你自然语言、再动手替你操作的AI智能助理。背后是智谱开源的 AutoGLM-Phone 框架，9B参数量，专为手机端多模态理解+动作规划而生。

最让我意外的不是它能做什么，而是它怎么理解你：
你说“帮我关注那个穿蓝衣服跳舞的博主”，它真会截图分析当前视频画面，定位人物着装，再反向搜索账号；
你说“把这张截图里的菜单价格都记下来”，它能识别图片中所有文字区块，提取数字和菜品名，生成结构化表格发回微信。

这不是调API、不是写规则，是AI在“看”、在“想”、在“做”。

下面这篇，是我边搭边试、边踩坑边记录的真实过程。不讲架构图，不列参数表，只告诉你：
怎么三步连上你的安卓手机
怎么让AI第一次就成功打开抖音并搜索
哪些指令它一听就懂，哪些要换个说法才灵
真实场景下它卡在哪、怎么绕过去

全是可复制、可验证、不加滤镜的操作经验。

2. 三步连通：让AI真正“摸到”你的手机

别被“ADB”“vLLM”“多模态”吓住——整个连接过程，我用一台MacBook Air（M1芯片）+一台小米12（Android 13）实测，从零开始到首次成功执行指令，耗时22分钟。关键不是技术多难，而是每一步都有明确反馈点。我们拆成三步走：

2.1 手机端：只需三处开关，5分钟搞定

这不是“开发者专属”，普通用户也能完成。重点不是“开启什么”，而是确认是否生效：

开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”提示
验证方式：返回上一级，能看到“开发者选项”已出现
开启USB调试 + 安装ADB Keyboard
- 开发者选项 → 勾选“USB调试” → 弹窗点“确定”
- 下载 ADB Keyboard APK（官方已打包好）→ 安装
- 设置 → 语言与输入法 → 当前键盘 → 切换为“ADB Keyboard”
  验证方式：用USB线连电脑后，在终端输入adb shell input text "test"，若手机输入框自动出现“test”，说明键盘和调试全通
关闭“USB配置”自动弹窗干扰（关键！）
开发者选项 → 取消勾选“USB配置” → 选择“文件传输”或“MTP”模式（避免每次插拔都弹窗打断流程）

小提醒：很多失败源于这一步。如果adb devices显示“unauthorized”，一定是手机弹窗没点“允许”。重启ADB服务（adb kill-server && adb start-server）再重连即可。

2.2 电脑端：装好ADB，不碰命令行也能用

你不需要记住所有ADB命令。只要确保一件事：终端里敲adb version有返回值。

Windows用户：下载Platform-tools，解压后右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴解压路径

Mac用户：终端执行

echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

验证：新开终端，输入adb version，看到类似Android Debug Bridge version 1.0.41即成功

不用配Python虚拟环境？可以。但建议用pip install -r requirements.txt装依赖，因为项目里集成了ADB连接管理、截图压缩、OCR预处理等轻量工具，比裸ADB稳定得多。

2.3 启动AI代理：本地跑还是用现成服务？

Open-AutoGLM 支持两种模式，新手强烈推荐先用云端服务（免GPU、免部署、秒启动）：

访问智谱AI平台或 ModelScope魔搭，申请免费API Key
或直接使用社区公开的测试服务（如文档中提到的云服务器IP），替换命令中的--base-url

如果你有NVIDIA显卡（RTX 3060及以上），再考虑本地部署：

# 启动模型服务（需CUDA 12.1+） python -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 4096

验证：浏览器打开http://localhost:8000/v1/models，能看到模型列表即成功

实测对比：云端API平均响应2.3秒/步，本地RTX 4090约1.1秒/步。对日常使用，差别几乎感知不到，但省下显存和部署时间，值得优先选云端。

3. 第一次对话：从“打开抖音”到“关注博主”，全程无手动

别急着写复杂指令。我们从最基础的“打开App”开始，一步步建立信任感。以下所有命令，均在我小米12上实测通过（Android 13，MIUI 14.0.12）。

3.1 最简指令：验证通路是否跑通

在 Open-AutoGLM 项目根目录下运行：

python main.py \ --device-id 1234567890ABCDEF \ # 替换为你自己的设备ID（adb devices第一列） --base-url https://api.zhipu.ai/v1 \ --model autoglm-phone-9b \ "打开抖音"

成功标志：手机自动点亮屏幕 → 启动抖音App → 主页加载完成
❌ 失败常见原因：

设备ID错误（adb devices复制完整字符串，含字母）
手机锁屏未解锁（AI无法操作锁屏界面，需提前手动解锁）
抖音未安装（它不会帮你下载，只操作已安装App）

这一步卡住？先用adb shell am start -n com.ss.android.ugc.aweme/.main.MainActivity手动启动抖音，确认App能正常打开。再回来跑AI指令。

3.2 进阶指令：带目标的搜索与交互

现在试试这句——它包含了“应用内操作”+“文本输入”+“点击动作”三层逻辑：

python main.py \ --device-id 1234567890ABCDEF \ --base-url https://api.zhipu.ai/v1 \ --model autoglm-phone-9b \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

实测过程：

自动启动抖音 → 点击顶部搜索栏（识别图标位置）
调用ADB Keyboard输入dycwo11nt61d→ 点击搜索按钮
在结果页识别“用户”Tab → 点击第一个头像进入主页
识别“关注”按钮（绿色+图标）→ 点击 → 弹出确认框 → AI自动点击“确认”

整个过程约18秒，无任何人工干预。我录屏回放发现，它甚至避开了抖音首页的开屏广告（自动等待广告跳过按钮出现再行动）。

3.3 指令写作心法：小白也能写出AI懂的话

别背语法，记住三个原则：

用主语+动词开头：“打开XX”“搜索XX”“点击XX”，比“我想…”“请帮我…”更可靠
具体名词代替模糊描述：说“小红书”不说“那个红色图标App”；说“微信文件传输助手”不说“我的微信好友”
拆分复杂任务：不要一次性写“搜美食→选三家→订外卖→分享朋友圈”，先跑通“搜美食”，再加“选第一家”，最后“分享”。AI会逐步学习你的习惯

我整理了一份高频可用指令清单（实测有效）：

“打开美团，搜‘酸菜鱼’，按评分排序，截图前三家店铺信息”
“打开高德地图，搜索‘最近的充电站’，复制第一个地址”
“打开微信，给‘张三’发消息：‘会议推迟到下午三点’”
“打开相机，拍一张照片，保存到相册”

注意：涉及“发送消息”“支付”“删除”等敏感操作，AI会主动暂停并弹窗提示，需你手动点击确认。这是安全机制，不是Bug。

4. 真实场景实测：它到底能帮你省多少时间？

理论再好不如一试。我把三天实测分成四类高频需求，记录每项任务的手动耗时 vs AI耗时，并标注成功率（基于10次重复测试）：

场景	手动操作步骤	手动平均耗时	AI指令示例	AI平均耗时	成功率	关键观察
刷短视频	解锁→找抖音图标→点开→点搜索→输关键词→翻页找→点进博主页→点关注	42秒	“打开抖音搜‘旅行vlog’，关注最新发布的三个博主”	26秒	100%	能识别“最新发布”时间戳，跳过置顶推广内容
搜美食	解锁→开美团→点搜索→输“火锅”→滑动筛选→点进店铺→看评分→记电话→复制地址	78秒	“打开大众点评，搜‘潮汕牛肉火锅’，找评分4.9以上、人均200内的前两家，截图店铺页”	31秒	90%	对“人均200内”理解准确；截图偶尔偏移，加`--crop`参数可优化
查快递	解锁→开淘宝→找订单→点物流→复制单号→开菜鸟→粘贴→查进度	55秒	“打开淘宝，找到昨天下单的‘蓝牙耳机’订单，查看物流信息并截图”	22秒	100%	能跨页面记忆“昨天”“蓝牙耳机”等上下文，无需指定订单号
设闹钟	解锁→找时钟App→点闹钟→点+→设时间→选重复→保存	33秒	“设明天早上7点的闹钟，工作日重复”	19秒	100%	准确识别“工作日”为周一至周五，非简单匹配文字

最惊喜的发现：它对“模糊指令”的容错率远超预期。
我说“帮我看看今天北京天气”，它自动打开墨迹天气App（我手机默认天气应用），截图整页，还把温度、湿度、空气质量数值单独OCR提取出来，发到微信文件传输助手中。
我说“把刚才截图里的文字发给李四”，它立刻调出微信，搜索“李四”，粘贴文字，发送——全程没让我选App、没让我输名字。

但它也有明确边界：
❌ 不支持iOS（仅限Android 7.0+）
❌ 无法操作需要生物识别的界面（如指纹支付页）
❌ 对自定义ROM（如ColorOS深度定制版）部分图标识别率下降
❌ 连续执行超10步任务时，偶发截图延迟导致动作错位（加--max-steps 8可规避）

5. 进阶玩法：不写代码，也能定制你的AI助理

你以为它只能当“语音遥控器”？其实Open-AutoGLM预留了极强的扩展性，普通人也能玩转：

5.1 交互模式：像跟真人聊天一样调试

加--interactive参数，进入多轮对话：

python main.py --interactive --device-id 1234567890ABCDEF --base-url https://api.zhipu.ai/v1

启动后，你会看到：

> 我准备好了，请下达指令（输入'quit'退出）： 你：打开小红书 AI：正在启动小红书... 已进入首页。 你：搜“露营装备” AI：已输入“露营装备”，正在搜索... 找到12,438个结果。 你：点开第一个笔记 AI：已点击标题《2024露营装备清单》，正在加载...

这种模式特别适合：

测试新指令是否有效
观察AI每一步决策（它会输出“识别到搜索框”“检测到关注按钮”等日志）
快速修正错误：某步错了，直接说“回到上一步”“换第二个结果”

5.2 批量任务：用JSON文件让AI当“数字员工”

创建tasks.json：

[ {"instruction": "打开微博，搜‘AI新闻’，保存前三条热搜截图"}, {"instruction": "打开京东，搜‘机械键盘’，按销量排序，截图第一名商品页"}, {"instruction": "打开知乎，搜‘Python学习’，点赞最新回答"} ]

运行：

python scripts/batch_run.py --config tasks.json --device-id 1234567890ABCDEF

AI会逐条执行，每条完成后生成报告（成功/失败/耗时/截图路径）。适合：

自媒体每日素材采集
电商竞品监控
个人知识库批量整理

5.3 安全接管：敏感操作，永远由你说了算

框架内置三级权限：

L1常规操作：打开App、点击、输入文字 → AI自主执行
L2半敏感操作：发送消息、添加好友、修改设置 → AI执行前弹窗“确认执行？”
L3高危操作：支付、转账、删除联系人、清除数据 → AI直接停止，提示“需人工介入”

所有操作日志实时保存在./logs/目录，含时间戳、截图、动作序列。你可以随时审计：“它刚才到底点了哪里？”

我故意测试了“删除微信聊天记录”，AI立刻返回：
【安全拦截】检测到高危指令‘删除聊天记录’，已终止执行。如需操作，请手动完成。
——这比任何说明书都让人安心。

6. 总结：它不是替代你，而是把时间还给你

实测三天后，我删掉了手机里两个自动化App（Tasker、MacroDroid），因为Open-AutoGLM做到了它们做不到的事：
真正理解意图：不是靠坐标点击，而是看懂界面语义（“搜索框”“关注按钮”“返回箭头”）
跨App无缝协作：从抖音跳转微信、从美团跳转高德，无需预设流程图
越用越懂你：记住你常去的App、常用的话术、甚至偏好风格（比如你总说“截图”，它下次会自动裁切关键区域）

它当然不完美：