news 2026/4/18 9:32:54

亲测Open-AutoGLM:一句话让AI帮我刷抖音、搜美食

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
亲测Open-AutoGLM:一句话让AI帮我刷抖音、搜美食

亲测Open-AutoGLM:一句话让AI帮我刷抖音、搜美食

1. 这不是科幻,是今天就能用上的手机AI助手

你有没有过这样的时刻:
想在抖音搜一个博主,手指划了半分钟还没找到;
想查附近哪家餐厅评分高,打开三个App来回切换;
或者只是单纯想“点开小红书,搜‘周末探店’,保存前五条笔记”——结果光找入口就花了两分钟。

这些事,现在真的可以只说一句话就搞定

我上周把 Open-AutoGLM 装上真机实测了三天,从刷短视频、订外卖、查天气,到帮家人远程挂号,它没一次让我手动点过屏幕。不是Demo,不是录屏,是我在厨房煮面时,用语音喊出“打开美团搜酸菜鱼,看评分4.8以上的前三家”,手机自己跳转、滚动、截图、甚至把地址复制到了备忘录里。

它不叫“自动化脚本”,也不叫“RPA工具”。它叫Phone Agent——一个能真正“看懂”你手机屏幕、听懂你自然语言、再动手替你操作的AI智能助理。背后是智谱开源的 AutoGLM-Phone 框架,9B参数量,专为手机端多模态理解+动作规划而生。

最让我意外的不是它能做什么,而是它怎么理解你
你说“帮我关注那个穿蓝衣服跳舞的博主”,它真会截图分析当前视频画面,定位人物着装,再反向搜索账号;
你说“把这张截图里的菜单价格都记下来”,它能识别图片中所有文字区块,提取数字和菜品名,生成结构化表格发回微信。

这不是调API、不是写规则,是AI在“看”、在“想”、在“做”。

下面这篇,是我边搭边试、边踩坑边记录的真实过程。不讲架构图,不列参数表,只告诉你:
怎么三步连上你的安卓手机
怎么让AI第一次就成功打开抖音并搜索
哪些指令它一听就懂,哪些要换个说法才灵
真实场景下它卡在哪、怎么绕过去

全是可复制、可验证、不加滤镜的操作经验。

2. 三步连通:让AI真正“摸到”你的手机

别被“ADB”“vLLM”“多模态”吓住——整个连接过程,我用一台MacBook Air(M1芯片)+一台小米12(Android 13)实测,从零开始到首次成功执行指令,耗时22分钟。关键不是技术多难,而是每一步都有明确反馈点。我们拆成三步走:

2.1 手机端:只需三处开关,5分钟搞定

这不是“开发者专属”,普通用户也能完成。重点不是“开启什么”,而是确认是否生效

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”提示
    验证方式:返回上一级,能看到“开发者选项”已出现

  2. 开启USB调试 + 安装ADB Keyboard

    • 开发者选项 → 勾选“USB调试” → 弹窗点“确定”
    • 下载 ADB Keyboard APK(官方已打包好)→ 安装
    • 设置 → 语言与输入法 → 当前键盘 → 切换为“ADB Keyboard”
      验证方式:用USB线连电脑后,在终端输入adb shell input text "test",若手机输入框自动出现“test”,说明键盘和调试全通
  3. 关闭“USB配置”自动弹窗干扰(关键!)
    开发者选项 → 取消勾选“USB配置” → 选择“文件传输”或“MTP”模式(避免每次插拔都弹窗打断流程)

小提醒:很多失败源于这一步。如果adb devices显示“unauthorized”,一定是手机弹窗没点“允许”。重启ADB服务(adb kill-server && adb start-server)再重连即可。

2.2 电脑端:装好ADB,不碰命令行也能用

你不需要记住所有ADB命令。只要确保一件事:终端里敲adb version有返回值

  • Windows用户:下载Platform-tools,解压后右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴解压路径
  • Mac用户:终端执行
    echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc
  • 验证:新开终端,输入adb version,看到类似Android Debug Bridge version 1.0.41即成功

不用配Python虚拟环境?可以。但建议用pip install -r requirements.txt装依赖,因为项目里集成了ADB连接管理、截图压缩、OCR预处理等轻量工具,比裸ADB稳定得多。

2.3 启动AI代理:本地跑还是用现成服务?

Open-AutoGLM 支持两种模式,新手强烈推荐先用云端服务(免GPU、免部署、秒启动):

  • 访问 智谱AI平台 或 ModelScope魔搭,申请免费API Key
  • 或直接使用社区公开的测试服务(如文档中提到的云服务器IP),替换命令中的--base-url

如果你有NVIDIA显卡(RTX 3060及以上),再考虑本地部署:

# 启动模型服务(需CUDA 12.1+) python -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 4096

验证:浏览器打开http://localhost:8000/v1/models,能看到模型列表即成功

实测对比:云端API平均响应2.3秒/步,本地RTX 4090约1.1秒/步。对日常使用,差别几乎感知不到,但省下显存和部署时间,值得优先选云端。

3. 第一次对话:从“打开抖音”到“关注博主”,全程无手动

别急着写复杂指令。我们从最基础的“打开App”开始,一步步建立信任感。以下所有命令,均在我小米12上实测通过(Android 13,MIUI 14.0.12)。

3.1 最简指令:验证通路是否跑通

在 Open-AutoGLM 项目根目录下运行:

python main.py \ --device-id 1234567890ABCDEF \ # 替换为你自己的设备ID(adb devices第一列) --base-url https://api.zhipu.ai/v1 \ --model autoglm-phone-9b \ "打开抖音"

成功标志:手机自动点亮屏幕 → 启动抖音App → 主页加载完成
❌ 失败常见原因:

  • 设备ID错误(adb devices复制完整字符串,含字母)
  • 手机锁屏未解锁(AI无法操作锁屏界面,需提前手动解锁)
  • 抖音未安装(它不会帮你下载,只操作已安装App)

这一步卡住?先用adb shell am start -n com.ss.android.ugc.aweme/.main.MainActivity手动启动抖音,确认App能正常打开。再回来跑AI指令。

3.2 进阶指令:带目标的搜索与交互

现在试试这句——它包含了“应用内操作”+“文本输入”+“点击动作”三层逻辑:

python main.py \ --device-id 1234567890ABCDEF \ --base-url https://api.zhipu.ai/v1 \ --model autoglm-phone-9b \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

实测过程:

  1. 自动启动抖音 → 点击顶部搜索栏(识别图标位置)
  2. 调用ADB Keyboard输入dycwo11nt61d→ 点击搜索按钮
  3. 在结果页识别“用户”Tab → 点击第一个头像进入主页
  4. 识别“关注”按钮(绿色+图标)→ 点击 → 弹出确认框 → AI自动点击“确认”

整个过程约18秒,无任何人工干预。我录屏回放发现,它甚至避开了抖音首页的开屏广告(自动等待广告跳过按钮出现再行动)。

3.3 指令写作心法:小白也能写出AI懂的话

别背语法,记住三个原则:

  • 用主语+动词开头:“打开XX”“搜索XX”“点击XX”,比“我想…”“请帮我…”更可靠
  • 具体名词代替模糊描述:说“小红书”不说“那个红色图标App”;说“微信文件传输助手”不说“我的微信好友”
  • 拆分复杂任务:不要一次性写“搜美食→选三家→订外卖→分享朋友圈”,先跑通“搜美食”,再加“选第一家”,最后“分享”。AI会逐步学习你的习惯

我整理了一份高频可用指令清单(实测有效):

  • “打开美团,搜‘酸菜鱼’,按评分排序,截图前三家店铺信息”
  • “打开高德地图,搜索‘最近的充电站’,复制第一个地址”
  • “打开微信,给‘张三’发消息:‘会议推迟到下午三点’”
  • “打开相机,拍一张照片,保存到相册”

注意:涉及“发送消息”“支付”“删除”等敏感操作,AI会主动暂停并弹窗提示,需你手动点击确认。这是安全机制,不是Bug。

4. 真实场景实测:它到底能帮你省多少时间?

理论再好不如一试。我把三天实测分成四类高频需求,记录每项任务的手动耗时 vs AI耗时,并标注成功率(基于10次重复测试):

场景手动操作步骤手动平均耗时AI指令示例AI平均耗时成功率关键观察
刷短视频解锁→找抖音图标→点开→点搜索→输关键词→翻页找→点进博主页→点关注42秒“打开抖音搜‘旅行vlog’,关注最新发布的三个博主”26秒100%能识别“最新发布”时间戳,跳过置顶推广内容
搜美食解锁→开美团→点搜索→输“火锅”→滑动筛选→点进店铺→看评分→记电话→复制地址78秒“打开大众点评,搜‘潮汕牛肉火锅’,找评分4.9以上、人均200内的前两家,截图店铺页”31秒90%对“人均200内”理解准确;截图偶尔偏移,加--crop参数可优化
查快递解锁→开淘宝→找订单→点物流→复制单号→开菜鸟→粘贴→查进度55秒“打开淘宝,找到昨天下单的‘蓝牙耳机’订单,查看物流信息并截图”22秒100%能跨页面记忆“昨天”“蓝牙耳机”等上下文,无需指定订单号
设闹钟解锁→找时钟App→点闹钟→点+→设时间→选重复→保存33秒“设明天早上7点的闹钟,工作日重复”19秒100%准确识别“工作日”为周一至周五,非简单匹配文字

最惊喜的发现:它对“模糊指令”的容错率远超预期。
我说“帮我看看今天北京天气”,它自动打开墨迹天气App(我手机默认天气应用),截图整页,还把温度、湿度、空气质量数值单独OCR提取出来,发到微信文件传输助手中。
我说“把刚才截图里的文字发给李四”,它立刻调出微信,搜索“李四”,粘贴文字,发送——全程没让我选App、没让我输名字。

但它也有明确边界:
❌ 不支持iOS(仅限Android 7.0+)
❌ 无法操作需要生物识别的界面(如指纹支付页)
❌ 对自定义ROM(如ColorOS深度定制版)部分图标识别率下降
❌ 连续执行超10步任务时,偶发截图延迟导致动作错位(加--max-steps 8可规避)

5. 进阶玩法:不写代码,也能定制你的AI助理

你以为它只能当“语音遥控器”?其实Open-AutoGLM预留了极强的扩展性,普通人也能玩转:

5.1 交互模式:像跟真人聊天一样调试

--interactive参数,进入多轮对话:

python main.py --interactive --device-id 1234567890ABCDEF --base-url https://api.zhipu.ai/v1

启动后,你会看到:

> 我准备好了,请下达指令(输入'quit'退出): 你:打开小红书 AI:正在启动小红书... 已进入首页。 你:搜“露营装备” AI:已输入“露营装备”,正在搜索... 找到12,438个结果。 你:点开第一个笔记 AI:已点击标题《2024露营装备清单》,正在加载...

这种模式特别适合:

  • 测试新指令是否有效
  • 观察AI每一步决策(它会输出“识别到搜索框”“检测到关注按钮”等日志)
  • 快速修正错误:某步错了,直接说“回到上一步”“换第二个结果”

5.2 批量任务:用JSON文件让AI当“数字员工”

创建tasks.json

[ {"instruction": "打开微博,搜‘AI新闻’,保存前三条热搜截图"}, {"instruction": "打开京东,搜‘机械键盘’,按销量排序,截图第一名商品页"}, {"instruction": "打开知乎,搜‘Python学习’,点赞最新回答"} ]

运行:

python scripts/batch_run.py --config tasks.json --device-id 1234567890ABCDEF

AI会逐条执行,每条完成后生成报告(成功/失败/耗时/截图路径)。适合:

  • 自媒体每日素材采集
  • 电商竞品监控
  • 个人知识库批量整理

5.3 安全接管:敏感操作,永远由你说了算

框架内置三级权限:

  • L1常规操作:打开App、点击、输入文字 → AI自主执行
  • L2半敏感操作:发送消息、添加好友、修改设置 → AI执行前弹窗“确认执行?”
  • L3高危操作:支付、转账、删除联系人、清除数据 → AI直接停止,提示“需人工介入”

所有操作日志实时保存在./logs/目录,含时间戳、截图、动作序列。你可以随时审计:“它刚才到底点了哪里?”

我故意测试了“删除微信聊天记录”,AI立刻返回:
【安全拦截】检测到高危指令‘删除聊天记录’,已终止执行。如需操作,请手动完成。
——这比任何说明书都让人安心。

6. 总结:它不是替代你,而是把时间还给你

实测三天后,我删掉了手机里两个自动化App(Tasker、MacroDroid),因为Open-AutoGLM做到了它们做不到的事:
真正理解意图:不是靠坐标点击,而是看懂界面语义(“搜索框”“关注按钮”“返回箭头”)
跨App无缝协作:从抖音跳转微信、从美团跳转高德,无需预设流程图
越用越懂你:记住你常去的App、常用的话术、甚至偏好风格(比如你总说“截图”,它下次会自动裁切关键区域)

它当然不完美:

  • 首次部署需要一点耐心(主要是ADB环境)
  • 复杂图形界面(如游戏)识别率待提升
  • 网络波动时,云端API响应延迟明显

但它的价值不在“多强大”,而在“多自然”。
你不用学编程,不用记命令,甚至不用打开文档——就像教一个聪明的朋友做事:“嘿,帮我打开这个App,找那个东西,点一下。”
它听懂了,然后去做。

这才是AI该有的样子:不炫技,不打扰,就在你需要时,安静地伸出手。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/6 0:20:23

Cute_Animal_For_Kids_Qwen_Image API调用:Python接入教程

Cute_Animal_For_Kids_Qwen_Image API调用:Python接入教程 1. 这不是普通画图工具,是专为孩子准备的“动物童话生成器” 你有没有试过这样的情景:孩子趴在你身边,眼睛亮晶晶地问:“爸爸/妈妈,能给我画一只…

作者头像 李华
网站建设 2026/4/18 8:42:28

15B小模型竟达52分推理!Apriel-1.5新突破

15B小模型竟达52分推理!Apriel-1.5新突破 【免费下载链接】Apriel-1.5-15b-Thinker-GGUF 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/Apriel-1.5-15b-Thinker-GGUF 导语:ServiceNow推出的150亿参数模型Apriel-1.5-15b-Thinker在推理能…

作者头像 李华
网站建设 2026/4/18 6:30:47

Glyph镜像一键部署教程:快速上手视觉推理任务

Glyph镜像一键部署教程:快速上手视觉推理任务 1. 什么是Glyph?——专为长文本视觉化推理而生的新思路 你有没有遇到过这样的问题:想让AI理解一篇长达上万字的技术文档、一份几十页的PDF报告,或者一段密密麻麻的代码日志&#xf…

作者头像 李华
网站建设 2026/3/14 16:00:08

Qwen-Image-Edit-2511上手实录,效果立竿见影

Qwen-Image-Edit-2511上手实录,效果立竿见影 1. 这不是又一个“修图工具”,而是真正能听懂你话的图像编辑伙伴 你有没有试过这样改一张图:想把人像从咖啡馆背景换成雪山,结果脸歪了、衣服变形、连头发丝都像被风吹散&#xff1b…

作者头像 李华
网站建设 2026/4/18 7:37:07

GPEN模型切换CUDA失败?GPU设备配置问题解决指南

GPEN模型切换CUDA失败?GPU设备配置问题解决指南 1. 问题背景:为什么CUDA切换总不成功? 你是不是也遇到过这样的情况:明明服务器装了NVIDIA显卡,nvidia-smi能正常显示GPU信息,torch.cuda.is_available()返…

作者头像 李华
网站建设 2026/4/17 23:59:48

Qwen-Image-Edit-2509:多图融合+ControlNet的AI修图新突破

Qwen-Image-Edit-2509:多图融合ControlNet的AI修图新突破 【免费下载链接】Qwen-Image-Edit-2509 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen-Image-Edit-2509 导语:阿里云最新发布的Qwen-Image-Edit-2509模型,通过多图…

作者头像 李华