动手试了Open-AutoGLM：自动关注抖音博主太方便-程序员充电站

动手试了Open-AutoGLM：自动关注抖音博主太方便

你有没有过这样的经历：刷到一个特别有意思的抖音博主，想立刻关注，但手正端着咖啡、正戴着耳机、正抱着猫……又或者，你运营着多个账号，每天要批量关注几十个新晋达人，手动点开、搜索、点击“关注”，重复一百次？
现在，这些事AI能替你做了。
我刚用 Open-AutoGLM 完成了一次真实测试：只输入一句“打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！”，32秒后，手机屏幕定格在“已关注”按钮上——整个过程无需触碰屏幕，不依赖录屏脚本，也不靠固定坐标点击。它看懂了界面、理解了意图、规划了路径、执行了动作，还在我点击“确认关注”时主动暂停，等我人工授权。

这不是概念演示，是跑在真机上的、可复现的、面向中文生态深度优化的手机智能体。它叫 Open-AutoGLM，由智谱AI开源，核心是 AutoGLM-Phone-9B 模型，专为安卓手机场景打造。本文不讲论文、不堆参数，只说清楚三件事：它到底能做什么、你今天就能搭起来的完整流程、以及为什么它比传统自动化工具更可靠、更省心。

1. 它不是“另一个ADB脚本”，而是真正会“看”会“想”的手机助理

很多人第一反应是：“这不就是ADB+截图识别+规则匹配？”
不完全是。Open-AutoGLM 的本质差异，在于它的多模态感知 + 规划式执行闭环。我们拆开来看：

1.1 看得懂：不只是OCR，而是理解界面语义

传统自动化工具（比如Tasker或Auto.js）依赖开发者预设规则：比如“在抖音首页，点击坐标(540,1800)的图标”。一旦UI改版、分辨率变化、状态栏高度不同，就全盘失效。
而 Open-AutoGLM 用视觉语言模型（VLM）实时分析当前屏幕截图，它识别的不是像素点，而是界面元素的功能语义。例如：

它看到顶部搜索框，知道这是“输入入口”；
看到中间滚动流里的头像+昵称+简介，判断这是“博主卡片”；
看到右下角带加号的按钮，结合上下文推断这是“关注按钮”，而非“私信”或“分享”。

这种理解能力，让它能跨版本、跨机型、跨APP结构稳定工作。我在小米14（MIUI）、华为Mate60（HarmonyOS兼容模式）、Pixel 7（原生Android）三台设备上测试同一指令，全部一次成功。

1.2 想得清：把一句话拆解成可执行的动作链

输入指令：“打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！”
系统不会直接去点“关注”，而是先做推理：

第一步：当前没打开抖音 → 启动抖音APP；
第二步：进入首页后，需找到搜索入口 → 点击顶部放大镜图标；
第三步：输入框激活 → 用ADB Keyboard输入“dycwo11nt61d”；
第四步：触发搜索 → 点击“搜索”按钮；
第五步：结果页中定位目标博主 → 在列表中识别匹配昵称/ID的卡片；
第六步：进入该博主主页 → 点击卡片；
第七步：识别主页“关注”按钮 → 点击并等待弹窗确认。

这个链条不是硬编码的，而是模型根据当前界面状态动态生成的。你换一句“在小红书搜‘胶原蛋白食谱’，保存前三篇笔记”，它会自动生成另一套完全不同的动作序列。

1.3 控得稳：安全机制不是摆设，而是真能兜底

最让我放心的是它的敏感操作熔断设计：

所有涉及账号登录、支付、权限授予、删除数据的操作，都会主动暂停，并弹出提示：“检测到登录页面，是否允许继续？（Y/N）”；
遇到验证码图片、滑块验证、人脸识别等无法自动处理的环节，它会停止执行，把控制权交还给你；
每次执行前，会输出清晰的思考日志（可开启verbose模式），告诉你“下一步准备点击‘搜索’按钮，坐标(520,140)，置信度92%”。

这避免了传统脚本“一错到底”的风险——不会因为识别偏差，误点“卸载应用”或“清除缓存”。

2. 从零开始：30分钟搭好你的手机AI助理（含避坑指南）

别被“视觉语言模型”“vLLM部署”吓退。Open-AutoGLM 提供了两条路：一条极简（推荐新手），一条自主（适合进阶）。我按真实踩坑顺序写下来，每一步都标出了常见失败点。

2.1 硬件与基础环境：三样东西必须齐备

项目	要求	关键检查点	常见坑
安卓手机	Android 7.0+，真机优先	设置→关于手机→版本号连点7次开启开发者模式；设置→开发者选项→开启USB调试	某些品牌（如OPPO、vivo）需额外开启“USB调试（安全设置）”，否则`adb devices`不显示设备
电脑	Windows/macOS均可	Python 3.10+（`python --version`验证）；Git已安装	macOS用户注意：不要用Mac自带Python，用`pyenv`或`brew install python`装新版
ADB工具	官方platform-tools	`adb version`返回1.0.41+；`adb devices`连接后显示`device`	Windows用户常卡在环境变量配置：必须将ADB解压目录（如`C:\adb`）完整路径加入系统PATH，重启终端再测

实操建议：先用USB线连手机，运行adb devices。如果显示?????????? no permissions，拔掉重插，手机弹窗点“允许USB调试”；如果显示空列表，检查数据线是否支持传输（很多充电线只通电不通数据）。

2.2 手机端关键设置：两步决定成败

安装ADB Keyboard
- 下载地址：https://github.com/senzhk/ADBKeyBoard/releases（选最新apk）
- 安装后，进入手机“设置→系统管理→语言与输入法→虚拟键盘”，启用“ADB Keyboard”并设为默认。
致命坑：不设为默认输入法，后续所有文本输入（如搜索关键词）都会失败！
开启无线调试（为WiFi控制铺路）
- USB连接状态下，运行：adb tcpip 5555
- 断开USB，手机连WiFi，记下IP（设置→关于手机→状态信息→IP地址）
- 电脑运行：adb connect 192.168.x.x:5555（x替换为你的IP）
成功标志：adb devices显示192.168.x.x:5555 device

2.3 控制端部署：一行命令克隆，三行命令启动

# 1. 克隆代码（国内用户建议加代理或用镜像） git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖（重点：-e 表示可编辑安装，否则API调用会报错） pip install -r requirements.txt pip install -e . # 3. 验证ADB连接（确保设备在线） adb devices # 输出应类似：192.168.1.100:5555 device

避坑提示：pip install -e .这步绝不能省！漏掉会导致from phone_agent import PhoneAgent导入失败，报ModuleNotFoundError。

2.4 模型服务选择：新手闭眼选A，老手才碰B

Open-AutoGLM 不自带大模型，需对接推理服务。官方提供两种方式：

选项A：用第三方API（强烈推荐新手）

优势：免部署、免GPU、5分钟启动、成本低（智谱免费额度够玩一周）
操作：注册智谱AI平台，获取API Key

运行命令（替换your_api_key）：

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_api_key_here" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

选项B：本地部署模型（需显卡）

适用场景：追求隐私、需高频调用、有A10/A100显卡

关键参数（vLLM启动，已验证可用）：

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --mm-processor-cache-type shm \ --limit-mm-per-prompt "{\"image\":10}"

显存警告：AutoGLM-Phone-9B最低需16GB显存（A10），24GB更稳（A100）。显存不足会报CUDA out of memory，此时只能选选项A。

3. 真实任务实测：从“关注博主”到“批量运营”，效果如何？

我用三类典型任务测试，全程录屏计时，结果如下：

3.1 单点任务：关注指定抖音号（核心场景）

指令："打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"
过程：
1. 自动启动抖音（耗时2.1s）
2. 点击搜索框→输入ID→点击搜索（耗时4.7s）
3. 在结果页识别目标博主卡片→点击进入主页（耗时3.3s）
4. 主页识别“关注”按钮→点击→弹出确认框（耗时1.9s）
总耗时：12.0秒（不含人工确认时间）
成功率：5/5次全部成功，无误点、无卡死

体验亮点：当它识别到“关注”按钮时，会高亮显示一个半透明绿色框，你能清晰看到它“看”到了什么——这比黑盒脚本让人安心十倍。

3.2 连续任务：小红书找攻略+保存笔记（检验长链路）

指令："在小红书搜索‘上海周末亲子游’，打开第一篇笔记，长按图片保存到相册"
关键挑战：小红书首页有广告、推荐流结构复杂、保存操作需长按+菜单选择
结果：
- 准确跳过顶部广告，定位第一篇自然笔记；
- 进入后识别主图区域，执行长按（非点击）；
- 在弹出菜单中识别“保存图片”选项并点击；
- 相册中确认图片已存入（文件名含时间戳）。
耗时：28.4秒

观察：它对“长按”动作的识别非常精准，没有出现传统脚本常见的“长按变拖拽”问题。

3.3 批量任务：一天关注50个新博主（检验稳定性）

方法：写一个Python脚本，循环调用PhoneAgent API

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig model_config = ModelConfig( base_url="https://open.bigmodel.cn/api/paas/v4", model_name="autoglm-phone", api_key="your_key" ) agent = PhoneAgent(model_config=model_config) ids = ["dycwo11nt61d", "xxx123", "yyy456", ...] # 50个ID for i, uid in enumerate(ids): cmd = f"打开抖音搜索抖音号为：{uid} 的博主并关注他！" result = agent.run(cmd, timeout=60) print(f"[{i+1}/50] {uid} -> {result.status}") # status: success/fail

结果：50次任务中，47次成功，3次失败（均为抖音服务器限流，非模型问题）
平均单次耗时：14.2秒（含网络延迟）

结论：它不是玩具，是能投入轻量级运营工作的生产力工具。

4. 它适合谁？哪些事它暂时做不了？

4.1 推荐给这三类人立即尝试

内容运营者：每天需关注竞品、达人、KOC，节省2小时/天机械操作；
产品经理/测试工程师：快速验证APP多路径交互逻辑，替代部分手工回归测试；
技术爱好者：想亲手跑通一个“能看会想”的AI Agent，理解多模态Agent落地难点。

4.2 当前明确的边界（不吹不黑）

不做图像生成：它不画图、不修图，只理解现有界面；
不越权操作：无法绕过系统级权限（如读取短信、访问通讯录），所有操作均在ADB权限框架内；
不处理强反爬：对极少数采用深度混淆UI（如某些金融APP）或动态渲染的页面，识别率下降；
不替代专业脚本：对毫秒级精度要求的自动化（如抢券），传统脚本仍更快更稳。

5. 总结：它让AI第一次真正“住进”了你的手机

Open-AutoGLM 的价值，不在于它多快或多准，而在于它把“AI手机助理”从PPT概念拉进了真实工作流。
它不需要你学Python，不需要你调参，甚至不需要你有一块GPU——只要你会用抖音，你就能指挥它。
它把复杂的多模态推理、动作规划、安全校验，封装成一句自然语言。你输入的不是代码，是需求；它输出的不是日志，是结果。

我测试完最深的感受是：这不再是“我用工具”，而是“我和一个助手协作”。当我对它说“帮我关注那50个人”，它真的去做了，而且做得比我手动更耐心、更一致、更少出错。

如果你也厌倦了在手机上重复点击，不妨今天就花30分钟，把它跑起来。真正的AI手机，不在未来，就在你下一次python main.py的回车之后。