告别手动点击!Open-AutoGLM让AI帮你刷抖音关注博主
1. 让AI替你操作手机:AutoGLM的智能革命
你有没有想过,有一天只需要说一句话,比如“帮我关注这个抖音号”,手机就能自动打开抖音、搜索用户、进入主页并完成关注?听起来像科幻片的情节,但现在通过Open-AutoGLM,这一切已经可以实现。
这不是某个大厂的封闭系统,而是由智谱AI开源推出的手机端AI Agent框架——AutoGLM-Phone。它基于视觉语言模型(VLM)和自动化控制技术,真正实现了“AI看懂屏幕 + 自动操作设备”的闭环能力。你只需用自然语言下达指令,剩下的事全交给AI来完成。
更关键的是,整个系统支持本地私有化部署,不依赖云端API调用,数据更安全,响应更快,还能完全自定义任务流程。无论是批量运营账号、自动化测试APP,还是解放双手刷短视频,Open-AutoGLM都能成为你的“数字分身”。
本文将带你从零开始,一步步搭建这套AI手机助手系统,并以“自动关注抖音博主”为例,展示其真实效果与工程落地细节。
2. Open-AutoGLM是什么?核心原理全解析
2.1 多模态理解 + 自动执行的技术架构
Open-AutoGLM 的本质是一个多模态AI代理(Multi-modal Agent),它的运行流程分为四个关键环节:
- 屏幕感知:通过ADB截取手机当前画面,送入视觉语言模型进行分析;
- 意图理解:结合用户输入的自然语言指令,解析出目标动作(如“关注某人”);
- 路径规划:根据界面元素识别结果,推理出下一步应点击的位置或执行的操作;
- 自动执行:通过ADB发送点击、滑动、输入等指令,驱动手机完成操作。
整个过程无需Root权限,也不需要APP提供开放接口,完全模拟人工操作行为,兼容几乎所有Android应用。
2.2 核心组件说明
| 组件 | 功能 |
|---|---|
| AutoGLM-Phone-9B 模型 | 基于90亿参数的大模型,专为手机界面理解和操作决策优化 |
| ADB (Android Debug Bridge) | 安卓调试桥,用于连接设备、截图、发送操作指令 |
| vLLM 或 HuggingFace 推理引擎 | 在GPU服务器上加载并运行大模型 |
| Open-AutoGLM 控制端代码 | 本地运行的Python程序,负责协调模型与设备通信 |
这套组合拳使得AI不仅能“看到”屏幕内容,还能“理解”按钮功能、“思考”操作顺序,最终“动手”完成任务。
3. 准备工作:软硬件环境配置清单
要让Open-AutoGLM顺利运行,你需要准备以下几类资源:
3.1 硬件与网络要求
- 云GPU服务器:推荐A100-40GB或RTX 5090-32GB及以上显卡,显存≥32GB
- 本地电脑:Windows/macOS均可,用于连接手机和运行控制脚本
- 安卓手机:Android 7.0以上版本,建议使用真机(模拟器兼容性较差)
- 稳定网络:云服务器与本地电脑需保持低延迟通信
3.2 软件依赖项
- Python 3.10+
- ADB 工具包(Android SDK Platform Tools)
- Git(用于克隆代码仓库)
- Conda 或 Virtualenv(推荐使用conda管理虚拟环境)
3.3 必备工具下载地址
- Open-AutoGLM GitHub仓库
- AutoGLM-Phone-9B 模型页面
- ADB Keyboard APK 下载
4. 手机端设置:打通AI操控的第一步
在AI能操作手机之前,必须先完成基础配置,确保ADB可以正常通信并输入文字。
4.1 开启开发者模式与USB调试
- 进入手机「设置」→「关于手机」;
- 连续点击「版本号」7次,直到提示“您已开启开发者模式”;
- 返回设置主菜单,进入「开发者选项」;
- 启用「USB调试」功能;
- (可选)同时开启「USB调试(安全设置)」以避免授权弹窗阻塞。
注意:首次连接时,手机会弹出“允许USB调试吗?”的对话框,请务必勾选“始终允许”并确认。
4.2 安装ADB Keyboard(关键步骤!)
默认情况下,ADB只能发送点击和滑动指令,无法输入文本。为此,我们需要安装一个特殊的输入法:ADB Keyboard。
操作步骤如下:
- 将下载好的
ADBKeyboard.apk文件传到手机; - 安装该应用(需允许“未知来源安装”);
- 进入「设置」→「语言与输入法」→「默认输入法」;
- 选择「ADB Keyboard」作为当前输入法。
验证是否成功:在命令行执行
adb shell input text "Hello"如果手机任意输入框中出现“Hello”字样,则说明ADB输入功能已通。
5. 部署控制端:本地环境搭建全流程
所有准备工作完成后,接下来在本地电脑部署Open-AutoGLM的控制端代码。
5.1 克隆项目并安装依赖
打开终端,依次执行以下命令:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建Python虚拟环境(推荐conda) conda create -n autoglm python=3.10 conda activate autoglm # 安装依赖 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip install -e .提示:使用清华源可显著提升国内下载速度。若遇到依赖冲突,先升级pip:
pip install --upgrade pip
5.2 验证ADB设备连接
确保手机通过USB线连接电脑后,执行:
adb devices正常输出应类似:
List of devices attached 1234567890ABCDEF device如果显示unauthorized,请重新插拔USB线并在手机上授权;若无任何设备,请检查USB线是否支持数据传输。
6. 远程连接方案:WiFi无线控制手机
虽然USB连接最稳定,但长期插线不方便。Open-AutoGLM支持通过WiFi进行远程ADB连接,摆脱物理线缆束缚。
6.1 切换至WiFi模式
首先通过USB连接手机,然后执行:
adb tcpip 5555这会启动手机的ADB服务监听5555端口。接着断开USB线,在同一局域网下执行:
adb connect 192.168.x.x:5555其中192.168.x.x是手机的局域网IP地址(可在Wi-Fi设置中查看)。
连接成功后,再次运行adb devices应能看到设备ID出现在列表中。
6.3 实际应用场景优势
- 支持远程调试,无需靠近设备;
- 可同时管理多台手机(只要IP不同);
- 更适合长期运行自动化任务。
7. 启动AI代理:一句话完成抖音关注操作
现在,终于到了见证奇迹的时刻!
7.1 准备运行命令
假设你已经在云服务器上部署好了AutoGLM模型服务(可通过vLLM或ModelScope部署),并且获得了公网IP和映射端口(例如http://your-server-ip:8800/v1)。
在本地Open-AutoGLM目录下运行:
python main.py \ --device-id 1234567890ABCDEF \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
--device-id:通过adb devices获取的设备唯一标识--base-url:云服务器上模型服务的API地址- 最后的字符串:你要下达的自然语言指令
7.2 AI是如何一步步执行的?
当指令发出后,AI代理会自动执行以下流程:
- 检测当前是否在桌面,如果不是则返回主屏;
- 查找并点击“抖音”App图标;
- 等待App启动,识别搜索框位置;
- 输入目标抖音号
dycwo11nt61d; - 点击搜索结果中的对应用户;
- 进入个人主页,查找“关注”按钮并点击;
- 确认关注状态已变为“已关注”。
整个过程无需人工干预,AI会根据实时截图动态调整操作策略,即使界面略有变化也能应对。
8. 安全机制设计:敏感操作有人工兜底
尽管AI能自动完成大部分任务,但涉及隐私或资金的操作仍需谨慎处理。
Open-AutoGLM内置了敏感操作确认机制,例如:
- 当检测到登录页面时,暂停自动化流程,等待人工输入验证码;
- 在支付类APP中,遇到“确认付款”按钮时主动停止;
- 支持手动接管:按下音量+键即可临时中断AI控制。
此外,系统还提供了远程调试接口,开发者可通过Web UI实时监控AI决策过程,查看每一步的截图与动作预测。
9. 常见问题排查指南
9.1 连接类问题
| 问题现象 | 可能原因 | 解决方法 |
|---|---|---|
adb devices显示 unauthorized | 未授权调试 | 重新插拔USB,手机端确认授权 |
| 设备无法连接WiFi ADB | IP错误或端口未开启 | 使用adb tcpip 5555重置 |
| 云服务器无法访问 | 防火墙未放行端口 | 检查安全组规则,开放对应端口 |
9.2 执行异常
| 问题现象 | 可能原因 | 解决方法 |
|---|---|---|
| AI无法输入文字 | ADB Keyboard未启用 | 检查默认输入法设置 |
| 操作卡住不动 | 屏幕锁未关闭 | 关闭锁屏密码或使用无障碍服务 |
| 模型响应慢或乱码 | 显存不足或max-model-len设置不当 | 调整vLLM启动参数 |
9.3 性能优化建议
- 首次运行会自动下载模型,建议提前缓存;
- 使用SSD硬盘可加快模型加载速度;
- 对特定APP微调模型,可大幅提升准确率。
10. 总结:AI操作手机的时代已经到来
Open-AutoGLM 不只是一个技术玩具,它是迈向“通用AI代理”的重要一步。通过本文的实践,我们已经验证了它能够:
- 理解自然语言指令;
- 自主解析手机界面;
- 规划并执行复杂操作流程;
- 在真实场景中完成如“关注抖音博主”这样的具体任务。
更重要的是,这套系统完全开源、可私有化部署,意味着你可以将其应用于:
- 社交媒体批量运营;
- APP自动化测试;
- 老人辅助操作智能设备;
- 企业级RPA流程自动化。
未来,随着模型能力的进一步提升,AI不仅能“操作手机”,还能“理解用户习惯”、“预判需求”、“主动服务”。而今天的一切,正是这场变革的起点。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。