news 2026/4/17 14:37:50

告别手动点击!Open-AutoGLM让AI帮你刷抖音关注博主

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别手动点击!Open-AutoGLM让AI帮你刷抖音关注博主

告别手动点击!Open-AutoGLM让AI帮你刷抖音关注博主

1. 让AI替你操作手机:AutoGLM的智能革命

你有没有想过,有一天只需要说一句话,比如“帮我关注这个抖音号”,手机就能自动打开抖音、搜索用户、进入主页并完成关注?听起来像科幻片的情节,但现在通过Open-AutoGLM,这一切已经可以实现。

这不是某个大厂的封闭系统,而是由智谱AI开源推出的手机端AI Agent框架——AutoGLM-Phone。它基于视觉语言模型(VLM)和自动化控制技术,真正实现了“AI看懂屏幕 + 自动操作设备”的闭环能力。你只需用自然语言下达指令,剩下的事全交给AI来完成。

更关键的是,整个系统支持本地私有化部署,不依赖云端API调用,数据更安全,响应更快,还能完全自定义任务流程。无论是批量运营账号、自动化测试APP,还是解放双手刷短视频,Open-AutoGLM都能成为你的“数字分身”。

本文将带你从零开始,一步步搭建这套AI手机助手系统,并以“自动关注抖音博主”为例,展示其真实效果与工程落地细节。


2. Open-AutoGLM是什么?核心原理全解析

2.1 多模态理解 + 自动执行的技术架构

Open-AutoGLM 的本质是一个多模态AI代理(Multi-modal Agent),它的运行流程分为四个关键环节:

  1. 屏幕感知:通过ADB截取手机当前画面,送入视觉语言模型进行分析;
  2. 意图理解:结合用户输入的自然语言指令,解析出目标动作(如“关注某人”);
  3. 路径规划:根据界面元素识别结果,推理出下一步应点击的位置或执行的操作;
  4. 自动执行:通过ADB发送点击、滑动、输入等指令,驱动手机完成操作。

整个过程无需Root权限,也不需要APP提供开放接口,完全模拟人工操作行为,兼容几乎所有Android应用。

2.2 核心组件说明

组件功能
AutoGLM-Phone-9B 模型基于90亿参数的大模型,专为手机界面理解和操作决策优化
ADB (Android Debug Bridge)安卓调试桥,用于连接设备、截图、发送操作指令
vLLM 或 HuggingFace 推理引擎在GPU服务器上加载并运行大模型
Open-AutoGLM 控制端代码本地运行的Python程序,负责协调模型与设备通信

这套组合拳使得AI不仅能“看到”屏幕内容,还能“理解”按钮功能、“思考”操作顺序,最终“动手”完成任务。


3. 准备工作:软硬件环境配置清单

要让Open-AutoGLM顺利运行,你需要准备以下几类资源:

3.1 硬件与网络要求

  • 云GPU服务器:推荐A100-40GB或RTX 5090-32GB及以上显卡,显存≥32GB
  • 本地电脑:Windows/macOS均可,用于连接手机和运行控制脚本
  • 安卓手机:Android 7.0以上版本,建议使用真机(模拟器兼容性较差)
  • 稳定网络:云服务器与本地电脑需保持低延迟通信

3.2 软件依赖项

  • Python 3.10+
  • ADB 工具包(Android SDK Platform Tools)
  • Git(用于克隆代码仓库)
  • Conda 或 Virtualenv(推荐使用conda管理虚拟环境)

3.3 必备工具下载地址

  • Open-AutoGLM GitHub仓库
  • AutoGLM-Phone-9B 模型页面
  • ADB Keyboard APK 下载

4. 手机端设置:打通AI操控的第一步

在AI能操作手机之前,必须先完成基础配置,确保ADB可以正常通信并输入文字。

4.1 开启开发者模式与USB调试

  1. 进入手机「设置」→「关于手机」;
  2. 连续点击「版本号」7次,直到提示“您已开启开发者模式”;
  3. 返回设置主菜单,进入「开发者选项」;
  4. 启用「USB调试」功能;
  5. (可选)同时开启「USB调试(安全设置)」以避免授权弹窗阻塞。

注意:首次连接时,手机会弹出“允许USB调试吗?”的对话框,请务必勾选“始终允许”并确认。

4.2 安装ADB Keyboard(关键步骤!)

默认情况下,ADB只能发送点击和滑动指令,无法输入文本。为此,我们需要安装一个特殊的输入法:ADB Keyboard

操作步骤如下:

  1. 将下载好的ADBKeyboard.apk文件传到手机;
  2. 安装该应用(需允许“未知来源安装”);
  3. 进入「设置」→「语言与输入法」→「默认输入法」;
  4. 选择「ADB Keyboard」作为当前输入法。

验证是否成功:在命令行执行

adb shell input text "Hello"

如果手机任意输入框中出现“Hello”字样,则说明ADB输入功能已通。


5. 部署控制端:本地环境搭建全流程

所有准备工作完成后,接下来在本地电脑部署Open-AutoGLM的控制端代码。

5.1 克隆项目并安装依赖

打开终端,依次执行以下命令:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建Python虚拟环境(推荐conda) conda create -n autoglm python=3.10 conda activate autoglm # 安装依赖 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip install -e .

提示:使用清华源可显著提升国内下载速度。若遇到依赖冲突,先升级pip:

pip install --upgrade pip

5.2 验证ADB设备连接

确保手机通过USB线连接电脑后,执行:

adb devices

正常输出应类似:

List of devices attached 1234567890ABCDEF device

如果显示unauthorized,请重新插拔USB线并在手机上授权;若无任何设备,请检查USB线是否支持数据传输。


6. 远程连接方案:WiFi无线控制手机

虽然USB连接最稳定,但长期插线不方便。Open-AutoGLM支持通过WiFi进行远程ADB连接,摆脱物理线缆束缚。

6.1 切换至WiFi模式

首先通过USB连接手机,然后执行:

adb tcpip 5555

这会启动手机的ADB服务监听5555端口。接着断开USB线,在同一局域网下执行:

adb connect 192.168.x.x:5555

其中192.168.x.x是手机的局域网IP地址(可在Wi-Fi设置中查看)。

连接成功后,再次运行adb devices应能看到设备ID出现在列表中。

6.3 实际应用场景优势

  • 支持远程调试,无需靠近设备;
  • 可同时管理多台手机(只要IP不同);
  • 更适合长期运行自动化任务。

7. 启动AI代理:一句话完成抖音关注操作

现在,终于到了见证奇迹的时刻!

7.1 准备运行命令

假设你已经在云服务器上部署好了AutoGLM模型服务(可通过vLLM或ModelScope部署),并且获得了公网IP和映射端口(例如http://your-server-ip:8800/v1)。

在本地Open-AutoGLM目录下运行:

python main.py \ --device-id 1234567890ABCDEF \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:通过adb devices获取的设备唯一标识
  • --base-url:云服务器上模型服务的API地址
  • 最后的字符串:你要下达的自然语言指令

7.2 AI是如何一步步执行的?

当指令发出后,AI代理会自动执行以下流程:

  1. 检测当前是否在桌面,如果不是则返回主屏;
  2. 查找并点击“抖音”App图标;
  3. 等待App启动,识别搜索框位置;
  4. 输入目标抖音号dycwo11nt61d
  5. 点击搜索结果中的对应用户;
  6. 进入个人主页,查找“关注”按钮并点击;
  7. 确认关注状态已变为“已关注”。

整个过程无需人工干预,AI会根据实时截图动态调整操作策略,即使界面略有变化也能应对。


8. 安全机制设计:敏感操作有人工兜底

尽管AI能自动完成大部分任务,但涉及隐私或资金的操作仍需谨慎处理。

Open-AutoGLM内置了敏感操作确认机制,例如:

  • 当检测到登录页面时,暂停自动化流程,等待人工输入验证码;
  • 在支付类APP中,遇到“确认付款”按钮时主动停止;
  • 支持手动接管:按下音量+键即可临时中断AI控制。

此外,系统还提供了远程调试接口,开发者可通过Web UI实时监控AI决策过程,查看每一步的截图与动作预测。


9. 常见问题排查指南

9.1 连接类问题

问题现象可能原因解决方法
adb devices显示 unauthorized未授权调试重新插拔USB,手机端确认授权
设备无法连接WiFi ADBIP错误或端口未开启使用adb tcpip 5555重置
云服务器无法访问防火墙未放行端口检查安全组规则,开放对应端口

9.2 执行异常

问题现象可能原因解决方法
AI无法输入文字ADB Keyboard未启用检查默认输入法设置
操作卡住不动屏幕锁未关闭关闭锁屏密码或使用无障碍服务
模型响应慢或乱码显存不足或max-model-len设置不当调整vLLM启动参数

9.3 性能优化建议

  • 首次运行会自动下载模型,建议提前缓存;
  • 使用SSD硬盘可加快模型加载速度;
  • 对特定APP微调模型,可大幅提升准确率。

10. 总结:AI操作手机的时代已经到来

Open-AutoGLM 不只是一个技术玩具,它是迈向“通用AI代理”的重要一步。通过本文的实践,我们已经验证了它能够:

  • 理解自然语言指令;
  • 自主解析手机界面;
  • 规划并执行复杂操作流程;
  • 在真实场景中完成如“关注抖音博主”这样的具体任务。

更重要的是,这套系统完全开源、可私有化部署,意味着你可以将其应用于:

  • 社交媒体批量运营;
  • APP自动化测试;
  • 老人辅助操作智能设备;
  • 企业级RPA流程自动化。

未来,随着模型能力的进一步提升,AI不仅能“操作手机”,还能“理解用户习惯”、“预判需求”、“主动服务”。而今天的一切,正是这场变革的起点。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 11:20:02

VS2017下载与AI编程助手:如何提升开发效率

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个VS2017插件,集成AI编程助手功能,支持代码自动补全、错误检测和智能调试建议。插件应兼容VS2017的C、C#和Python开发环境,提供实时反馈和…

作者头像 李华
网站建设 2026/4/18 10:50:22

如何用AI快速掌握KETTLE工具?

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个AI辅助学习KETTLE工具的应用。功能包括:1. 根据用户输入的数据源和目标自动生成KETTLE转换脚本;2. 提供实时语法检查和优化建议;3. 内置…

作者头像 李华
网站建设 2026/4/18 8:15:27

零基础教程:用快马轻松解压7Z文件

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个极简的7Z文件解压工具,要求:1.完全图形化界面 2.拖放文件即可解压 3.进度条显示 4.成功/失败提示 5.帮助文档按钮。使用快马平台生成完整项目&…

作者头像 李华
网站建设 2026/4/18 10:08:41

传统JSON处理 vs AI辅助生成:效率对比实验

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个JSON生成效率对比工具,左侧为传统手动输入区域,右侧为AI生成区域。用户输入相同的需求描述,系统分别记录手动编写和AI生成所需时间&…

作者头像 李华
网站建设 2026/4/18 8:35:40

AFSIM快速原型:48小时验证新型作战概念

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 设计一个AFSIM原型工厂系统,功能包括:1. 拖拽式场景组件库;2. 参数化作战单元生成器;3. 实时协同编辑功能;4. 一键导出可…

作者头像 李华
网站建设 2026/4/17 22:53:42

LangGraph+MCP+ReactAgent技术组合,构建智能代理(Agent)系统

LangGraph 提供了智能体的框架和执行机制。 MCP 提供了外部服务的接入能力,支持调用外部工具和数据源。 ReAct Agent 提供了推理和行动的机制,支持智能体的自主决策和任务执行。 实现效果 核心技术栈 LangGraph LangGraph 是一个用于构建和运行智能代理…

作者头像 李华