news 2026/6/10 15:01:39

Open-AutoGLM社交自动化:小红书搜美食一键执行教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM社交自动化:小红书搜美食一键执行教程

Open-AutoGLM社交自动化:小红书搜美食一键执行教程

1. 认识Open-AutoGLM:让AI替你操作手机

你有没有想过,有一天只需要说一句话,比如“打开小红书搜美食”,手机就能自动完成所有点击、输入和滑动?这不是科幻,而是Open-AutoGLM正在实现的现实。

Open-AutoGLM 是由智谱开源的一款面向手机端的 AI Agent 框架。它基于强大的视觉语言模型(VLM),结合 ADB(Android Debug Bridge)技术,真正实现了“用自然语言操控安卓设备”。这个系统不仅能“看懂”屏幕上的每一个按钮、文字和图标,还能理解你的意图,自主规划操作路径,并一步步执行下去——就像一个会思考的虚拟助手在替你使用手机。

它的核心项目之一AutoGLM-Phone,正是为这类任务而生。用户只需输入一句指令,例如“搜索附近评分高的川菜馆”,系统就会自动唤醒小红书App、进入搜索框、输入关键词、浏览结果并完成整个流程。更厉害的是,它具备多模态感知能力:通过截图分析界面结构,识别可交互元素,再决定是点击、滑动还是输入文字。

而在此基础上构建的Phone Agent框架,则进一步增强了稳定性与安全性。它支持远程调试、人工接管机制,在遇到登录验证或敏感操作时,可以暂停并提示用户确认,避免误操作。无论是日常高频动作,还是跨应用串联任务,这套系统都能帮你省下大量重复劳动的时间。

本篇教程将带你从零开始,手把手部署 Open-AutoGLM 控制端,连接真实安卓设备,最终实现“一句话打开小红书搜美食”的全自动化操作。


2. 准备工作:软硬件环境搭建

要让 AI 成功控制你的手机,我们需要先准备好本地电脑和安卓设备的基础环境。这一步看似繁琐,但只要按步骤来,非常容易搞定。

2.1 系统与工具要求

以下是推荐配置:

  • 操作系统:Windows 10/11 或 macOS(Linux也可行)
  • Python版本:建议使用 Python 3.10 或更高版本
  • 安卓设备:Android 7.0 及以上系统的手机或模拟器
  • ADB 工具包:用于与安卓设备通信的核心工具

什么是 ADB?

ADB(Android Debug Bridge)是 Android 提供的一个命令行工具,允许开发者通过电脑对手机进行调试、安装应用、发送指令等操作。Open-AutoGLM 正是通过 ADB 发送点击、滑动、输入等底层命令,从而实现自动化控制。

2.2 安装并配置 ADB

Windows 用户
  1. 前往 Android SDK Platform Tools 下载最新版。
  2. 解压压缩包到任意目录,例如C:\platform-tools
  3. 配置环境变量:
    • Win + R输入sysdm.cpl回车,打开“系统属性”。
    • 切换到“高级”选项卡 → 点击“环境变量”。
    • 在“系统变量”中找到Path,双击编辑 → 添加刚才解压的路径(如C:\platform-tools)。
  4. 打开命令提示符(CMD),输入:
    adb version
    如果返回类似Android Debug Bridge version X.X.X的信息,说明安装成功。
macOS 用户
  1. 下载 platform-tools 并解压到本地,比如~/Downloads/platform-tools
  2. 打开终端(Terminal),运行以下命令添加路径:
    export PATH=${PATH}:~/Downloads/platform-tools
  3. 同样执行adb version验证是否生效。

注意:每次重启终端后该路径可能失效。若想永久生效,请将上述export命令写入 shell 配置文件(如.zshrc.bash_profile)。


3. 手机设置:开启调试权限与输入法

为了让电脑能控制手机,必须在设备上启用几个关键功能。

3.1 开启开发者模式

  1. 进入手机“设置” → “关于手机”。
  2. 找到“版本号”一项,连续点击 7 次。
  3. 屏幕会提示“您已进入开发者模式”。

3.2 启用 USB 调试

  1. 返回设置主菜单 → 进入“开发者选项”。
  2. 找到“USB 调试”并勾选开启。
  3. 当你首次通过 USB 连接电脑时,手机会弹出授权对话框,请务必点击“允许”。

3.3 安装专用输入法:ADB Keyboard

由于自动化过程中需要输入文字(如搜索词),但大多数输入法无法被 ADB 直接调用,因此我们需要一个特殊输入法 ——ADB Keyboard

  1. 下载 APK 文件:https://github.com/senzhk/ADBKeyBoard
  2. 将 APK 安装到手机(可通过浏览器下载后点击安装)。
  3. 安装完成后,进入“设置” → “语言与输入法” → “默认键盘”。
  4. 选择“ADB Keyboard”作为当前输入法。

验证方法:在任意输入框长按 → 选择“输入法” → 确认 ADB Keyboard 已激活。


4. 部署 Open-AutoGLM 控制端

现在我们已经在本地准备好了基础环境,接下来要部署 Open-AutoGLM 的控制代码。

4.1 克隆项目仓库

打开终端或命令行工具,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

这会将官方开源代码完整下载到本地。

4.2 安装依赖库

确保你已激活合适的 Python 虚拟环境(推荐使用 venv 或 conda),然后运行:

pip install -r requirements.txt pip install -e .

第一条命令安装项目所需的所有第三方库(如 transformers、Pillow、requests 等),第二条将当前项目注册为可导入模块,便于后续调用内部组件。

温馨提示:如果你遇到依赖冲突,建议创建独立虚拟环境:

python -m venv auto-glm-env source auto-glm-env/bin/activate # Linux/macOS auto-glm-env\Scripts\activate # Windows

5. 连接设备:USB 与 WiFi 两种方式

设备连接是整个流程的关键环节。Open-AutoGLM 支持两种连接方式:USB 和 WiFi,各有优劣。

5.1 使用 USB 连接(稳定推荐)

  1. 用数据线将手机连接至电脑。

  2. 手机弹出“允许USB调试?”提示时,点击“允许”。

  3. 在终端运行:

    adb devices

    输出应类似:

    List of devices attached 1234567890ABCDEF device

    出现device状态即表示连接成功。

5.2 使用 WiFi 远程连接(灵活便捷)

适合不想插线、或多设备集中管理的场景。注意:首次需通过 USB 设置。

  1. 先用 USB 连接设备,然后执行:

    adb tcpip 5555

    这会在设备上启动 ADB 的 TCP 服务,监听 5555 端口。

  2. 断开 USB 数据线。

  3. 查看手机 Wi-Fi IP 地址(通常在“设置 → 关于手机 → 状态信息”中)。

  4. 在电脑终端连接:

    adb connect 192.168.x.x:5555

    替换x.x为实际 IP。

  5. 再次运行adb devices,确认设备在线。

小贴士:WiFi 连接受网络稳定性影响较大,若频繁掉线,建议优先使用 USB。


6. 启动 AI 代理:一句话触发自动化

万事俱备,现在我们可以正式让 AI 接管手机了!

6.1 命令行快速运行

Open-AutoGLM项目根目录下,执行如下命令:

python main.py \ --device-id 1234567890ABCDEF \ --base-url http://<云服务器IP>:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书搜索美食"

参数说明:

  • --device-id:来自adb devices显示的设备 ID,如果是 WiFi 连接则填写IP:5555
  • --base-url:指向你部署的 vLLM 服务地址(公网 IP + 映射端口),例如http://43.139.21.88:8800/v1
  • --model:指定使用的模型名称,目前主要支持autoglm-phone-9b
  • 最后的字符串:你要下达的自然语言指令。

一旦运行,你会看到程序自动截取手机屏幕、上传给云端模型分析,并逐步生成操作指令。几秒钟后,手机就会自行打开小红书 App,定位搜索框,输入“美食”,并展示结果列表。

6.2 使用 Python API 实现远程控制

除了命令行,你也可以将其集成进自己的脚本中。以下是一个完整的连接与控制示例:

from phone_agent.adb import ADBConnection, list_devices # 创建 ADB 连接管理器 conn = ADBConnection() # 连接远程设备(WiFi) success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # (可选)为 USB 设备开启 TCP/IP 模式 success, msg = conn.enable_tcpip(5555) if success: ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 执行完任务后断开 conn.disconnect("192.168.1.100:5555")

这种方式非常适合嵌入到自动化平台、测试框架或后台服务中,实现批量任务调度。


7. 实际效果演示:以“搜美食”为例

让我们具体走一遍“打开小红书搜美食”的全过程。

  1. 用户输入指令:“打开小红书搜索美食”。
  2. AI 模型接收到文本后,首先判断是否需要启动 App。检测到未运行,则发出“启动 com.xingin.xhs”命令(小红书包名)。
  3. 应用启动后,AI 截图分析首页布局,识别底部导航栏中的“发现”或“搜索”图标。
  4. 触发点击事件,跳转至搜索页面。
  5. 找到输入框区域,调用 ADB Keyboard 输入“美食”。
  6. 检测到软键盘弹出,模拟回车键提交搜索。
  7. 页面加载完成后,继续观察内容流,确认已进入结果页。

整个过程无需人工干预,耗时约 10~15 秒,完全模拟人类操作节奏。

观察点:你会发现 AI 不仅知道“小红书”是什么 App,还能理解“搜索美食”意味着要进入搜索界面并输入关键词,体现出较强的语义理解和上下文推理能力。


8. 常见问题与排查建议

尽管整体流程清晰,但在实际部署中仍可能出现一些问题。以下是常见故障及解决方案。

8.1 ADB 连接失败

  • 现象adb devices显示unauthorized或无设备。
  • 原因:未授权调试或驱动问题。
  • 解决
    • 检查手机是否弹出授权提示,点击“允许”。
    • 更换数据线或 USB 接口。
    • Windows 用户可尝试安装 Google USB Driver。

8.2 连接被拒绝(Connection Refused)

  • 现象adb connect失败,提示“failed to connect”。
  • 原因:防火墙阻止、端口未开放或设备未开启 tcpip。
  • 解决
    • 确保执行过adb tcpip 5555
    • 检查路由器或云服务器安全组规则,放行 5555 端口。
    • 使用ping <IP>测试网络连通性。

8.3 模型无响应或输出乱码

  • 现象:AI 长时间不执行操作,或生成错误指令。
  • 原因:vLLM 服务异常、显存不足或参数配置不当。
  • 解决
    • 检查云服务器日志,确认模型已正确加载。
    • 确保启动 vLLM 时设置了足够大的--max-model-len(建议 ≥ 4096)。
    • GPU 显存至少 24GB(对于 9B 模型)。

8.4 输入法无法输入文字

  • 现象:搜索框聚焦但无内容输入。
  • 原因:默认输入法不是 ADB Keyboard。
  • 解决
    • 进入手机设置,手动切换输入法为 ADB Keyboard。
    • 可通过adb shell settings get secure default_input_method查看当前输入法。

9. 总结

通过本文,我们完整实践了如何利用Open-AutoGLM实现“一句话打开小红书搜美食”的自动化任务。从环境配置、ADB 连接到 AI 模型调用,每一步都展示了这一框架的强大与易用性。

它不仅仅是一个“自动点击工具”,更是融合了视觉理解、自然语言处理和动作规划的智能体。未来,你可以扩展更多场景,比如:

  • 自动收集热门笔记标题做内容分析
  • 批量关注特定领域的博主
  • 定时发布图文动态
  • 跨平台比价购物(淘宝→京东→拼多多)

更重要的是,整个系统开源、可定制、支持远程调试,为个人开发者和企业自动化提供了极高的自由度。

下一步,不妨试试让它帮你刷视频、回消息,甚至做个“AI 数字分身”?


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 13:19:52

Amlogic S9xxx机顶盒刷Armbian完整实战:从安卓盒子到微型服务器

Amlogic S9xxx机顶盒刷Armbian完整实战&#xff1a;从安卓盒子到微型服务器 【免费下载链接】amlogic-s9xxx-armbian amlogic-s9xxx-armbian: 该项目提供了为Amlogic、Rockchip和Allwinner盒子构建的Armbian系统镜像&#xff0c;支持多种设备&#xff0c;允许用户将安卓TV系统更…

作者头像 李华
网站建设 2026/6/9 17:39:08

UniHacker深度解析:跨平台Unity许可证破解技术实现方案

UniHacker深度解析&#xff1a;跨平台Unity许可证破解技术实现方案 【免费下载链接】UniHacker 为Windows、MacOS、Linux和Docker修补所有版本的Unity3D和UnityHub 项目地址: https://gitcode.com/GitHub_Trending/un/UniHacker UniHacker作为一款专业的跨平台Unity许可…

作者头像 李华
网站建设 2026/6/9 23:30:00

4步终极指南:让老款Mac焕发新生的完整技术解决方案

4步终极指南&#xff1a;让老款Mac焕发新生的完整技术解决方案 【免费下载链接】OpenCore-Legacy-Patcher 体验与之前一样的macOS 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 还在为手中的老款Mac无法升级到最新系统而烦恼吗&#xff1…

作者头像 李华
网站建设 2026/6/10 11:28:19

3大技术突破:M5Stack-Core-S3如何重新定义AI语音交互硬件开发

3大技术突破&#xff1a;M5Stack-Core-S3如何重新定义AI语音交互硬件开发 【免费下载链接】xiaozhi-esp32 Build your own AI friend 项目地址: https://gitcode.com/GitHub_Trending/xia/xiaozhi-esp32 在智能硬件开发领域&#xff0c;传统方案往往面临音频处理复杂、显…

作者头像 李华
网站建设 2026/6/10 14:15:35

小白必看:用Qwen2.5-0.5B快速搭建智能客服系统

小白必看&#xff1a;用Qwen2.5-0.5B快速搭建智能客服系统 你是不是也想过自己动手搭一个能自动回答问题的AI客服&#xff1f;但一听“大模型”、“部署”这些词就头大&#xff1f;别担心&#xff0c;今天这篇文章就是为你准备的。我们不讲复杂理论&#xff0c;也不搞高配GPU&…

作者头像 李华
网站建设 2026/6/10 13:21:28

5分钟上手YOLOv10目标检测,官方镜像一键部署保姆级教程

5分钟上手YOLOv10目标检测&#xff0c;官方镜像一键部署保姆级教程 你是否还在为配置 YOLO 环境而头疼&#xff1f;编译报错、依赖冲突、版本不兼容……这些问题在深度学习入门阶段几乎人人都遇到过。今天&#xff0c;我们来彻底告别这些烦恼——通过 YOLOv10 官版镜像&#x…

作者头像 李华