news 2026/6/10 18:03:39

Open-AutoGLM保姆级教程:连WiFi都能远程控制

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM保姆级教程:连WiFi都能远程控制

Open-AutoGLM保姆级教程:连WiFi都能远程控制

1. 这不是科幻,是今天就能用上的手机AI管家

你有没有想过,手机能自己“看”懂屏幕、“想”清楚下一步该做什么,再“动手”完成任务?不是靠预设脚本,而是像人一样理解你的自然语言指令——比如一句“打开小红书搜美食”,它就能自动解锁、启动App、点击搜索框、输入文字、按下回车,全程无需你碰一下屏幕。

Open-AutoGLM 就是这样一套真正落地的手机端AI Agent框架。它不是概念演示,也不是云端调用API的伪智能,而是把视觉理解、意图推理和物理操控三者闭环打通的完整系统。更关键的是,它不依赖特定硬件或云服务——你自己的电脑跑模型,自己的手机被控制,所有数据留在本地,隐私可控;而连接方式,USB只是起点,WiFi远程控制才是它最让人眼前一亮的能力:连上同一WiFi,手机放在客厅,你在卧室发指令,它就在另一头自动执行

本教程专为零基础用户设计。不需要你懂多模态、不需理解vLLM调度原理、甚至不用会写Python——只要你会安装软件、能复制粘贴命令、知道怎么在手机设置里点几下,就能从第一步走到最后一步,亲眼看到AI替你点开抖音、关注博主、发送消息。我们不讲抽象架构,只说“这一步你该点哪里”“这条命令为什么这么写”“连不上时先看哪三行输出”。

接下来,我们就从一根数据线开始,手把手带你把手机变成听你话的AI助理。

2. 准备工作:三样东西,缺一不可

别急着敲代码。在任何一行命令运行之前,请确认以下三类准备已全部到位。少一个环节,后面90%的问题都源于此。

2.1 硬件:你的“作战单元”

设备最低要求为什么重要
电脑Windows 10 / macOS Monterey 或更新系统,16GB内存,50GB空闲硬盘模型(18GB)+ 项目代码 + 推理引擎需要空间;16GB内存是vLLM稳定加载9B模型的底线
安卓手机Android 7.0 及以上,已解锁Bootloader(非必须,但推荐),屏幕可正常点亮AutoGLM通过ADB截图并操作,旧系统可能不支持部分ADB命令;锁屏状态会导致截图失败
连接方式USB数据线(带数据传输功能)同一局域网WiFi环境USB用于首次调试和稳定连接;WiFi用于真正解放双手的远程控制场景

注意:iPhone 不支持。本框架基于Android ADB协议构建,暂未适配iOS。

2.2 软件:四个必须装好的工具

你不需要一次性装完所有,但每一步都要验证成功后再继续:

Python 3.10+(必装)
  • Windows:去 python.org 下载最新3.10+安装包,务必勾选 “Add Python to PATH”
  • macOS:终端执行brew install python@3.10(如未装Homebrew,先运行/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
  • 验证:打开命令行,输入python --version,应显示Python 3.10.x或更高版本
ADB 工具(必装)

这是你和手机对话的“翻译官”。

  • 下载地址:Android SDK Platform-Tools(选对应系统zip包)
  • 解压后得到adbfastboot等文件
  • 配置环境变量(关键!)
    • Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入你解压ADB的完整路径(如D:\platform-tools
    • macOS:终端执行echo 'export PATH=$PATH:/Users/你的用户名/Downloads/platform-tools' >> ~/.zshrc && source ~/.zshrc
  • 验证:命令行输入adb version,应显示类似Android Debug Bridge version 1.0.41
Git(推荐装)

用于克隆代码仓库,比手动下载更可靠。

  • Windows/macOS:访问 git-scm.com 下载安装,默认选项即可
  • 验证:git --version
ADB Keyboard(必装)

这是让AI能“打中文”的核心组件。没有它,AI只能点击、滑动,但无法在搜索框里输入“火锅”两个字。

  • 下载:GitHub搜索ADBKeyboard.apk(官方维护版),或直接从 Open-AutoGLM 仓库 releases 获取
  • 安装:电脑连接手机后,在命令行执行adb install ADBKeyboard.apk
  • 启用:手机进入「设置 → 系统 → 语言与输入法 → 虚拟键盘 → 勾选 ADB Keyboard,并设为默认输入法」

2.3 手机端:三步开启“被控制权”

这三步必须在手机上手动完成,无法跳过:

  1. 开启开发者模式
    进入「设置 → 关于手机 → 版本号」,连续点击7次,直到弹出“您已处于开发者模式”提示。

  2. 开启USB调试
    返回「设置 → 系统 → 开发者选项 → USB调试」,打开开关。首次开启会弹窗,点“确定”。

  3. 开启无线调试(为WiFi控制铺路)
    在同一「开发者选项」页面,找到「无线调试」→ 打开 → 点击「无线调试」→ 记下显示的IP地址和端口(格式如192.168.1.100:5555)。这个地址,就是你后续WiFi连接的关键。

小技巧:做完这三步后,用USB线连接手机和电脑,在电脑命令行运行adb devices。如果看到一串设备ID后跟着device,说明软硬件握手成功——这是你通往AI控制的第一道门。

3. 部署实战:从下载到第一次“开口说话”

现在,我们正式进入部署环节。所有操作都在你自己的电脑上进行,不涉及任何云端注册或账号绑定。

3.1 下载并安装Open-AutoGLM控制端

这是你发号施令的“指挥中心”。

# 1. 克隆项目(国内用户建议加 --depth 1 加速) git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 2. 创建虚拟环境(强烈推荐,避免依赖冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖 pip install -r requirements.txt pip install -e .

验证:运行python -c "from phone_agent.adb import list_devices; print(list_devices())",若无报错且返回空列表(说明没连设备),即表示环境安装成功。

3.2 下载并启动AI模型服务(核心大脑)

AutoGLM-Phone-9B 是一个约18GB的多模态大模型,它负责“看图”“读屏”“思考”“决策”。我们用vLLM作为推理引擎,让它跑得又快又稳。

方法一:国内用户首选(ModelScope镜像,快10倍)
# 1. 克隆模型(约5分钟) git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git # 2. 启动服务(Linux/macOS) python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model ./AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt '{"image":10}' \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}'
方法二:Windows用户简化版(先跑通)
# 在命令行中执行(确保已激活venv) python -m vllm.entrypoints.openai.api_server ^ --served-model-name autoglm-phone-9b ^ --model ./AutoGLM-Phone-9B ^ --port 8000

启动成功标志:终端出现Uvicorn running on http://0.0.0.0:8000字样。此时,你的电脑已化身一台AI服务器,等待接收指令。

常见卡点:

  • 报错CUDA out of memory:显存不足,加参数--tensor-parallel-size 1 --gpu-memory-utilization 0.9降低占用
  • 报错No module named 'vllm':确认已执行pip install vllm,且在正确虚拟环境中
  • 启动后无响应:检查端口8000是否被占用(netstat -ano | findstr :8000),换端口如--port 8800

3.3 第一次测试:让AI打开“设置”应用

这是整个流程的黄金验证点。成功了,说明模型、控制端、手机连接全部就绪。

USB连接方式(推荐新手首测)
  1. 用USB线连接手机与电脑
  2. 手机弹窗点“允许USB调试”
  3. 电脑命令行执行:
python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"

你将看到类似输出:

💭 思考过程: 当前在桌面,需要打开设置应用 执行动作: {"action": "Launch", "app": "设置"} 动作执行成功:已启动设置应用

同时,你手机上会自动弹出“设置”界面。

WiFi连接方式(实现“真远程”)
  1. 确保手机与电脑在同一WiFi下
  2. 手机开启「无线调试」后,记下IP(如192.168.1.100:5555
  3. 电脑命令行先连接:
adb connect 192.168.1.100:5555 adb devices # 应显示该IP
  1. 执行指令(只需替换--device-id):
python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开小红书"

从此刻起,“连WiFi都能远程控制”不再是标题党——你人在书房,手机在客厅茶几,指令发出,App秒开。

4. 日常使用:三条命令,覆盖80%生活场景

学会启动只是开始。真正让AI成为助手,靠的是灵活下达自然语言指令。以下是经过实测、成功率最高的三类高频用法。

4.1 命令行直连:一句话搞定一件事

语法极简:python main.py [模型地址] [模型名] "你的中文指令"

场景1:外卖点餐(美团)
python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开美团,搜索附近评分4.8以上的川菜馆,选第一家,查看菜单"

AI会自动:启动美团 → 点击首页搜索栏 → 输入“川菜” → 点击筛选 → 选择“好评优先” → 点击第一个店铺 → 进入详情页。

场景2:社交互动(微信)
python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开微信,给张三发送消息:今晚聚餐地点改到海底捞,七点见!"

AI会自动:启动微信 → 在聊天列表顶部搜索“张三” → 点击进入对话 → 点击输入框 → 调用ADB Keyboard输入指定文字 → 点击发送按钮。

场景3:内容发现(抖音)
python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音,搜索抖音号为:dycwo11nt61d 的博主并关注他!"

AI会自动:启动抖音 → 点击搜索图标 → 输入抖音号 → 点击搜索结果中的该账号 → 点击“关注”按钮。

实测提示:指令越具体,成功率越高。“打开抖音搜美食”不如“打开抖音,搜索关键词‘北京烤鸭’,点击第一个视频”明确;涉及账号、ID、精确名称时,务必一字不差复制粘贴。

4.2 Python API调用:为自动化脚本留接口

如果你有编程基础,或想批量处理任务,直接调用Python API更灵活:

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置指向本地模型服务 model_config = ModelConfig( base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b", ) # 创建AI代理实例 agent = PhoneAgent(model_config=model_config) # 执行任务(返回结构化结果) result = agent.run("打开淘宝,搜索‘降噪耳机’,按销量排序,取前3个商品标题") print("AI提取的商品标题:", result["output"])

优势:可嵌入循环、条件判断、错误重试逻辑,适合做日报生成、竞品监控等重复性工作。

4.3 敏感操作人工接管:安全永远是第一位

当AI即将执行支付、删除、授权等高风险动作时,系统会主动暂停,等待你确认:

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开美团订一份外卖"

终端会输出:

需要确认: 即将支付28.5元,是否继续? (y/n):

你输入y才继续,输入n则终止。这个机制由confirmation_callback参数控制,你也可以自定义成弹窗、发邮件提醒等。

5. 进阶技巧:让AI更懂你、更听话

部署完成只是起点。以下技巧能显著提升日常使用体验。

5.1 WiFi远程控制:摆脱数据线的终极自由

USB连接稳定,但WiFi才能释放全部潜力。实测步骤:

  1. 手机开启「无线调试」,记下IP(如192.168.1.100:5555
  2. 电脑执行adb connect 192.168.1.100:5555
  3. 关键一步:关闭手机蓝牙和热点(避免ADB连接被干扰)
  4. 测试指令:python main.py --device-id 192.168.1.100:5555 --base-url ... "打开设置"
  5. 成功后,拔掉USB线,手机放远——只要在同一WiFi,指令依然实时响应。

网络优化:路由器开启QoS,为手机IP分配更高带宽;避免使用5GHz频段(ADB在2.4GHz下更稳定)。

5.2 自定义提示词:给AI加个“人设”

模型默认是通用助手。你可以通过修改phone_agent/config/prompts.py,让它更专注某类任务:

# 修改 SYSTEM_PROMPT,例如强化电商能力 SYSTEM_PROMPT = """ 你是一个资深电商购物顾问,熟悉淘宝、京东、拼多多的UI逻辑。 执行购物任务时,请严格遵守: 1. 搜索后,优先点击“综合排序”旁的“销量”按钮 2. 商品列表中,只读取前5个商品的标题、价格、月销数 3. 若遇到“领券”按钮,必须先点击再加入购物车 """

保存后重启main.py,AI就会按新规则执行。

5.3 环境变量:免输长命令的懒人方案

把常用参数设为环境变量,以后只需一条短命令:

# Windows(命令行) set PHONE_AGENT_BASE_URL=http://localhost:8000/v1 set PHONE_AGENT_MODEL=autoglm-phone-9b set PHONE_AGENT_DEVICE_ID=192.168.1.100:5555 # macOS/Linux(终端) export PHONE_AGENT_BASE_URL=http://localhost:8000/v1 export PHONE_AGENT_MODEL=autoglm-phone-9b export PHONE_AGENT_DEVICE_ID=192.168.1.100:5555

之后,直接运行python main.py "打开小红书"即可,无需再写冗长参数。

6. 常见问题速查:90%的问题,这里都有答案

部署和使用中遇到报错?先对照这份清单,80%的问题3分钟内解决。

问题现象最可能原因一键修复命令/操作
adb devices显示unauthorized手机未授权电脑调试断开USB,重新连接,手机弹窗点“允许”
adb connect IP:5555失败手机无线调试未开启,或IP错误进入手机「开发者选项 → 无线调试」,确认开关打开并记准IP
模型启动报OSError: libcudnn.so.8: cannot open shared object fileCUDA/cuDNN版本不匹配Ubuntu用户:sudo apt install libcudnn8;Windows用户重装CUDA Toolkit 12.1
AI执行到一半卡住,无输出手机屏幕熄灭或锁屏保持屏幕常亮(设置→显示→休眠→改为“永不”),或加参数--keep-screen-on
中文输入框里显示乱码或不输入ADB Keyboard未启用为默认输入法手机「设置→语言与输入法→虚拟键盘→ADB Keyboard→设为默认」
python main.pyModuleNotFoundError: No module named 'phone_agent'未执行pip install -e .或虚拟环境未激活重新进入Open-AutoGLM目录,执行pip install -e .

终极排查法:

  1. adb devices确认设备在线
  2. curl http://localhost:8000/v1/models确认模型服务可访问
  3. python -c "import torch; print(torch.cuda.is_available())"确认GPU可用(如用GPU)
    三步全通,99%问题已排除。

7. 总结:你的AI手机,今天就已上线

回顾整个过程,你其实只做了三件事:

  • 装好四个工具(Python、ADB、Git、ADB Keyboard)
  • 跑通两个服务(vLLM模型服务 + Open-AutoGLM控制端)
  • 发出第一条指令(“打开设置”)

没有复杂的配置文件,没有晦涩的参数调优,没有云账号注册。所有能力,都运行在你自己的设备上。WiFi远程控制不是未来功能,而是你现在就能复制粘贴、亲眼见证的现实。

更重要的是,这只是一个起点。当你熟练使用“打开APP→搜索→点击”这类指令后,可以自然进阶到:

  • 用Python API写脚本,每天早上自动抓取新闻摘要发到微信;
  • 结合IFTTT,当手机收到“会议提醒”短信时,AI自动打开腾讯会议并静音入会;
  • 为老人定制语音指令:“帮我给儿子打电话”,AI自动拨号并免提接通。

技术的价值,不在于它多酷炫,而在于它能否无声地融入生活,把人从重复劳动中解放出来。Open-AutoGLM 正在做的,就是把“手机AI助理”从PPT里的概念,变成你电脑里一个正在运行的main.py进程。

现在,关掉这篇教程,拿起你的手机,连上WiFi,然后在终端里敲下那行命令——
你的AI手机,等你唤醒。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 22:34:08

Z-Image-ComfyUI功能测评:Turbo版速度表现惊人

Z-Image-ComfyUI功能测评:Turbo版速度表现惊人 在AI图像生成领域,“快”从来不只是一个性能指标,而是决定工作流能否真正融入日常创作的关键体验。当设计师反复调整提示词、电商运营批量生成主图、内容团队快速验证视觉方案时,每一…

作者头像 李华
网站建设 2026/6/10 11:11:23

青戈带小白做毕设资源:从零搭建可复用的毕业设计实战框架

青戈带小白做毕设资源:从零搭建可复用的毕业设计实战框架 适用人群:被导师一句“系统要有创新点”整不会了的大四党 目标:两周内跑通一套能答辩、能演示、还能写在简历上的“最小可用毕设” 1. 先把痛点点出来——别让毕设死在起跑线上 和去…

作者头像 李华
网站建设 2026/6/10 12:15:21

本地歌词高效管理与批量处理工具:163MusicLyrics使用指南

本地歌词高效管理与批量处理工具:163MusicLyrics使用指南 【免费下载链接】163MusicLyrics Windows 云音乐歌词获取【网易云、QQ音乐】 项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 在数字化音乐消费场景中,本地歌词保存已…

作者头像 李华
网站建设 2026/6/10 13:44:12

语音识别预处理神器:FSMN-VAD一键切分有效语段

语音识别预处理神器:FSMN-VAD一键切分有效语段 你是否遇到过这些场景: 准备做语音识别,但原始录音里夹杂大量停顿、咳嗽、翻纸声,直接喂给ASR模型结果错得离谱?处理一小时会议录音,手动听写剪辑有效片段&…

作者头像 李华
网站建设 2026/6/10 11:28:18

从0到1构建智能客服agent:基于LLM的实战架构与避坑指南

从0到1构建智能客服agent:基于LLM的实战架构与避坑指南 背景痛点:规则引擎的“三座大山” 去年我们团队接手某电商售后系统时,老代码里躺着 1.3 万条正则规则,维护人已经离职,留下一句话:“改一条规则&…

作者头像 李华
网站建设 2026/6/10 14:26:57

Clawdbot-Qwen3:32B效果展示:Web界面下Python代码调试与错误修复演示

Clawdbot-Qwen3:32B效果展示:Web界面下Python代码调试与错误修复演示 1. 这不是“又一个聊天框”,而是一个会修代码的AI助手 你有没有过这样的经历:写完一段Python代码,运行时报错,但错误信息像天书一样——TypeErro…

作者头像 李华