news 2026/5/11 4:11:10

2023-09-25:ChatGPT 开始支持“看、听、说”,从纯文本正式迈向多模态交互

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2023-09-25:ChatGPT 开始支持“看、听、说”,从纯文本正式迈向多模态交互


🔥个人主页:杨利杰YJlio
❄️个人专栏:《Sysinternals实战教程》 《Windows PowerShell 实战》 《WINDOWS教程》 《IOS教程》
《微信助手》 《锤子助手》 《Python》 《Kali Linux》
《那些年未解决的Windows疑难杂症》
🌟让复杂的事情更简单,让重复的工作自动化


2023-09-25:ChatGPT 开始支持“看、听、说”,从纯文本正式迈向多模态交互

  • 1、2023-09-25:ChatGPT 迎来一次关键能力升级
  • 2、什么是多模态交互?本质上变了什么
  • 3、用户和 ChatGPT 的交互流程是怎么升级的
  • 4、从纯文本到多模态:到底升级了哪些维度
    • 4.1 输入方式升级
    • 4.2 理解能力升级
    • 4.3 交互体验升级
    • 4.4 应用场景升级
  • 5、多模态能力能落到哪些真实场景里
    • 5.1 识图问答
    • 5.2 语音助手
    • 5.3 学习辅导
    • 5.4 内容创作
    • 5.5 无障碍交流
  • 6、这次升级对普通用户意味着什么
    • 6.1 表达成本更低了
    • 6.2 信息理解更完整了
    • 6.3 回答形式更多样了
    • 6.4 AI 更像助手,而不是工具
  • 7、我的理解:9 月 25 日真正开启的是“交互范式升级”
  • 8、总结
    • 文章小结

1、2023-09-25:ChatGPT 迎来一次关键能力升级

2023 年 9 月 25 日,ChatGPT 开始逐步支持“看、听、说”能力,也就是支持图像理解、语音输入和语音回应。
这不是一次普通的小功能更新,而是一次交互方式的升级

过去我们使用 ChatGPT,更多是:

  • 输入文字;
  • 等待文字回答;
  • 依赖键盘和屏幕完成整套交互。

而从这一天开始,ChatGPT 开始从“纯文本对话工具”走向“多模态智能助手”

我认为,这次升级最值得关注的地方,不是单独某个按钮能不能点,而是 AI 和用户之间的交互边界被真正打开了:

  • 它开始能“看懂”图片;
  • 它开始能“听懂”语音;
  • 它开始能“说出来”回应;
  • 它开始更像一个可以自然交流的助手,而不只是一个问答窗口。

2、什么是多模态交互?本质上变了什么

所谓多模态,简单理解就是:模型不再只处理文字,而是同时处理文本、图像、语音等多种信息。

在纯文本时代,信息流很简单:

文字输入 → 模型理解 → 文字输出

而在多模态时代,信息流开始变成:

文本 / 图片 / 语音输入 → 统一模型理解 → 文本 / 语音 / 图文反馈输出

这意味着模型处理信息的方式发生了变化。以前它只需要理解“你写了什么”,现在它还需要理解:

  • 你看到了什么;
  • 你说了什么;
  • 你上传的图片里有什么;
  • 这些信息之间是否存在上下文关联。

从这张结构图可以看出,整个多模态交互能力大致可以拆成三部分:

模块作用说明
文本输入接收问题与指令仍然保留传统文字交互方式
图像理解看懂图片内容能识别场景、元素、细节和含义
语音输入听懂语音内容支持更自然的提问方式
统一模型处理融合并理解多种信息这是多模态能力的核心
自然对话 / 语音输出输出回答可以是文字,也可以是语音

本质变化只有一句话:AI 不再只理解“文字”,而是开始理解“更接近真实世界的信息”。


3、用户和 ChatGPT 的交互流程是怎么升级的

站在用户视角,多模态交互的流程可以理解成 5 步:

  1. 提出问题
  2. 上传图片或输入语音
  3. 模型统一理解
  4. 生成回答
  5. 返回语音播报或图文反馈

和以前相比,最大的区别在于:用户不必先把所有东西翻译成文字,才能让 AI 理解。

比如以前你遇到一个问题,必须自己描述:

  • 报错是什么;
  • 图片里是什么;
  • 图表表达了什么;
  • 某个界面长什么样。

现在则可以更直接:

  • 直接上传图片;
  • 直接说出问题;
  • 直接得到文字或语音反馈。

这就是为什么我说,多模态不是“功能堆叠”,而是交互路径被缩短了


用户提问

输入方式

文字输入

图片上传

语音输入

统一模型理解

输出方式

文本回答

语音播报

图文反馈

更清晰

更自然

更直观


4、从纯文本到多模态:到底升级了哪些维度

如果你只从表面看,这次变化像是新增了几个入口:

  • 可以上传图片;
  • 可以输入语音;
  • 可以听语音回答。

但如果从产品形态看,它实际上升级了 4 个关键维度。

4.1 输入方式升级

以前主要依赖键盘打字。
现在支持图片、拍照、语音等多种输入方式。

4.2 理解能力升级

以前更偏向关键词和文字上下文理解。
现在开始能同时处理文字、图像、语音,理解范围更广。

4.3 交互体验升级

以前更像“查资料、问问题”。
现在更像“交流、陪伴、辅助完成任务”。

4.4 应用场景升级

以前主要集中在问答和文本创作。
现在开始覆盖:

  • 学习教育
  • 旅行出行
  • 生活助手
  • 健康医疗
  • 办公创作

这说明一件很关键的事:

从这一天起,ChatGPT 的竞争力不再只是“会写”,而是“会理解、会交互、会适应场景”。


5、多模态能力能落到哪些真实场景里

抽象地讲“多模态”很容易空,但如果落到实际场景,就很清楚了。

5.1 识图问答

这是最直观的一类应用。
用户上传一张图片,AI 就能围绕这张图做解释、识别与回答。

比如:

  • 这是什么地方?
  • 这张图表达了什么信息?
  • 这张图里的对象有什么特征?
  • 这类截图里的问题出在哪里?

对于技术类博客、Windows 运维、故障排查场景来说,识图能力非常实用


5.2 语音助手

语音输入 + 语音回应,会让 ChatGPT 更像一个能对话的助手。

适合的场景包括:

  • 临时提问;
  • 移动端交流;
  • 英语口语练习;
  • 知识讲解;
  • 轻量陪练和提醒。

过去你必须“打字给 AI 看”,现在你可以“直接说给 AI 听”。


5.3 学习辅导

学习场景会因为多模态能力而明显增强。

例如:

  • 上传图表,让 AI 分析趋势;
  • 上传题目截图,让 AI 辅助讲解;
  • 用语音追问不会的知识点;
  • 用图文结合的方式理解抽象内容。

这意味着知识学习会更直观,反馈也会更及时。


5.4 内容创作

内容创作也不再只是“让 AI 写一段话”。

现在可以扩展成:

  • 让 AI 看图写文;
  • 根据语音想法生成初稿;
  • 根据截图整理教程步骤;
  • 根据图表提炼结论;
  • 基于不同输入形式做内容重组。

对于经常写 CSDN 博客、知识笔记、教程文章的人来说,这个能力会非常有价值。


5.5 无障碍交流

这部分其实很容易被忽略,但非常重要。

多模态能力可以帮助实现:

  • 语音转文字;
  • 文字转语音;
  • 语音问路与语音导航;
  • 降低阅读门槛;
  • 提升信息获取效率。

它不仅仅是“更方便”,更是“让更多人更容易使用 AI”。


6、这次升级对普通用户意味着什么

如果把这次能力升级压缩成几句话,我认为可以总结为以下 4 点:

6.1 表达成本更低了

以前用户要尽量“把问题写清楚”,现在用户可以直接上传图片、直接说语音。表达方式更接近自然沟通。

6.2 信息理解更完整了

以前模型看到的是“你描述的世界”。
现在模型开始直接接触“世界本身的一部分”,比如图像、声音、界面、场景。

6.3 回答形式更多样了

以前答案主要靠阅读。
现在则可以通过:

  • 文字回答
  • 图文反馈
  • 语音播报

来适配不同使用场景。

6.4 AI 更像助手,而不是工具

这个变化是最深的。
一个只会文字问答的系统,更像工具;一个能看、能听、能说、能理解场景的系统,更像助手。


7、我的理解:9 月 25 日真正开启的是“交互范式升级”

很多人看产品更新,只看见新增功能。
但真正关键的问题不是“多了什么按钮”,而是产品的底层交互逻辑变了没有

在我看来,2023-09-25 这次更新的意义就在这里:

  • 它让 ChatGPT 从“只会读写”走向“能看、能听、能说”;
  • 它让 AI 从“文本工具”开始走向“综合智能助手”;
  • 它让用户从“适应工具”逐步转变为“让工具适应人的表达方式”。

这就是为什么我认为这一天是一个非常值得记录的节点。


8、总结

2023 年 9 月 25 日,ChatGPT 开始支持“看、听、说”,这标志着它从纯文本对话正式迈向多模态交互。

这次升级的核心,不是单个功能的新增,而是三件事:

  1. 输入方式变多了
  2. 理解能力变强了
  3. 交互体验变自然了

最终带来的结果就是:

AI 不再只是一个回答问题的窗口,而开始变成一个能理解更多信息、适应更多场景、支持更多交互方式的智能助手。

如果说早期 ChatGPT 改变的是“我们如何获取答案”,
那么从多模态开始,它改变的就是“我们如何与 AI 交流”。


文章小结

为了方便快速回顾,我再用一张表把这篇文章压缩一下:

维度纯文本时代多模态时代
输入文字文字 + 图片 + 语音
理解文字语义融合图像、语音、文本
输出文字回答文字、语音、图文反馈
体验查资料式助手式
场景问答、写作学习、创作、识图、语音交流、无障碍等

如果你也在持续关注 ChatGPT、AI 工具和自动化能力,那么这一天的更新,确实是一个不该忽略的重要时间点。


🔝 返回顶部

点击回到顶部

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/11 4:09:41

在长期项目中跟踪Taotoken API调用成功率的实际观感

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 在长期项目中跟踪Taotoken API调用成功率的实际观感 1. 项目背景与监控需求 在最近一个持续数月的开发项目中,我们构建…

作者头像 李华
网站建设 2026/5/11 4:04:55

Docker Compose多项目管理利器:compose-skill配置与实战指南

1. 项目概述:一个被低估的Docker Compose技能管理工具如果你和我一样,日常工作中大量使用Docker Compose来编排本地开发环境、测试服务栈,甚至是一些轻量级的生产部署,那你一定遇到过这样的场景:手头同时维护着好几个项…

作者头像 李华
网站建设 2026/5/11 4:04:04

从零构建GitHub包管理器:原理、架构与Python实战

1. 项目概述:一个为GitHub仓库量身打造的包管理器如果你经常在GitHub上寻找开源项目,尤其是那些需要本地运行或集成的工具、库,那你一定对“克隆仓库 -> 手动安装依赖 -> 配置环境 -> 运行”这套繁琐流程深有感触。每个项目的README…

作者头像 李华
网站建设 2026/5/11 4:03:33

如何快速上手ustcthesis:10个步骤轻松搞定学位论文排版

如何快速上手ustcthesis:10个步骤轻松搞定学位论文排版 【免费下载链接】ustcthesis LaTeX template for USTC thesis 项目地址: https://gitcode.com/gh_mirrors/us/ustcthesis ustcthesis是中国科学技术大学本科生和研究生学位论文的LaTeX模板,…

作者头像 李华
网站建设 2026/5/11 3:57:20

CANN/asc-devkit类型转换函数文档

__ll2bfloat16_rn 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitco…

作者头像 李华