OpenAI最强AI编程模型：GPT-5.3-Codex登场，是“编程模型”还是“数字员工”？-程序员充电站

GPT-5.3-Codex 是目前最强的代理式编程模型，也是 Codex 迈向“通用电脑协作者”的关键一步。

它将 GPT-5.2-Codex 的前沿编程能力与 GPT-5.2 的推理和专业知识能力整合到一个模型中，速度提升 25%，能够稳定执行涉及研究、工具使用和复杂决策的长时间任务。与传统“只给结果”的模型不同，GPT-5.3-Codex 更像一位真正的同事：你可以在它工作时实时引导、讨论和调整方向，而不会丢失上下文。这也是 OpenAI 首个在“自我开发”中发挥关键作用的模型，Codex 团队使用它来调试训练、部署系统、分析测试结果，显著加速了自身的研发流程。

从写代码到操作整台电脑，GPT-5.3-Codex 正在重新定义“AI 能帮你做什么”。

它在 SWE-Bench Pro、Terminal-Bench、OSWorld 和 GDPval 等权威基准上刷新行业纪录，不仅在真实世界软件工程、终端操作和 Web 开发中表现顶尖，还能完成调试、部署、监控、文档撰写、数据分析、演示文稿制作等完整知识工作流程。无论是几天内从零构建复杂 Web 应用，还是在可视化桌面环境中完成生产力任务，GPT-5.3-Codex 都展示出向“单一通用智能体”跃迁的质变能力。结合神马中转 API 的统一接入方式，开发者可以直接在操练场中使用 GPT-5.3-Codex，把这种前沿能力快速落地到真实项目中。

GPT-5.3-Codex是什么

我们正在推出一个新模型，进一步释放 Codex 的能力：GPT-5.3-Codex，这是迄今为止能力最强的代理式编程模型。

这个模型把GPT-5.2-Codex 的前沿编程性能与GPT-5.2 的推理能力和专业知识能力合并到同一个模型里，同时还快了 25%。

这使它能够承担涉及研究、工具使用以及复杂执行的长时间运行任务。

就像一位同事一样，在 GPT-5.3-Codex 工作时，你可以对它进行引导并与之互动，同时不会丢失上下文。

一个“自我创造”的模型

GPT-5.3-Codex 是我们第一个在创造自身的过程中发挥了关键作用的模型。

Codex 团队使用早期版本来调试它自己的训练、管理它自己的部署，并诊断测试结果和评估——我们团队对 Codex 能在多大程度上加速自身开发感到非常震撼。

从写代码到“几乎能做电脑上的任何事”

有了 GPT-5.3-Codex，Codex 从一个能够编写和审查代码的智能体，变成一个几乎可以完成开发者和专业人士在电脑上能做的任何事情的智能体。

前沿的代理式能力

GPT-5.3-Codex 在SWE-Bench Pro和Terminal-Bench上创下新的行业最高水平，并在OSWorld和GDPval上展现强劲表现。

这四个基准是我们用来衡量编程能力、代理能力以及真实世界能力的指标。

编程

GPT-5.3-Codex 在SWE-Bench Pro上达到了最先进水平（state-of-the-art），这是对真实世界软件工程进行严格评估的一项测试。

SWE-bench Verified 只测试 Python，而 SWE-Bench Pro 覆盖四种语言，并且更能抵抗数据污染，难度更高、更多样、更贴近行业实际。

它在Terminal-Bench 2.0上也远远超过此前的最先进水平；Terminal-Bench 2.0 衡量的是像 Codex 这样的编程智能体所需的终端技能。

值得注意的是，GPT-5.3-Codex 做到这些时使用的 token 数量比任何此前模型都更少，让用户能够构建更多。

Web开发

把前沿编程能力、美学方面的改进，以及压缩（compaction）结合在一起，得到的模型能够做出非常惊艳的作品：从零开始在数天时间里构建高度可用、复杂的游戏和应用。

为了测试模型的 Web 开发能力与长时间运行的代理能力，我们让 GPT-5.3-Codex 给我们做了两款游戏：

Codex 应用发布时赛车游戏的第二版（version two of the racing game from the Codex app launch），以及
一个潜水游戏（a diving game）。

使用 develop web game 技能，并搭配预先选定的、通用的后续提示（例如 “修复 bug” 或 “改进游戏”），GPT-5.3-Codex 在数百万 token 的规模上自主迭代这些游戏。

观看预告并亲自游玩这些游戏，看看 Codex 能做到什么。

与 GPT-5.2-Codex 相比，当你让 GPT-5.3-Codex 制作日常网站时，它也能更好地理解你的意图。

简单或描述不充分的提示现在会默认生成功能更多、默认设置更合理的网站，为你提供更强的起步画布，让你的想法更容易落地。

例如，我们让 GPT-5.3-Codex 和 GPT-5.2-Codex 分别构建下面两个落地页。

GPT-5.3-Codex 会自动把年度方案显示为“折扣后的月价”，让折扣显得清晰而有意图，而不是把年度总价简单相乘/换算展示出来。

它还做了一个会自动切换的用户评价轮播，其中包含三条不同用户引语，而不是只有一条，从而使页面默认就显得更完整、更接近可直接上线的状态。

提示（Prompt）：为 Quiet KPI 构建一个落地页：这是一个对创始人友好的每周指标摘要。审美是柔和的 SaaS 风格：玻璃质感卡片、薰衣草到蓝色的渐变、细微的模糊。需要包含分区：带邮箱采集的首屏（hero）、示例报告卡片网格、集成（integrations）一行、用户评价轮播、定价月付/年付切换、FAQ、页脚。

字体用 Satoshi 或类似的几何无衬线（geometric sans）。
按钮圆角柔和，14px 半径，强烈的聚焦态（focus states）。
加一个有品味的基于滚动触发的 reveal 动效。

超越编程

软件工程师、设计师、产品经理和数据科学家做的远不只是生成代码。

GPT-5.3-Codex 被构建来支持软件生命周期中的全部工作——调试、部署、监控、撰写 PRD、编辑文案、用户研究、测试、指标（metrics）等等。

它的代理能力也超越软件范畴，帮助你构建任何你想构建的东西——无论是做幻灯片，还是在表格里分析数据。

通过与我们此前用于 GDPval 结果的定制技能类似的方法，GPT-5.3-Codex 在 GDPval 所衡量的专业知识工作上也表现强劲，与 GPT-5.2 持平。

GDPval 是 OpenAI 在 2025 年发布的一项评估，用来衡量模型在 44 种职业中、对定义明确的知识工作任务的完成表现。

这些任务包括制作演示文稿、电子表格以及其他工作成果。

下面是该智能体产出的部分示例。

理财建议幻灯片（Financial advice slides）
零售培训文档（Retail training doc）
NPV 分析电子表格（NPV analysis spreadsheet）
时尚演示 PDF（Fashion presentation PDF）

OSWorld 是一个代理式计算机使用基准测试：智能体需要在可视化桌面电脑环境中完成生产力任务。

GPT-5.3-Codex 展现了远强于之前 GPT 模型的计算机使用能力。

在 OSWorld-Verified 中，模型使用视觉来完成多种多样的电脑任务。人类得分约为 ~72%。

综合编程、前端、计算机使用以及真实世界任务等结果表明，GPT-5.3-Codex 不只是更擅长单个任务，而是标志着向一个单一的通用型智能体迈出了“质变”一步：它能够在真实世界技术工作的完整范围内进行推理、构建并执行。

一个可交互的协作者

随着模型能力变得更强，差距从“智能体能做什么”转向“人类能多容易地与之交互、指挥并监督许多并行工作的智能体”。

Codex 应用让管理与指挥智能体变得更容易，而现在有了 GPT-5.3-Codex，它变得更具交互性。

使用新模型时，Codex 会提供频繁更新，让你随时掌握它在工作中的关键决策与进展。

你不需要等到最终输出才看到结果，而是可以实时互动——提问、讨论方法，并将它引导向解决方案。

GPT-5.3-Codex 会讲述它正在做什么，响应反馈，并在从开始到结束的全过程中让你保持同步。

我们如何使用Codex来训练与部署GPT-5.3-Codex

近期 Codex 的快速改进，建立在 OpenAI 全体团队跨度数月或数年的研究项目成果之上。

这些研究项目正在被 Codex 加速，OpenAI 的许多研究人员和工程师都形容：他们今天的工作方式与两个月前相比已经发生了根本变化。

即便是 GPT-5.3-Codex 的早期版本也展现出卓越能力，使我们的团队能够用这些早期版本来改进训练，并支持后续版本的部署。

Codex 对非常广泛的任务都很有用，因此很难完整列举它帮助我们团队的所有方式。

举例来说，研究团队使用 Codex 来监控并调试此次发布的训练过程。

它带来的研究加速不止体现在修复基础设施调试问题上：它帮助我们在训练过程中跟踪模式（patterns），对交互质量进行深入分析，提出修复建议，并构建丰富的应用，帮助人类研究者精确理解模型行为与以往模型相比有哪些差异。

工程团队使用 Codex 来优化并改造 GPT-5.3-Codex 的测试/运行支架（harness）。

当我们开始看到一些影响用户的奇怪边缘案例时，团队成员使用 Codex 来定位上下文渲染（context rendering）的 bug，并找出缓存命中率偏低（low cache hit rates）的根因。

在发布过程中，GPT-5.3-Codex 仍在持续帮助团队：它会动态扩缩 GPU 集群以应对流量激增，并保持延迟稳定。

在 alpha 测试期间，有位研究员想了解：GPT-5.3-Codex 每一轮（per turn）能多完成多少额外工作，以及对应的生产力差异。

GPT-5.3-Codex 提出了几个简单的正则表达式（regex）分类器，用于估计澄清问题的频率、用户正向/负向回应、任务进展等指标，然后将这些分类器以可扩展方式运行在全部会话日志上，并生成一份包含结论的报告。

随着智能体更能理解他们的意图、每一轮推进更多工作、且提出的澄清问题更少，使用 Codex 的人感到更满意。

由于 GPT-5.3-Codex 与其前代差异很大，alpha 测试数据呈现了许多异常且反直觉的结果。

团队中的一位数据科学家与 GPT-5.3-Codex 合作，构建了新的数据管道，并以比我们的标准仪表盘工具更丰富的方式对结果进行可视化。

这些结果与 Codex 一起被共同分析：它在不到三分钟的时间内，对数千个数据点的关键洞察做出了简洁总结。

单独来看，这些任务都是 Codex 如何帮助研究者与产品构建者的有趣示例。

合在一起，我们发现这些新能力显著加速了我们的研究、工程与产品团队。

保障网络安全前沿

在过去几个月里，我们看到模型在网络安全任务上的表现取得了显著提升，这同时惠及开发者和安全专业人员。

与此同时，我们也一直在准备更强的网络安全防护措施，以支持防御性使用并提升更广泛生态系统的韧性。

在我们的 Preparedness Framework（准备度框架）下，GPT-5.3-Codex 是第一个被我们归类为在网络安全相关任务上属于高能力（High capability）的模型，也是我们第一个直接训练其识别软件漏洞的模型。

虽然我们没有确凿证据表明它能够端到端自动化网络攻击，但我们采取谨慎做法，并部署了迄今为止最全面的网络安全安全栈。

我们的缓解措施包括：安全训练、自动化监测、对高级能力的可信访问，以及包括威胁情报在内的执行流水线（enforcement pipelines）。

由于网络安全天然具有双重用途（dual-use），我们采取基于证据、迭代式的方法：在加速防御者发现与修复漏洞能力的同时，减缓滥用。

作为其中一部分，我们推出Trusted Access for Cyber，这是一个试点项目，用于加速网络防御研究。

我们也在投资生态系统层面的防护措施，例如扩大Aardvark（我们的安全研究智能体）的私测（private beta），作为我们 Codex Security 产品与工具套件中的第一项产品；并与开源维护者合作，为诸如Next.js这样的广泛使用项目提供免费的代码库扫描——此前有位安全研究员使用 Codex 找到的漏洞已在上周披露（在新窗口打开）。

在我们 2023 年启动的 100 万美元网络安全资助项目（$1M Cybersecurity Grant Program）基础上，我们还承诺提供1000 万美元的 API 额度（$10M in API credits），以使用我们最强的模型加速网络防御，尤其面向开源软件和关键基础设施系统。

从事善意安全研究的组织可以通过我们的 Cybersecurity Grant Program 申请 API 额度与支持。

可用性与细节

GPT-5.3-Codex 已在付费 ChatGPT 方案中可用，并在你可以使用 Codex 的所有地方提供：应用（app）、CLI、IDE 扩展和网页（web）。

我们正在努力尽快以安全方式启用 API 访问。

随着这次更新，得益于我们基础设施与推理（inference）栈的改进，我们也让 Codex 用户使用的 GPT-5.3-Codex快了 25%，带来更快的交互与更快的结果。

使用神马中转API调用 GPT-5.3-Codex（操练场示例）

神马中转 API 提供了对多种大模型的统一调用方式。在神马中转 API 操练场或者接口API中，你可以直接选择并使用GPT-5.3-Codex进行测试与开发，无需关心底层模型的原生接入细节。

在操练场中选择模型

打开神马中转 API-工作台-操练场
在「模型（Model）」下拉列表中选择
GPT-5.3-Codex
设置请求参数（如温度、最大 token 数等）
在输入框中填写你的提示词（Prompt）
点击「运行」即可看到模型实时输出

接下来（What’s next）

有了 GPT-5.3-Codex，Codex 正在从“编写代码”进一步走向“把代码当作工具来操作电脑，并端到端完成工作”。

当我们推动编程智能体能力边界的同时，我们也在解锁更广泛类别的知识工作——从构建与部署软件，到研究、分析与执行复杂任务。

起初，这一切是围绕“成为最强编程智能体”的目标展开；而现在，它已经成为一个更通用的电脑协作者的基础，扩展了“谁能构建”以及“用 Codex 能做到什么”的可能性。

OpenAI最强AI编程模型：GPT-5.3-Codex登场，是“编程模型”还是“数字员工”？

GPT-5.3-Codex是什么

前沿的代理式能力

编程

Web开发

超越编程

一个可交互的协作者

我们如何使用Codex来训练与部署GPT-5.3-Codex

保障网络安全前沿

可用性与细节

使用神马中转API调用 GPT-5.3-Codex（操练场示例）

接下来（What’s next）

看完就会：10个AI论文软件测评！本科生毕业论文写作必备工具推荐

七自由度整车模型：魔术公式与 Dugoff 轮胎模型的奇妙融合

用过才敢说! 降AIGC平台千笔·专业降AI率智能体 VS 知文AI，本科生专属神器！

WordPress博客关键词

强化学习：慢网络何以学得更快

学霸同款! 降AIGC网站千笔·专业降AI率智能体 VS WPS AI 专科生首选

GPT-5.3-Codex是什么

前沿的代理式能力

编程

Web开发

超越编程

一个可交互的协作者

我们如何使用Codex来训练与部署GPT-5.3-Codex

保障网络安全前沿

可用性与细节

使用神马中转API调用 GPT-5.3-Codex（操练场示例）

接下来（What’s next）

看完就会：10个AI论文软件测评！本科生毕业论文写作必备工具推荐

七自由度整车模型：魔术公式与 Dugoff 轮胎模型的奇妙融合

用过才敢说! 降AIGC平台 千笔·专业降AI率智能体 VS 知文AI，本科生专属神器！

WordPress博客关键词

强化学习：慢网络何以学得更快

学霸同款! 降AIGC网站 千笔·专业降AI率智能体 VS WPS AI 专科生首选

用过才敢说! 降AIGC平台千笔·专业降AI率智能体 VS 知文AI，本科生专属神器！

学霸同款! 降AIGC网站千笔·专业降AI率智能体 VS WPS AI 专科生首选