文章探讨了 Harness Engineering 的概念,即通过搭建适合 AI 工作的环境来提高 AI 的效率和稳定性。作者以 OpenAI、Anthropic 和 Karpathy 等公司的实践为例,说明了如何通过设计环境、明确意图和构建反馈回路来让 AI 稳定输出。文章强调,在 AI 工具日益强大的今天,能够为 AI 设计合适工作环境的人将成为最稀缺的人才。对于普通人而言,理解 Harness Engineering 的逻辑,可以在自己的工作中更好地利用 AI 工具,提高工作效率和质量。
最近在刷 X 的时候,看到一个帖子,挺有意思的。
OpenAI 三个工程师,五个月,写了一百万行代码。没有一行是人类写的。
不是什么 demo,不是什么 toy project,是一个真的能跑的产品,有内测用户,会出 bug 也能自动修好。
我盯着这个数字看了好一会儿,一百万行。三个工程师。五个月。
然后我看到评论区有人说了一句话,大意是:
当智能体遇到困难,解法不是再试一次,而是反问,缺什么?工具、文档、还是约束?然后把缺的东西补上。
就这一句话,让我突然想明白了一件事。
这个时代,最稀缺的那种人,可能不是会写代码的人,也不是会写 prompt 的人。
而是能给 AI 搭一个「工作环境」的人。
这件事,有个名字,叫Harness Engineering。
马具,不是鞭子
说真的,这个概念我自己琢磨了一段时间之后,发现它其实一点都不新鲜。
Harness 这个词的本意是「马具」,套在马身上的那个东西。让一匹力大无穷但完全没方向感的野马,能拉着货,沿着路,稳定地送到目的地。
AI 就像那匹野马。你给它的 prompt 就是骑手喊的那声「往左走」。
光喊一声,马不一定听你的。你得给它套上马具,铺好轨道,设好刹车。
那一整套让马能真正干活的装置,就是 Harness。
放到 AI 这里,就是一整套让 AI 在真实任务里稳定干活的工程体系。不是怎么提问,而是任务怎么拆、上下文怎么管、做完了怎么验、做错了怎么恢复、跨会话怎么接力。
听起来好像很抽象对吧。
其实不是。我突然想起了 1880 年代的事。
1880 年代的发电机
那时候电力刚开始在美国普及,很多工厂主花大价钱买了发电机和电动机,装在自己工厂里。
但装完之后发现,生产效率并没有什么显著提升。
为啥呢?因为他们只是用电动机替代了蒸汽机,但整个工厂的布局、流程、管理方式,全都没变。发电机在那儿转着,但大家还是在用蒸汽时代的方式干活。
后来呢,后来真正吃到电力红利的,是福特这些人。不是因为他们买了更贵的发电机,而是因为他们重新设计了整个生产流程,让电力的特性被充分利用了。
AI 现在就是这个阶段。不是模型不够强,是你还在用蒸汽时代的方式用 AI。
为什么现在突然火了?
那为什么现在突然大家都在聊这个事呢。
三个原因吧。
第一个,AI 已经够强了,但「够强」反而暴露了新问题。
单步成功率 95% 看起来很高对吧。但如果一个任务要串 20 步呢。端到端成功率只有36%。
就像你说「帮我建一个网站」,AI 每一步都做得还行,但 20 步之后,网站可能根本跑不起来。不是 AI 笨,而是没有验证和纠错机制,小错误会像滚雪球一样越滚越大。
这个体验,说实话,我太熟了。我自己用 Cursor 写代码的时候,经常出现前 10 步完美,第 11 步开始画风突变,到第 15 步已经面目全非的情况。一个人接手一个全新项目也会懵,区别是,人类会自己查文档、写笔记、做清单。AI 不会,除非你帮它设计好这套机制。
第二个,真正的长任务根本跑不通。
OpenAI 自己的团队就发现,如果你只给 AI 一个笼统的指令「帮我做一个产品」,AI 要么一口气全干然后半途崩掉,要么干到一半觉得「差不多了」就停下来。
我记得有一次让我家小龙虾帮我做一个完整的功能,它干到一半,突然说「我觉得目前的实现已经满足了基本需求」。
我看着那个半成品,沉默了很久。
第三个,竞争焦点变了。
模型越来越商品化了,差距越来越小。你用 Claude,他用 GPT,她用 DeepSeek,在大多数任务上差别没你想的那么大。真正的壁垒变成了你设计的 Harness 有多好。
就像搜索引擎时代,核心不是谁的爬虫更快,而是谁的排名算法更好。
大厂都在怎么搞
反正我看完 OpenAI、Anthropic、Karpathy 这三家的做法之后,脑子里只有一个感觉。
太特么赤鸡了。
先说 OpenAI。
三个工程师,五个月,一百万行代码,零人工。
他们的核心思路就是,不写代码,只设计环境。工程师的角色从「写代码的人」变成了「搭环境的人」。代码仓库本身就是 AI 的知识库,所有架构文档、设计规范、进度记录都在仓库里,AI 自己去找。
最骚的是,他们用代码强制执行规则。不是靠 AI 自觉遵守规范,而是写代码检查,有违反就报错。然后 AI 审核 AI 的代码,人类基本不参与。
我感觉他们三个工程师干的事,与其说是写代码,不如说是给 AI 写了一份工作手册。然后这份手册精确到,AI 可以在几乎没有人类干预的情况下,稳定地产出。
再说 Anthropic。
他们一开始用两个角色,一个初始化 AI 搭环境,一个编码 AI 干活。
然后发现一个问题,AI 做完事总觉得自己做得特别好。它自己给自己的作品打分,永远是高分。哪怕在人类眼里明显很一般。
这让我想到一个事,上学的时候老师让我们互评作文,所有人都给自己打最高分。
所以 Anthropic 加了一个独立的「评审 AI」。生成和评审分离,就像考试不能自己出题自己判卷一样。最终变成了三角色架构:规划者拆任务,生成者干活,评审者打分挑刺。
这个独立的评审者才是关键,它专门被训练成「挑剔的」,会认真找问题,生成者才能不断改进。
我有时候觉得,这个架构跟很多公司的组织结构其实是一样的。产品写需求,开发做实现,测试找 bug。只不过现在这三个角色全是 AI。
再聊聊 Karpathy。
这位前特斯拉 AI 总监做了一个实验,给 AI 一个简化版的 AI 训练代码,让它自己改,自己跑,自己看结果好坏,然后决定保留还是丢弃。
他睡觉的时候 AI 在跑实验。
一晚上大概能做一百个实验。
一百个。你想想看,一个人类研究员,从设计实验、跑代码、分析结果到写报告,一个实验可能就要一周。AI 一晚上一百个。
这个项目的核心设计很聪明。只让 AI 改一个文件,就是训练代码,其他全锁住。每次训练固定五分钟,方便对比结果。然后用一个 Markdown 文件给 AI 写工作说明。
注意,那个工作说明,不是给人类看的,是给 AI 自己看的。
人不是在写代码,是在写 AI 的员工手册。
我自己踩过的坑
写到这里,我突然想到了一个词。
容器。
不是 Docker 那个容器,是更抽象的那种。你给 AI 搭的这套东西,说到底,就是给它创造了一个容器。在这个容器里,有明确的边界,有清晰的工作方式,有自我纠错的能力,有跨会话的记忆。AI 在容器里面跑,才能稳定。
容器外面呢,就像一匹没套马具的野马,力气很大,但你不知道它会跑到哪去。
说到这个,我自己也踩过不少坑。我刚开始用 AI 写代码的时候,最喜欢干的一件事就是,打开对话框,输入一句「帮我做一个 xxx」,然后等着看结果。大部分时候,前几步确实惊艳。但只要任务一长,超过十分钟,就开始出各种奇怪的问题。要么上下文丢了,要么方向偏了,要么代码风格前后不一致。
后来我才明白,不是模型的问题,是我没有给它搭好容器。
我现在的做法是,先把项目结构想好,写一份设计文档,把代码规范写清楚,把验证标准定好。然后把这些全部丢给 AI。
区别是巨大的。真的就是,天壤之别。
跟普通人有什么关系?
有个问题我一直在想。
这些东西,跟不搞 AI 开发的普通人有什么关系?
我非常理解这种感受。你不是程序员,不需要写代码。你不是做 AI 的,不需要天天训练模型。你就是一个普通的上班族,每天处理一些琐碎的工作。AI 能帮你什么?
坦率的讲,这个 Harness 的底层逻辑,放在任何领域都成立。
当你手下的工具足够强大时,你最大的价值不再是亲自干,而是让工具稳定地干好。
你用的那些「AI 帮我写文章」「AI 帮我做 PPT」,如果你只是打开对话框输入一句话,那相当于光给马喊了一声「走」。
真正的 Harness 思维是,我先把写作模板准备好,把参考资料整理好,把审核标准定好,然后让 AI 在这个框架里干活。区别在于,后者的产出质量是稳定的,可预期的,可以批量复制的。
就像一个管理者带团队,不是自己一个人做所有事,而是把流程、制度、分工设计好,让每个人能在自己的位置上稳定输出。
OpenAI 自己的原话是,「工程师的核心工作变成了设计环境、明确意图、构建反馈回路。」
Anthropic 的类比是,「像给一个人安排工作,不是手把手教他怎么做,而是把工具、规则、信息都准备好,让他自己能搞定。」
所以回到最开始的问题。
这个时代最稀缺的那种人是什么样的?
不是会用 AI 的人。会用 AI 已经是基本操作了,就像会用搜索引擎一样。
是能设计出一套系统,让 AI 在里面持续稳定产出的人。
是能给一匹野马套上马具的人。
这事听起来好像很简单,但做到的人,现在真的不多。
我们连 AI 的早期都没到。想想看,全世界 84% 的人还没有进行过第一次 AI 对话。很多人连「喊一声走」都还没做过。
而那些已经在给 AI 搭容器的人,他们正在做的事情,就像是 1880 年代那些最早想明白电力到底能带来什么的人。
故事才刚开始。
那么如何学习大模型 AI ?
对于刚入门大模型的小白,或是想转型/进阶的程序员来说,最头疼的就是找不到系统、全面的学习资源,要么零散不成体系,要么收费高昂,白白浪费时间走弯路。今天就给大家精心整理了一份全面且免费的AI大模型学习资源包,覆盖从入门到实战、从理论到面试的全流程,所有资料均已整理完毕,免费分享给各位!
核心包含:AI大模型全套系统化学习路线图(小白可直接照做)、精品学习书籍+电子文档、干货视频教程、可直接上手的实战项目+源码、2026大厂面试真题题库,一站式解决你的学习痛点,不用再到处搜集拼凑!
👇👇扫码免费领取全部内容👇👇
1、大模型系统化学习路线
学习大模型,方向比努力更重要!很多小白入门就陷入“盲目看视频、乱刷资料”的误区,最后越学越懵。这里给大家整理的这份学习路线,是结合2026年大模型行业趋势和新手学习规律设计的,最科学、最系统,从零基础到精通,每一步都有明确指引,帮你节省80%的无效学习时间,少走弯路、高效进阶。
2、大模型学习书籍&文档
理论是实战的根基,尤其是对于程序员来说,想要真正吃透大模型原理,离不开优质的书籍和文档支撑。本次整理的书籍和电子文档,均由大模型领域顶尖专家、大厂技术大咖撰写,涵盖基础入门、核心原理、进阶技巧等内容,语言通俗易懂,既有理论深度,又贴合实战场景,小白能看懂,程序员能进阶,为后续实战和面试打下坚实基础。
3、AI大模型最新行业报告
无论是小白了解行业、规划学习方向,还是程序员转型、拓展业务边界,都需要紧跟行业趋势。本次整理的2026最新大模型行业报告,针对互联网、金融、医疗、工业等多个主流行业,系统调研了大模型的应用现状、发展趋势、现存问题及潜在机会,帮你清晰了解哪些行业更适合大模型落地,哪些技术方向值得重点深耕,避免盲目学习,精准对接行业需求。值得一提的是,报告还包含了多模态、AI Agent等前沿方向的发展分析,助力大家把握技术风口。
4、大模型项目实战&配套源码
对于程序员和想落地能力的小白来说,“光说不练假把式”,只有动手实战,才能真正巩固所学知识,将理论转化为实际能力。本次整理的实战项目,涵盖基础应用、进阶开发、多场景落地等类型,每个项目都附带完整源码和详细教程,从简单的ChatPDF搭建,到复杂的RAG系统开发、大模型部署,难度由浅入深,小白可逐步上手,程序员可直接参考优化,既能练手提升技术,又能丰富简历,为求职和职业发展加分。
5、大模型大厂面试真题
2026年大模型面试已从单纯考察原理,转向侧重技术落地和业务结合的综合考察,很多程序员和新手因为缺乏针对性准备,明明技术不错,却在面试中失利。为此,我精心整理了各大厂最新大模型面试真题题库,涵盖基础原理、Prompt工程、RAG系统、模型微调、部署优化等核心考点,不仅有真题,还附带详细解题思路和行业踩坑经验,帮你精准把握面试重点,提前做好准备,面试时从容应对、游刃有余。
6、四阶段精细化学习规划(附时间节点,可直接照做)
结合上述资源,给大家整理了一份可直接落地的四阶段学习规划,总时长约2个月,小白可循序渐进,程序员可根据自身基础调整节奏,高效掌握大模型核心能力,快速实现从“入门”到“能落地、能面试”的跨越。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身:基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例:如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…
👇👇扫码免费领取全部内容👇👇
3、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】