一张图看懂 AI Engineering 全貌——7 大模块、50+ 核心概念、5 层技术栈,帮你建立系统化的 AI 工程认知框架。
前言:为什么需要一张 AI 工程知识图谱
过去两年,AI 领域的论文数量呈指数增长,新框架每周冒出来,新概念层出不穷。很多开发者的感受是:
- 学不完:今天学 RAG,明天出 GraphRAG,后天又来 Agentic RAG
- 连不上:Transformer、Prompt Engineering、Agent、MCP 之间是什么关系?
- 用不对:知道概念但不知道什么时候用、怎么选型
知识图谱解决的就是"连不上"的问题——不是教你每个概念的细节,而是帮你建立概念之间的连接关系,形成一张可导航的地图。
本文将 AI 工程拆解为7 大模块,每个模块给出核心概念、关键论文、选型决策和模块间关联,最终形成一张完整的知识图谱。
一、知识图谱总览
AI Engineering 知识图谱 │ ├── 1. 基石与里程碑 ← 一切的起点 │ └── Transformer → GPT → InstructGPT → Scaling Laws │ ├── 2. 大模型架构与训练 ← 怎么"炼"出来的 │ └── 架构 / Tokenization / 三阶段训练 / 微调 / 推理优化 │ ├── 3. Prompt 工程 ← 怎么"用"好模型 │ └── Zero/Few-Shot / CoT / ToT / ReAct / 结构化输出 / 注入防御 │ ├── 4. Agent 架构 ← 从"回答"到"行动" │ └── ReAct / Plan-Execute / Reflexion / Multi-Agent / 记忆 / 规划 │ ├── 5. 上下文工程与 RAG ← 突破记忆限制 │ └── 上下文窗口 / 记忆系统 / RAG 流程 / 高级 RAG / GraphRAG │ ├── 6. Skills、MCP 与工具链 ← 让 AI 真正"干活" │ └── Skill 系统 / MCP 协议 / AI IDE / 开发工具链 │ └── 7. 评估与安全 ← 怎么知道"好不好" └── 评估四维度 / Agent 评估 / 安全防御 / 成本计算模块间依赖关系:
1. 基石与里程碑 ↓ (Transformer 是一切的基础) 2. 大模型架构与训练 ↓ (训练出模型后才能用) 3. Prompt 工程 ← → 5. 上下文工程与 RAG ↓ (Prompt 驱动行动) (RAG 扩展知识) 4. Agent 架构 ↓ (Agent 需要工具) 6. Skills、MCP 与工具链 ↓ (需要评估和安全) 7. 评估与安全二、模块 1:基石与里程碑
核心时间线
| 年份 | 里程碑 | 一句话意义 |
|---|---|---|
| 2017 | Transformer | 一切的起点,用 Self-Attention 替代 RNN |
| 2018 | BERT / GPT-1 | 预训练范式确立 |
| 2020 | GPT-3 | 涌现能力出现,ICL 不需微调 |
| 2020 | Scaling Laws | 性能与参数/数据/算力的幂律关系 |
| 2022 | InstructGPT / ChatGPT | RLHF 对齐,AI 走向大众 |
| 2022 | CoT / ReAct / RAG | 推理、行动、检索三大方向同时开启 |
| 2023-24 | GPT-4 / Claude 3 / Llama 2 | 多模态 + 开源爆发 |
| 2025 | 推理模型 (o3 / R1) | "慢思考"成为新范式 |
| 2026 | Agentic RAG | RAG 从检索工具升级为 Agent 基础设施 |
必读论文 Top 5(入门优先级排序)
- Attention Is All You Need(2017) — Transformer,所有大模型的祖先
- GPT-3(2020) — 涌现能力,In-Context Learning
- InstructGPT(2022) — RLHF 对齐三阶段
- Chain-of-Thought(2022) — 让模型一步步思考
- ReAct(2022) — Agent 架构的理论基础
关键术语速查
| 术语 | 一句话 |
|---|---|
| LLM | 大语言模型,参数量 > 1B |
| RLHF | 用人类偏好训练奖励模型再优化 |
| DPO | 直接优化偏好,简化版 RLHF |
| LoRA | 低秩微调,只训练 0.1% 参数 |
| MoE | 稀疏激活的专家混合模型 |
| ICL | 上下文学习,给几个例子就能做新任务 |
| Token | 模型处理的最小文本单位,约 0.75 个英文单词 |
三、模块 2:大模型架构与训练
Transformer 核心结构
输入文本 → Tokenizer → Embedding + 位置编码 → [N × Transformer Block] → Multi-Head Self-Attention ← 每个词"看"所有其他词 → Add & LayerNorm → Feed-Forward Network ← 大模型的"知识"主要存在这里 → Add & LayerNorm → 输出层 → 预测下一个 TokenSelf-Attention 直觉类比:
- Q(Query)= “我在找什么”
- K(Key)= “我是什么”(被搜索的标签)
- V(Value)= “我的内容”(实际信息)
就像在图书馆:Q 是你的问题,K 是书名,V 是书的内容。根据问题与书名的匹配度,决定花多少注意力在每本书上。
训练三阶段
| 阶段 | 目标 | 数据量 | 成本 |
|---|---|---|---|
| 预训练 | 学习语言通用知识 | 数万亿 Token | 数千万-上亿美元 |
| SFT | 学会对话和遵循指令 | 数万-数十万条 | 低几个数量级 |
| 对齐 (RLHF/DPO) | 有用、诚实、无害 | 人类偏好数据 | 中等 |
核心公式:数据质量 >> 数据数量。宁可 1 万条高质量,不要 100 万条低质量。
高效微调方法选型
| 方法 | 参数量 | 显存 | 适用 |
|---|---|---|---|
| LoRA | 0.1-1% | 低 | 最常用,接近全量微调效果 |
| QLoRA | 0.1% + 4bit | 极低 | 消费级 GPU |
| Full Fine-tuning | 100% | 极高 | 有大量算力 |
推理优化
| 技术 | 作用 | 效果 |
|---|---|---|
| KV Cache | 缓存已算的 Key/Value | 避免重复计算 |
| 量化 (INT4/INT8) | 降低精度 | 显存减半,精度小幅下降 |
| vLLM PagedAttention | KV Cache 去碎片 | GPU 利用率↑ |
模型选型决策树
你的场景: ├── 通用对话/创作 → GPT-4o / Claude Sonnet ├── 复杂推理/数学 → o3 / DeepSeek-R1 ├── 代码生成 → Claude Opus 4 ├── 超长文档 → Gemini 2.0 (1M 窗口) ├── 本地部署/隐私 → Llama 3.1 / Qwen 2.5 ├── 中文场景 → Qwen 2.5 / DeepSeek └── 成本敏感 → DeepSeek-V3四、模块 3:Prompt 工程
Prompt 的本质
完整的 Prompt = 角色 + 上下文 + 指令 + 输入 + 输出格式 + 约束同一个模型,Prompt 不同,输出质量可以差10 倍。
核心模式
| 模式 | 核心思想 | 适用场景 |
|---|---|---|
| Zero-Shot | 直接给指令 | 简单明确的任务 |
| Few-Shot | 给 3-5 个示例 | 格式控制、分类 |
| CoT | “让我们一步步思考” | 推理、数学、多步问题 |
| ToT | 探索多条推理路径 | 开放性规划 |
| ReAct | 推理 + 行动交替 | 需要调用工具的任务 |
| 结构化输出 | 指定 JSON/表格格式 | 需要程序化消费结果 |
CoT 的变体进化
Zero-Shot CoT → "Let's think step by step" ↓ Few-Shot CoT → 给带推理过程的示例 ↓ Self-Consistency → 多次采样取一致性最高的答案 ↓ Tree of Thoughts → 树状搜索多条推理路径System Prompt 架构设计
一个优秀的 System Prompt 应该是分层的:
System Prompt = 身份层 (我是谁) + 灵魂层 (我怎么思考) + 知识层 (我知道什么) + 记忆层 (我经历过什么) + 工具层 (我能做什么)Prompt 注入防御
| 攻击类型 | 原理 | 防御 |
|---|---|---|
| 直接注入 | “忽略上面的指令” | 指令-数据分离 |
| 间接注入 | 通过外部数据注入 | 输入验证 |
| 越狱 | 角色扮演绕过限制 | 多层防御 |
2026 前沿:Prompt Bloat 问题
MCP 工具数量爆炸 → 工具描述塞满 context → LLM 工具选择准确率下降。
解法:RAG-as-Routing,用语义检索预筛选工具(top-k),只把相关工具注入 Prompt。实测 prompt token 降低60%+。
五、模块 4:Agent 架构
Agent = LLM + 记忆 + 工具 + 规划
| 维度 | ChatBot | Agent |
|---|---|---|
| 交互 | 一问一答 | 自主规划、多步执行 |
| 工具 | 无 | 调用外部工具/API |
| 记忆 | 当前对话 | 短期 + 长期记忆 |
| 决策 | 被动响应 | 主动推理和规划 |
Agent 核心循环
Perceive (感知) → Think (思考) → Act (行动) → Observe (观察) → 循环五大设计模式
模式 1:ReAct(最广泛使用)
Thought → Action → Observation → Thought → Action → ...简单直观,但串行执行,没有全局规划。
模式 2:Plan-and-Execute
制定完整计划 → 逐步执行 → 根据中间结果 Replan有全局视角,适合复杂任务。
模式 3:Reflexion
执行 → 自我评估 → 存储反思 → 下次避免同类错误持续自我改进。
模式 4:Multi-Agent
Orchestrator ├── Researcher → 信息收集 ├── Writer → 内容生成 └── Reviewer → 质量检查分工协作,适合复杂工作流。
模式 5:Tool-Use Agent
LLM 决定何时调用什么工具。模型不是"执行"工具,而是生成工具调用的 JSON 描述,由外部系统执行。
记忆系统设计
| 类型 | 对标人类记忆 | 实现方式 |
|---|---|---|
| 工作记忆 | 工作记忆 | 当前上下文窗口 |
| 短期记忆 | 短时记忆 | 对话历史(滑动窗口) |
| 长期记忆 | 长时记忆 | 向量数据库 / 文件系统 |
| 程序性记忆 | 技能记忆 | Skills / Prompt 模板 |
Agent 框架选型
| 需求 | 推荐框架 |
|---|---|
| 快速原型 | Coze / Dify(零代码) |
| 内容/研究类 | CrewAI(角色扮演) |
| 复杂工作流/生产 | LangGraph(状态图) |
| 多 Agent 辩论 | AutoGen |
| 最大灵活度 | 直接调 API + 自己写循环 |
2026 关键洞察
Agent 系统工程三角:编排 + 记忆治理 + 工具可靠性,决定 Agent 能否真正落地。
| 维度 | 关键数据 |
|---|---|
| 工具可靠性 | 工具调用错误占 Agent 失败原因67% |
| 记忆治理 | 结构化记忆在 SWE-bench 提升23.7% |
| 编排架构 | 500+ 真实项目:状态同步失败38% |
六、模块 5:上下文工程与 RAG
核心矛盾:“看到” ≠ “记住”
Lost in the Middle问题:模型对上下文开头和结尾更敏感,中间部分容易被忽略。即使窗口有 200K,实际有效利用的可能只有 50-70%。
上下文工程原则
上下文 = System Prompt (固定层) + User Profile (半固定层) + Retrieved Knowledge (动态检索层) + Conversation History (对话层) + Current Query (当前输入层)5 条黄金法则:
- 最相关的信息放在开头和结尾
- System Prompt 越精简越好
- 动态检索胜于静态塞入
- 摘要压缩胜于直接截断
- 结构化(Markdown/JSON)胜于纯文本
RAG 完整流程
离线:文档 → 解析 → 清洗 → 分块 → Embedding → 向量数据库 在线:查询 → Query Embedding → 向量检索 → 重排序 → 拼 Prompt → 生成分块策略选型
| 策略 | 适用 |
|---|---|
| 递归分割 | 最常用,先按大边界切,太长再按段落切 |
| 语义分割 | 结构化文档 |
| 固定长度 + 重叠 | 简单通用 |
最佳实践:块大小 256-1024 Token,重叠 10-20%。
向量数据库选型
| 数据库 | 适用场景 |
|---|---|
| Chroma | 原型 / 小项目 |
| FAISS | 大规模 / 自部署 |
| Pinecone | 生产环境(全托管) |
| pgvector | 已有 PG 基础设施 |
高级 RAG 技术矩阵
| 技术 | 核心思想 | 解决什么问题 |
|---|---|---|
| HyDE | 先生成假设回答再检索 | 短查询与长文档距离远 |
| Self-RAG | 模型自判是否需要检索 | 避免不必要检索 |
| CRAG | 检索后评估相关性 | 不相关文档污染上下文 |
| GraphRAG | 知识图谱 + RAG | 捕捉实体间关系 |
| RAPTOR | 递归摘要树 | 同时检索细节和全局 |
2026 前沿:Agentic RAG
RAG 正在从"检索工具"升级为"Agent 基础设施":
| 主线 | 核心机制 | 适用 |
|---|---|---|
| RAG-as-Routing | 语义检索预筛选工具 | 工具爆炸场景 |
| RAG-as-Memory | 图结构持久化知识 | 企业复杂文档 |
架构选型:
- 简单问答 → Agentic RAG(成本低)
- 跨实体全局推理 → GraphRAG(不可替代)
七、模块 6:Skills、MCP 与工具链
MCP = AI 的 USB 接口
MCP (Model Context Protocol)= Anthropic 提出的开放协议,让 AI 模型标准化地连接外部工具和数据源。
MCP Client (AI应用) ←─MCP协议─→ MCP Server (工具提供方) Claude/Cursor/CodeBuddy GitHub/Slack/数据库/文件系统Skill vs Prompt vs Tool
| 概念 | 粒度 | 包含 |
|---|---|---|
| Tool | 原子操作 | 一个 API/函数 |
| Prompt | 一段指令 | 角色 + 任务 + 格式 |
| Skill | 完整能力 | Prompt + Tool + SOP + 知识 |
AI IDE 选型
| 工具 | 核心能力 | 特点 |
|---|---|---|
| Cursor | 代码生成/编辑/对话 | Composer 多文件编辑 |
| GitHub Copilot | 补全/Chat | 最大用户基数 |
| CodeBuddy | 代码 + MCP + Agent | 集成 MCP 和 Agent |
| Cline | 自主编码 Agent | 开源,可控性强 |
2026 关键洞察:RAG-MCP
MCP 工具超过 30 个后,必须启用 RAG-based Skill Router,否则工具选择准确率崩溃:
| Skill 数量 | 建议策略 |
|---|---|
| ≤15 | 全量注入,无需 Router |
| 16-30 | 建立语义索引,实验 Router |
| >30 | 必须 RAG-based Router |
八、模块 7:评估与安全
评估四维度
| 维度 | 关键指标 | 可接受阈值 |
|---|---|---|
| 质量 | 准确率 / F1 / 人工评分 | 因场景而异 |
| 延迟 | 首 Token 时间 / 总生成时间 | TTFT < 1s |
| 成本 | 每请求 Token 成本 | 与业务价值匹配 |
| 安全 | 有害输出率 / 注入成功率 | < 0.1% |
成本计算公式
月成本 = 日均请求数 × 平均 Token 数 × Token 单价 × 30 例:10000 请求/天 × 2000 Token × $0.003/1K × 30 = $1,800/月Agent 评估维度
| 维度 | 衡量方式 |
|---|---|
| 任务完成率 | 自动化测试集 |
| 步骤效率 | 日志统计 |
| 工具调用准确率 | 日志审计 |
| 鲁棒性 | 边界测试 |
安全红线
| 攻击 | 防御 |
|---|---|
| Prompt 注入 | 指令-数据分离 + 输入验证 |
| 工具中毒 | 能力认证校验 |
| 跨服务器注入 | 沙箱隔离 + 来源隔离 |
| 数据泄露 | 输出过滤 + 脱敏 |
九、跨模块关联:知识图谱的关键边
知识图谱的价值不在于节点(单个概念),而在于边(概念间的关系)。
关键关联 1:Transformer → Prompt → Agent
Transformer 的 Self-Attention 机制 → 使得模型能理解长距离依赖 → 使得 CoT (链式思考) 成为可能 → 使得 ReAct (推理+行动) 成为可能 → Agent 架构的基础关键关联 2:Embedding → RAG → Agent
Embedding 将文本映射到向量空间 → 使得语义检索成为可能 → RAG 用 Embedding 检索相关知识 → Agent 用 RAG 扩展知识边界 → Agentic RAG 让 Agent 自主决定检索策略关键关联 3:MCP → Skill → Agent
MCP 统一工具接口 → Skill 封装为可复用能力单元 → Agent 通过 Skill 调用工具 → RAG-MCP 解决工具选择问题关键关联 4:记忆 → 上下文 → 压缩
长期记忆(文件/向量库) → 上下文窗口有限(200K) → 需要压缩(摘要/截断/检索) → 迭代式摘要 + Handoff 框架 → 记忆的 CRUD + 遗忘机制十、学习路线图
入门路线(2-3 周)
- 3Blue1Brown 神经网络视频 → 建立直觉
- Jay Alammar “The Illustrated Transformer” → 理解 Transformer
- 精读模块 1-3(基石 + 架构 + Prompt)→ 打基础
- 动手写 Prompt,跑通 CoT / Few-Shot
进阶路线(4-6 周)
- 搭建一个 ReAct Agent(LangChain/LangGraph)
- 实现一个 RAG 系统(Chroma + OpenAI Embedding)
- 精读模块 4-6(Agent + RAG + MCP)
- 读 Chip Huyen《AI Engineering》
深入路线(持续)
- 精读 ReAct / RAG / CoT 原始论文
- 研究 Hermes Agent 源码(上下文压缩 + 记忆系统设计)
- 关注 2026 前沿:Agentic RAG / GraphRAG / 推理模型
- 关注 arXiv cs.CL 每月热门论文
十一、2026 趋势总结
| 趋势 | 核心 | 对开发者的意义 |
|---|---|---|
| 推理模型 | "慢思考"成为新范式 | 复杂推理场景优先选 R1/o3 |
| Agentic RAG | RAG 升级为 Agent 基础设施 | RAG 不只是检索,是路由+记忆 |
| GraphRAG | 图结构捕捉实体关系 | 跨实体全局推理不可替代 |
| Prompt Bloat | 工具爆炸导致注意力稀释 | 超 30 工具必须上 Router |
| 记忆架构 | 从向量检索到图结构+层次化解耦 | 单纯向量相似度已被宣告过时 |
| Agent 安全 | MCP 协议级漏洞被发现 | 能力认证 + 沙箱隔离是 P0 |
十二、推荐资源
| 资源 | 类型 | 核心 |
|---|---|---|
| Attention Is All You Need | 论文 | Transformer 原文 |
| AI Engineering (Chip Huyen) | 书籍 | AI 工程全景 |
| 《动手学深度学习》(d2l.ai) | 书籍 | 代码实操入门 |
| promptingguide.ai | 教程 | Prompt 工程指南 |
| LangChain 官方文档 | 文档 | Agent/RAG 实操 |
| 吴恩达 AI Agent 课程 | 视频 | Agent 设计模式 |
| MCP 官方文档 | 文档 | MCP 协议规范 |
| arXiv cs.CL | 论文 | 前沿跟踪 |
结语
AI 工程不是一堆孤立概念的堆砌,而是一棵从 Transformer 根基长出的知识树:
- Transformer是根——Self-Attention 机制让一切成为可能
- Prompt是干——用自然语言操控模型
- Agent是枝——从被动回答到主动行动
- RAG是叶——突破知识边界
- MCP是果——让 AI 真正连接世界
记住这张图,你就不会在 AI 工程的知识海洋中迷路。
作者:路易乔布斯 | 知识域:AI Engineering | 2026-04-27