news 2026/4/28 8:38:38

AI 工程知识图谱:从 Transformer 到 Agentic AI 的全景地图

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI 工程知识图谱:从 Transformer 到 Agentic AI 的全景地图

一张图看懂 AI Engineering 全貌——7 大模块、50+ 核心概念、5 层技术栈,帮你建立系统化的 AI 工程认知框架。


前言:为什么需要一张 AI 工程知识图谱

过去两年,AI 领域的论文数量呈指数增长,新框架每周冒出来,新概念层出不穷。很多开发者的感受是:

  • 学不完:今天学 RAG,明天出 GraphRAG,后天又来 Agentic RAG
  • 连不上:Transformer、Prompt Engineering、Agent、MCP 之间是什么关系?
  • 用不对:知道概念但不知道什么时候用、怎么选型

知识图谱解决的就是"连不上"的问题——不是教你每个概念的细节,而是帮你建立概念之间的连接关系,形成一张可导航的地图。

本文将 AI 工程拆解为7 大模块,每个模块给出核心概念、关键论文、选型决策和模块间关联,最终形成一张完整的知识图谱。


一、知识图谱总览

AI Engineering 知识图谱 │ ├── 1. 基石与里程碑 ← 一切的起点 │ └── Transformer → GPT → InstructGPT → Scaling Laws │ ├── 2. 大模型架构与训练 ← 怎么"炼"出来的 │ └── 架构 / Tokenization / 三阶段训练 / 微调 / 推理优化 │ ├── 3. Prompt 工程 ← 怎么"用"好模型 │ └── Zero/Few-Shot / CoT / ToT / ReAct / 结构化输出 / 注入防御 │ ├── 4. Agent 架构 ← 从"回答"到"行动" │ └── ReAct / Plan-Execute / Reflexion / Multi-Agent / 记忆 / 规划 │ ├── 5. 上下文工程与 RAG ← 突破记忆限制 │ └── 上下文窗口 / 记忆系统 / RAG 流程 / 高级 RAG / GraphRAG │ ├── 6. Skills、MCP 与工具链 ← 让 AI 真正"干活" │ └── Skill 系统 / MCP 协议 / AI IDE / 开发工具链 │ └── 7. 评估与安全 ← 怎么知道"好不好" └── 评估四维度 / Agent 评估 / 安全防御 / 成本计算

模块间依赖关系

1. 基石与里程碑 ↓ (Transformer 是一切的基础) 2. 大模型架构与训练 ↓ (训练出模型后才能用) 3. Prompt 工程 ← → 5. 上下文工程与 RAG ↓ (Prompt 驱动行动) (RAG 扩展知识) 4. Agent 架构 ↓ (Agent 需要工具) 6. Skills、MCP 与工具链 ↓ (需要评估和安全) 7. 评估与安全

二、模块 1:基石与里程碑

核心时间线

年份里程碑一句话意义
2017Transformer一切的起点,用 Self-Attention 替代 RNN
2018BERT / GPT-1预训练范式确立
2020GPT-3涌现能力出现,ICL 不需微调
2020Scaling Laws性能与参数/数据/算力的幂律关系
2022InstructGPT / ChatGPTRLHF 对齐,AI 走向大众
2022CoT / ReAct / RAG推理、行动、检索三大方向同时开启
2023-24GPT-4 / Claude 3 / Llama 2多模态 + 开源爆发
2025推理模型 (o3 / R1)"慢思考"成为新范式
2026Agentic RAGRAG 从检索工具升级为 Agent 基础设施

必读论文 Top 5(入门优先级排序)

  1. Attention Is All You Need(2017) — Transformer,所有大模型的祖先
  2. GPT-3(2020) — 涌现能力,In-Context Learning
  3. InstructGPT(2022) — RLHF 对齐三阶段
  4. Chain-of-Thought(2022) — 让模型一步步思考
  5. ReAct(2022) — Agent 架构的理论基础

关键术语速查

术语一句话
LLM大语言模型,参数量 > 1B
RLHF用人类偏好训练奖励模型再优化
DPO直接优化偏好,简化版 RLHF
LoRA低秩微调,只训练 0.1% 参数
MoE稀疏激活的专家混合模型
ICL上下文学习,给几个例子就能做新任务
Token模型处理的最小文本单位,约 0.75 个英文单词

三、模块 2:大模型架构与训练

Transformer 核心结构

输入文本 → Tokenizer → Embedding + 位置编码 → [N × Transformer Block] → Multi-Head Self-Attention ← 每个词"看"所有其他词 → Add & LayerNorm → Feed-Forward Network ← 大模型的"知识"主要存在这里 → Add & LayerNorm → 输出层 → 预测下一个 Token

Self-Attention 直觉类比

  • Q(Query)= “我在找什么”
  • K(Key)= “我是什么”(被搜索的标签)
  • V(Value)= “我的内容”(实际信息)

就像在图书馆:Q 是你的问题,K 是书名,V 是书的内容。根据问题与书名的匹配度,决定花多少注意力在每本书上。

训练三阶段

阶段目标数据量成本
预训练学习语言通用知识数万亿 Token数千万-上亿美元
SFT学会对话和遵循指令数万-数十万条低几个数量级
对齐 (RLHF/DPO)有用、诚实、无害人类偏好数据中等

核心公式:数据质量 >> 数据数量。宁可 1 万条高质量,不要 100 万条低质量。

高效微调方法选型

方法参数量显存适用
LoRA0.1-1%最常用,接近全量微调效果
QLoRA0.1% + 4bit极低消费级 GPU
Full Fine-tuning100%极高有大量算力

推理优化

技术作用效果
KV Cache缓存已算的 Key/Value避免重复计算
量化 (INT4/INT8)降低精度显存减半,精度小幅下降
vLLM PagedAttentionKV Cache 去碎片GPU 利用率↑

模型选型决策树

你的场景: ├── 通用对话/创作 → GPT-4o / Claude Sonnet ├── 复杂推理/数学 → o3 / DeepSeek-R1 ├── 代码生成 → Claude Opus 4 ├── 超长文档 → Gemini 2.0 (1M 窗口) ├── 本地部署/隐私 → Llama 3.1 / Qwen 2.5 ├── 中文场景 → Qwen 2.5 / DeepSeek └── 成本敏感 → DeepSeek-V3

四、模块 3:Prompt 工程

Prompt 的本质

完整的 Prompt = 角色 + 上下文 + 指令 + 输入 + 输出格式 + 约束

同一个模型,Prompt 不同,输出质量可以差10 倍

核心模式

模式核心思想适用场景
Zero-Shot直接给指令简单明确的任务
Few-Shot给 3-5 个示例格式控制、分类
CoT“让我们一步步思考”推理、数学、多步问题
ToT探索多条推理路径开放性规划
ReAct推理 + 行动交替需要调用工具的任务
结构化输出指定 JSON/表格格式需要程序化消费结果

CoT 的变体进化

Zero-Shot CoT → "Let's think step by step" ↓ Few-Shot CoT → 给带推理过程的示例 ↓ Self-Consistency → 多次采样取一致性最高的答案 ↓ Tree of Thoughts → 树状搜索多条推理路径

System Prompt 架构设计

一个优秀的 System Prompt 应该是分层的:

System Prompt = 身份层 (我是谁) + 灵魂层 (我怎么思考) + 知识层 (我知道什么) + 记忆层 (我经历过什么) + 工具层 (我能做什么)

Prompt 注入防御

攻击类型原理防御
直接注入“忽略上面的指令”指令-数据分离
间接注入通过外部数据注入输入验证
越狱角色扮演绕过限制多层防御

2026 前沿:Prompt Bloat 问题

MCP 工具数量爆炸 → 工具描述塞满 context → LLM 工具选择准确率下降。

解法:RAG-as-Routing,用语义检索预筛选工具(top-k),只把相关工具注入 Prompt。实测 prompt token 降低60%+


五、模块 4:Agent 架构

Agent = LLM + 记忆 + 工具 + 规划

维度ChatBotAgent
交互一问一答自主规划、多步执行
工具调用外部工具/API
记忆当前对话短期 + 长期记忆
决策被动响应主动推理和规划

Agent 核心循环

Perceive (感知) → Think (思考) → Act (行动) → Observe (观察) → 循环

五大设计模式

模式 1:ReAct(最广泛使用)

Thought → Action → Observation → Thought → Action → ...

简单直观,但串行执行,没有全局规划。

模式 2:Plan-and-Execute

制定完整计划 → 逐步执行 → 根据中间结果 Replan

有全局视角,适合复杂任务。

模式 3:Reflexion

执行 → 自我评估 → 存储反思 → 下次避免同类错误

持续自我改进。

模式 4:Multi-Agent

Orchestrator ├── Researcher → 信息收集 ├── Writer → 内容生成 └── Reviewer → 质量检查

分工协作,适合复杂工作流。

模式 5:Tool-Use Agent
LLM 决定何时调用什么工具。模型不是"执行"工具,而是生成工具调用的 JSON 描述,由外部系统执行。

记忆系统设计

类型对标人类记忆实现方式
工作记忆工作记忆当前上下文窗口
短期记忆短时记忆对话历史(滑动窗口)
长期记忆长时记忆向量数据库 / 文件系统
程序性记忆技能记忆Skills / Prompt 模板

Agent 框架选型

需求推荐框架
快速原型Coze / Dify(零代码)
内容/研究类CrewAI(角色扮演)
复杂工作流/生产LangGraph(状态图)
多 Agent 辩论AutoGen
最大灵活度直接调 API + 自己写循环

2026 关键洞察

Agent 系统工程三角:编排 + 记忆治理 + 工具可靠性,决定 Agent 能否真正落地。

维度关键数据
工具可靠性工具调用错误占 Agent 失败原因67%
记忆治理结构化记忆在 SWE-bench 提升23.7%
编排架构500+ 真实项目:状态同步失败38%

六、模块 5:上下文工程与 RAG

核心矛盾:“看到” ≠ “记住”

Lost in the Middle问题:模型对上下文开头和结尾更敏感,中间部分容易被忽略。即使窗口有 200K,实际有效利用的可能只有 50-70%。

上下文工程原则

上下文 = System Prompt (固定层) + User Profile (半固定层) + Retrieved Knowledge (动态检索层) + Conversation History (对话层) + Current Query (当前输入层)

5 条黄金法则

  1. 最相关的信息放在开头和结尾
  2. System Prompt 越精简越好
  3. 动态检索胜于静态塞入
  4. 摘要压缩胜于直接截断
  5. 结构化(Markdown/JSON)胜于纯文本

RAG 完整流程

离线:文档 → 解析 → 清洗 → 分块 → Embedding → 向量数据库 在线:查询 → Query Embedding → 向量检索 → 重排序 → 拼 Prompt → 生成

分块策略选型

策略适用
递归分割最常用,先按大边界切,太长再按段落切
语义分割结构化文档
固定长度 + 重叠简单通用

最佳实践:块大小 256-1024 Token,重叠 10-20%。

向量数据库选型

数据库适用场景
Chroma原型 / 小项目
FAISS大规模 / 自部署
Pinecone生产环境(全托管)
pgvector已有 PG 基础设施

高级 RAG 技术矩阵

技术核心思想解决什么问题
HyDE先生成假设回答再检索短查询与长文档距离远
Self-RAG模型自判是否需要检索避免不必要检索
CRAG检索后评估相关性不相关文档污染上下文
GraphRAG知识图谱 + RAG捕捉实体间关系
RAPTOR递归摘要树同时检索细节和全局

2026 前沿:Agentic RAG

RAG 正在从"检索工具"升级为"Agent 基础设施":

主线核心机制适用
RAG-as-Routing语义检索预筛选工具工具爆炸场景
RAG-as-Memory图结构持久化知识企业复杂文档

架构选型

  • 简单问答 → Agentic RAG(成本低)
  • 跨实体全局推理 → GraphRAG(不可替代)

七、模块 6:Skills、MCP 与工具链

MCP = AI 的 USB 接口

MCP (Model Context Protocol)= Anthropic 提出的开放协议,让 AI 模型标准化地连接外部工具和数据源。

MCP Client (AI应用) ←─MCP协议─→ MCP Server (工具提供方) Claude/Cursor/CodeBuddy GitHub/Slack/数据库/文件系统

Skill vs Prompt vs Tool

概念粒度包含
Tool原子操作一个 API/函数
Prompt一段指令角色 + 任务 + 格式
Skill完整能力Prompt + Tool + SOP + 知识

AI IDE 选型

工具核心能力特点
Cursor代码生成/编辑/对话Composer 多文件编辑
GitHub Copilot补全/Chat最大用户基数
CodeBuddy代码 + MCP + Agent集成 MCP 和 Agent
Cline自主编码 Agent开源,可控性强

2026 关键洞察:RAG-MCP

MCP 工具超过 30 个后,必须启用 RAG-based Skill Router,否则工具选择准确率崩溃:

Skill 数量建议策略
≤15全量注入,无需 Router
16-30建立语义索引,实验 Router
>30必须 RAG-based Router

八、模块 7:评估与安全

评估四维度

维度关键指标可接受阈值
质量准确率 / F1 / 人工评分因场景而异
延迟首 Token 时间 / 总生成时间TTFT < 1s
成本每请求 Token 成本与业务价值匹配
安全有害输出率 / 注入成功率< 0.1%

成本计算公式

月成本 = 日均请求数 × 平均 Token 数 × Token 单价 × 30 例:10000 请求/天 × 2000 Token × $0.003/1K × 30 = $1,800/月

Agent 评估维度

维度衡量方式
任务完成率自动化测试集
步骤效率日志统计
工具调用准确率日志审计
鲁棒性边界测试

安全红线

攻击防御
Prompt 注入指令-数据分离 + 输入验证
工具中毒能力认证校验
跨服务器注入沙箱隔离 + 来源隔离
数据泄露输出过滤 + 脱敏

九、跨模块关联:知识图谱的关键边

知识图谱的价值不在于节点(单个概念),而在于(概念间的关系)。

关键关联 1:Transformer → Prompt → Agent

Transformer 的 Self-Attention 机制 → 使得模型能理解长距离依赖 → 使得 CoT (链式思考) 成为可能 → 使得 ReAct (推理+行动) 成为可能 → Agent 架构的基础

关键关联 2:Embedding → RAG → Agent

Embedding 将文本映射到向量空间 → 使得语义检索成为可能 → RAG 用 Embedding 检索相关知识 → Agent 用 RAG 扩展知识边界 → Agentic RAG 让 Agent 自主决定检索策略

关键关联 3:MCP → Skill → Agent

MCP 统一工具接口 → Skill 封装为可复用能力单元 → Agent 通过 Skill 调用工具 → RAG-MCP 解决工具选择问题

关键关联 4:记忆 → 上下文 → 压缩

长期记忆(文件/向量库) → 上下文窗口有限(200K) → 需要压缩(摘要/截断/检索) → 迭代式摘要 + Handoff 框架 → 记忆的 CRUD + 遗忘机制

十、学习路线图

入门路线(2-3 周)

  1. 3Blue1Brown 神经网络视频 → 建立直觉
  2. Jay Alammar “The Illustrated Transformer” → 理解 Transformer
  3. 精读模块 1-3(基石 + 架构 + Prompt)→ 打基础
  4. 动手写 Prompt,跑通 CoT / Few-Shot

进阶路线(4-6 周)

  1. 搭建一个 ReAct Agent(LangChain/LangGraph)
  2. 实现一个 RAG 系统(Chroma + OpenAI Embedding)
  3. 精读模块 4-6(Agent + RAG + MCP)
  4. 读 Chip Huyen《AI Engineering》

深入路线(持续)

  1. 精读 ReAct / RAG / CoT 原始论文
  2. 研究 Hermes Agent 源码(上下文压缩 + 记忆系统设计)
  3. 关注 2026 前沿:Agentic RAG / GraphRAG / 推理模型
  4. 关注 arXiv cs.CL 每月热门论文

十一、2026 趋势总结

趋势核心对开发者的意义
推理模型"慢思考"成为新范式复杂推理场景优先选 R1/o3
Agentic RAGRAG 升级为 Agent 基础设施RAG 不只是检索,是路由+记忆
GraphRAG图结构捕捉实体关系跨实体全局推理不可替代
Prompt Bloat工具爆炸导致注意力稀释超 30 工具必须上 Router
记忆架构从向量检索到图结构+层次化解耦单纯向量相似度已被宣告过时
Agent 安全MCP 协议级漏洞被发现能力认证 + 沙箱隔离是 P0

十二、推荐资源

资源类型核心
Attention Is All You Need论文Transformer 原文
AI Engineering (Chip Huyen)书籍AI 工程全景
《动手学深度学习》(d2l.ai)书籍代码实操入门
promptingguide.ai教程Prompt 工程指南
LangChain 官方文档文档Agent/RAG 实操
吴恩达 AI Agent 课程视频Agent 设计模式
MCP 官方文档文档MCP 协议规范
arXiv cs.CL论文前沿跟踪

结语

AI 工程不是一堆孤立概念的堆砌,而是一棵从 Transformer 根基长出的知识树:

  • Transformer是根——Self-Attention 机制让一切成为可能
  • Prompt是干——用自然语言操控模型
  • Agent是枝——从被动回答到主动行动
  • RAG是叶——突破知识边界
  • MCP是果——让 AI 真正连接世界

记住这张图,你就不会在 AI 工程的知识海洋中迷路。


作者:路易乔布斯 | 知识域:AI Engineering | 2026-04-27

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/28 8:32:51

BitNet-b1.58-2B-4T-GGUF 网络协议分析助手:模拟Wireshark生成解析脚本

BitNet-b1.58-2B-4T-GGUF 网络协议分析助手&#xff1a;模拟Wireshark生成解析脚本 1. 网络工程师的新助手 作为一名网络工程师&#xff0c;每天最头疼的就是分析各种网络数据包。上周我就遇到一个棘手的问题&#xff1a;客户反映他们的应用偶尔会出现连接超时&#xff0c;但…

作者头像 李华
网站建设 2026/4/28 8:32:01

wireshark学习-icmp

这几天看见了很久以前自己学wireshark的文章&#xff0c;当时学不懂&#xff0c;就放弃了&#xff0c;于是现在再回来学一遍首先就是第一个问题&#xff0c;如图所示&#xff0c;sw充当网关&#xff0c;pc2在配置掩码的时候不小心配置错了&#xff0c;本来是/24&#xff0c;配置…

作者头像 李华
网站建设 2026/4/28 8:23:52

进化策略算法:原理、实现与优化技巧

1. 进化策略算法基础认知第一次接触进化策略(Evolution Strategies)是在解决一个机器人控制问题时。当时需要优化一组连续参数&#xff0c;但目标函数不可微且存在噪声&#xff0c;传统梯度下降完全失效。同事扔给我一篇1970年代的论文&#xff0c;从此打开了新世界的大门。进化…

作者头像 李华
网站建设 2026/4/28 8:23:21

企业级门户网站设计与实现:基于SpringBoot + Vue3的全栈解决方案(Day 6)

交互优化与数据动态化前言前五天的开发工作完成了项目的基础架构、首页开发、文章列表页面、文章详情页面、公共组件抽离和功能完善。第六天的开发工作将重点关注交互优化与数据动态化&#xff0c;包括顶部导航激活状态优化、热门分类动态数据完善、热门文章动态数据获取以及UI…

作者头像 李华
网站建设 2026/4/28 8:22:48

3步轻松下载任何在线视频:Video DownloadHelper伴侣应用终极指南

3步轻松下载任何在线视频&#xff1a;Video DownloadHelper伴侣应用终极指南 【免费下载链接】vdhcoapp Companion application for Video DownloadHelper browser add-on 项目地址: https://gitcode.com/gh_mirrors/vd/vdhcoapp 你是否曾经遇到过想保存在线课程、收藏精…

作者头像 李华