AI智能体已成主流！LangChain报告：57%企业已部署，代码助手已成程序员日常必备技能！-程序员充电站

LangChain 调查了 1300 多名专业人士，涵盖工程师、产品经理、业务负责人及企业高管，旨在揭示 AI 智能体的发展现状。让我们深入解读数据，剖析如今 AI 智能体的应用（或未被应用）情况。

1. 引言

步入 2026 年，各组织已不再纠结是否要构建智能体，而是聚焦于如何可靠、高效且大规模地部署它们。LangChain 通过对 1300 多名专业人士的调研，了解到他们在 AI 智能体应用场景优化及智能体工程挑战应对方面的进展。

1.1 关键发现

生产落地势头强劲：57% 的受访者表示其所在组织已将智能体投入生产，大型企业在采用率方面处于领先地位。

质量是生产落地的关键瓶颈：32% 的受访者将质量列为首要障碍，而成本担忧较去年有所下降。

可观测性成为必备基础：近 89% 的受访者已为其智能体部署可观测性方案，普及率高于评估方案（52%）。

多模型并行成为常态：OpenAI 的 GPT 模型占据主导地位，但 Gemini、Claude 及开源模型的采用率也显著提升，微调尚未得到广泛应用。

2. 核心洞察

2.1 什么是智能体工程？

智能体工程是将大型语言模型（LLMs）整合为可靠系统的迭代过程。由于智能体具有非确定性，我们认为工程师需要通过快速迭代来优化和提升智能体质量。

2.2 大型企业引领采用潮流

超过半数（57.3%）的受访者表示其所在组织已在生产环境中运行智能体，另有 30.4% 的组织正在积极开发智能体，并制定了明确的部署计划。

这与去年的调查结果相比有明显增长，去年仅有 51% 的受访者表示已将智能体投入生产。各组织正从概念验证阶段迈向规模化生产，如今大多数组织面临的问题已不再是 “是否要部署智能体”，而是 “如何部署” 以及 “何时部署”。

2.2.1 贵公司目前是否已将智能体投入生产？

状态	2024 年受访者	2025 年受访者
是	51.2%	57.3%
否，但正在积极开发并计划投入生产	38.1%	30.4%
否，仅处于探索阶段	10.7%	12.3%

2.2.2 规模增长带来哪些变化？

员工规模 1 万人以上的组织：67% 已将智能体投入生产，24% 正在积极开发并计划部署。

员工规模不足 100 人的组织：50% 已将智能体投入生产，36% 正在积极开发。

这表明大型组织从试点到构建稳定系统的推进速度更快，这可能得益于其在平台团队、安全性及可靠性基础设施方面的更大投入。

2.2.3 不同规模公司的智能体生产落地情况

公司规模	是	否，但正在积极开发并计划投入生产	否，仅处于探索阶段
初创企业（<100 人）	50%	36%	14%
成长型企业（100-500 人）	50%	34%	16%
中端市场企业（500-2000 人）	64%	22%	14%
中高端市场企业（2000-10000 人）	53%	32%	14.5%
大型企业（10000 + 人）	67%	25%	8%

2.3 主要智能体应用场景

客户服务成为最常见的智能体应用场景（26.5%），研究与数据分析紧随其后（24.4%）。这两大场景合计占所有主要智能体部署案例的一半以上。

2.3.1 您的主要智能体应用场景是什么？

客户服务：26.5%

研究与数据分析：24.4%

内部生产力提升：17.7%

代码生成：9.8%

内容生成：9.0%

销售 / 营销自动化：6.0%

其他：6.7%

客户服务场景的高占比表明，各团队正逐渐将智能体直接面向客户，而非仅用于内部场景。与此同时，智能体在内部场景的价值仍十分显著，18% 的受访者表示使用智能体实现内部工作流自动化，以提升员工效率。

研究与数据分析场景的普及进一步印证了如今智能体的核心优势：整合海量信息、跨来源推理以及加速知识密集型任务。

值得注意的是，今年受访者选择的应用场景更加多样化（每位受访者仅可选择一个主要场景），这表明智能体的应用已不再局限于少数早期场景，而是向更多领域拓展。

2.3.2 规模增长带来哪些应用场景变化？

在员工规模 1 万人以上的组织中，内部生产力提升成为首要应用场景（26.8%），客户服务（24.7%）和研究与数据分析（22.2%）紧随其后。大型企业可能更倾向于先通过智能体提升内部团队效率，再逐步（或同时）将智能体部署给终端用户。

2.4 落地生产的最大障碍

与去年的调查结果一致，质量仍是智能体落地生产的最大障碍。今年，三分之一的受访者将质量列为首要瓶颈，这包括输出的准确性、相关性、一致性，以及智能体维持适当语气、遵守品牌或政策准则的能力。

2.4.1 您在将智能体投入生产过程中面临的最大障碍是什么？

输出质量：32.9%

延迟 / 响应时间：20.1%

安全与合规：16.0%

部署基础设施：13.9%

成本管理：12.8%

其他：4.2%

延迟已成为第二大挑战（20%）。随着智能体被应用于客户服务、代码生成等面向客户的场景，响应时间已成为用户体验的关键因素。这也反映了各团队在质量与速度之间的权衡，功能更强大、需多步骤处理的智能体虽能提供更高质量的输出，但响应速度往往较慢。

相比之下，成本已不再是往年那样受关注的问题。模型价格的下降和效率的提升，使得各组织的关注点从单纯的支出转向如何让智能体更高效、更快速地发挥作用。

2.4.2 规模增长带来哪些障碍变化？

在员工规模 2000 人以上的企业中，质量仍是首要障碍，但安全已成为第二大关注点（24.9% 的受访者提及），超过了延迟，延迟更常被小型组织列为挑战。

2.4.3 不同规模公司面临的智能体生产落地障碍

障碍类型	小型企业（<100 人）	中型企业（100-2000 人）	大型企业（2000 + 人）
输出质量	32.6%	34.4%	32.5%
延迟	22.6%	18.4%	18.5%
安全	10.4%	15.6%	24.9%
部署基础设施	13.2%	12.1%	12.8%
成本管理	16.0%	8.8%	15.2%

对于员工规模 1 万人以上的组织，书面反馈显示，智能体生成输出时的幻觉问题和一致性问题是确保质量的最大挑战。许多组织还提到，在上下文工程及大规模上下文管理方面仍面临持续困难。

2.5 智能体的可观测性

对多步骤推理链和工具调用进行追踪的能力，已成为智能体的必备基础。89% 的组织已为其智能体部署了某种形式的可观测性方案，其中 62% 具备详细追踪功能，可查看智能体的每个步骤和工具调用情况。

2.5.1 您是否已为智能体部署可观测性方案？

是，可追踪智能体的每个步骤和工具调用：62.4%

是，但仅具备基础日志 / 指标：26.4%

否：11.2%

在已将智能体投入生产的受访者中，可观测性的普及率更高：94% 已部署某种形式的可观测性方案，71.5% 具备完整的追踪能力。这揭示了智能体工程的一个基本事实：若无法了解智能体的推理过程和行为，团队就无法可靠地排查故障、优化性能，也无法赢得内部和外部利益相关者的信任。

2.5.2 已将智能体投入生产的情况下，您是否已部署可观测性方案？

是，可追踪智能体的每个步骤和工具调用：71.5%

是，但仅具备基础日志 / 指标：22.5%

否：6.0%

2.6 智能体的评估与测试

尽管可观测性的采用率更高，但智能体评估仍在追赶并逐渐获得更多关注。略超半数（52.4%）的组织表示会基于测试集进行离线评估，这表明许多团队已意识到在部署前排查回归问题、验证智能体行为的重要性。在线评估的采用率较低（37.3%），但随着各团队开始监控智能体在实际场景中的性能，其普及率正在逐步提升。

2.6.1 您通过哪些方式评估智能体？（可多选）

基于测试集的离线评估：52.7%

基于生产数据的在线评估：38.3%

尚未进行评估：29.4%

其他：1.7%

对于已将智能体投入生产的组织，评估实践可能更为成熟，整体评估采用率明显更高（“尚未进行评估” 的比例从 29.5% 降至 22.8%）。我们还发现，更多组织开始采用在线评估（44.8%），这表明一旦智能体面向真实用户，团队需要通过观测生产数据来实时发现问题。

2.6.2 已将智能体投入生产的情况下，您通过哪些方式评估智能体？（可多选）

基于测试集的离线评估：54.5%

基于生产数据的在线评估：44.8%

尚未进行评估：22.8%

其他：2.5%

大多数团队仍从离线评估入手，这可能是因为离线评估的入门门槛更低、设置更简单，但许多团队正逐步采用混合评估方法。在进行评估的组织中，近四分之一同时结合了离线评估和在线评估。

2.6.3 进行评估的组织所采用的评估方式

仅离线评估：44.9%

仅在线评估：25.0%

离线 + 在线评估：30.1%（注：原文数据未直接给出，根据上下文推算）

进行评估的组织还会结合人工评估和自动化评估方法：利用 “LLM 作为评判者”（LLM-as-a-Judge）实现广度评估，通过人工审核确保深度评估。更广泛地说，人工审核（59.8%）在复杂或高风险场景中仍不可或缺，而 “LLM 作为评判者” 的方法（53.3%）正越来越多地被用于规模化评估质量、事实准确性和准则遵守情况。相比之下，ROUGE、BLEU 等传统机器学习指标的采用率较低，这些指标可能不太适用于存在多种有效响应的开放式智能体交互场景。

2.6.4 您使用哪些指标评估智能体？（可多选）

LLM 作为评判者（LLM-as-judge）：53.3%

内部人工审核 / 标注：59.8%

传统机器学习 / 数据科学指标（ROUGE、BLEU 等）：16.9%

其他：1.3%

2.7 模型与工具生态

OpenAI 模型占据主导地位，但很少有团队依赖单一供应商。

超过三分之二的组织表示使用 OpenAI 的 GPT 模型，但模型多样性已成为常态，超过四分之三的组织在生产或开发过程中使用多种模型。各团队越来越倾向于根据任务复杂度、成本、延迟等因素，将不同任务分配给不同模型，而非陷入单一平台锁定。

2.7.1 您的智能体使用哪些模型？（可多选）

OpenAI（GPT 系列）：67.8%

谷歌（Gemini）：37.4%

Anthropic（Claude）：36.6%

开源模型：34.2%

其他：5.9%

尽管商业 API 使用便捷，但许多组织仍将内部部署模型视为重要战略。三分之一的组织表示正在投入资源构建部署自有模型所需的基础设施和专业能力。开源模型的采用可能受到以下因素驱动：大规模场景下的成本优化、数据驻留与主权要求，或敏感行业的监管约束。

与此同时，微调仍是专业化操作，尚未成为标准流程。大多数组织（55.7%）未进行模型微调，而是依赖基础模型，结合提示工程（Prompt Engineering）和检索增强生成（RAG）技术。由于微调需要在数据收集、标注、训练基础设施及持续维护方面投入大量资源，因此它通常仅用于影响重大或高度专业化的应用场景。

2.7.2 您是否进行过模型微调？

是，且在生产中大量使用：13.8%

是，但仅处于实验阶段（主要使用基础模型）：30.5%

否：55.7%

日常使用的智能体类型
=============

当被问及 “您在日常工作中最常使用哪些智能体？” 时，书面反馈呈现出以下几个明显趋势：

3.1 代码智能体主导日常工作流

最常被提及的智能体是代码助手。受访者多次表示，Claude Code、Cursor、GitHub Copilot、Amazon Q、Windsurf、Antigravity 等工具已成为其日常开发流程的一部分，无论是用于代码生成、调试、测试创建，还是浏览大型代码库。

3.1.1 受访者日常最常使用的智能体

Claude Code：120 + 次提及

Cursor：110 + 次提及

GitHub Copilot：80 + 次提及

Amazon Q：65 + 次提及

3.2 研究与深度研究智能体紧随其后

第二大常见类别是由 ChatGPT、Claude、Gemini、Perplexity 等工具支持的研究与深度研究智能体。这些智能体被用于探索新领域、总结长文档以及整合跨来源信息。它们通常与代码智能体配合使用，融入同一工作流。

3.3 基于 LangChain 和 LangGraph 构建的自定义智能体也颇受欢迎

第三类明显的反馈指向自定义智能体，许多受访者表示基于 LangChain 和 LangGraph 构建了内部智能体，用于质量保证测试、内部知识库搜索、SQL / 文本转 SQL、需求规划、客户支持及工作流自动化等场景。

有相当一部分受访者表示，除了 LLM 聊天或代码辅助工具外，他们尚未使用其他类型的智能体。这表明尽管智能体的使用已较为普遍，但 “万物皆智能体” 的广泛应用仍处于早期阶段。

研究方法
=======

本报告的洞察来源于 2025 年 11 月 18 日至 12 月 2 日期间开展的一项公开调查，调查为期两周，共收集到 1340 份有效反馈。以下是部分人口统计学数据：

4.1 前五大受访行业

科技行业：63%

金融服务行业：10%

医疗健康行业：6%

教育行业：4%

消费品行业：3%

制造业：3%

4.2 受访公司规模

不足 100 人：49%

100-500 人：18%

500-2000 人：15%

2000-10000 人：9%

10000 + 人：9%

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。