从AGI炒作到工程现实：大语言模型的未来发展方向-程序员充电站

如果我们想知道大语言模型提供商在未来几年将如何改进他们的服务，可以先预测当前的限制将如何被解决。虽然大语言模型在聊天框格式中表现相当成功，但它们在能耗方面成本高昂，并且在幻觉问题上存在持续困扰。软件开发者需要不断增加Token使用量才能获得更聚焦的结果。

在弄清楚模型规模与训练如何真正影响输出方面仍有一些猜测成分，但能耗和幻觉问题已经限制了扩张。因此，本文探讨了大语言模型提供商可能选择的发展方向。

但首先我们必须检验Yann LeCun关于大语言模型是死胡同的预测的有效性。虽然这在"通用人工智能"方面可能最终是正确的，但AI公司投入的大量资金和势头确保我们在一段时间内仍将使用大语言模型。LeCun本人也推出了一家初创公司，"继续我在过去几年中一直在进行的先进机器智能研究项目(AMI)"，但这不会很快产生成果。

知识图谱和本体论的回归

许多旧的AI方法已经被大语言模型的成功所掩盖，但我仍然记得曾经人们认为人工智能将由大型本体论组成——可以将其视为概念图，非常像标签，用于在某种正式结构中连接想法。由于大语言模型在大量信息上进行训练，它们以某种随机方式内化概念，但似乎理解事物之间的关系。但我们知道大语言模型可以帮助创建知识图谱；检索增强生成(RAG)是保持大语言模型回答诚实的重要方法，通过为其提供格式化的专家知识。

对抗幻觉的一种可能方法是专注于在特定主题领域维护大量知识图谱，并在其他提供商服务之间共享这些图谱。

这样做的压力可能来自监管。例如，我们最近看到澳大利亚对社交网络实施年龄限制，因为屏幕成瘾对儿童有各种负面影响。因此，可能需要创建相当于"儿童大英百科全书"的东西——一套不会泄露有问题领域事实的大型信息集。由第三方维护，更受监管的信息可能会说服各国政府大语言模型不会传播有偏见的事实。

标准化和互操作性

正式共享大量信息可能会与竞争提供商的商业模式产生冲突，但合作仍然可能带来效率节省。

我们在这里已经有一些希望：Anthropic的模型上下文协议(MCP)作为"大语言模型的USB"的早期且令人意外的普遍接受，可能告诉我们，当一个想法足够好时，竞争提供商(如OpenAI)会采用它。

OpenAI已经通过其应用SDK和如何与其Atlas浏览器配合使用强调了可能的分发模型。这里的想法是将本地知识直接视为大语言模型可以调用的MCP服务器。这样，OpenAI正在尝试取代网络——通过其ChatGPT模型回答一般查询，但调用用户应用服务器获取本地专家信息。就像OpenAI使用MCP工具访问硬盘一样。

本地与云端的混合模型

许多人已经在本地运行大语言模型，我们在过去几年中向读者展示了这样做的方法。虽然大型前沿模型将保留在云端，但有很多用户可以在笔记本电脑上运行的较小预训练开源模型。本地运行仍然有些技术性，但像Ollama这样的应用使其变得更加简单。当然，终极本地机器很可能是你的手机。

我们已经看到智能体命令行系统如何为一些查询选择快速便宜的模型，将更昂贵的模型留给"深度思考"或"规划"。这导致了也许使用本地模型处理较小查询，同时将更困难的查询发送到云端运行的更大模型的想法。

个性化和上下文理解

寻找本地化的另一个原因是获取用户的个人上下文。当我们看到Google在回答用户查询方面历来表现优秀，因为它对用户了解足够多以排除不相关结果时，这开始变得很有意义。

可以合理假设亚马逊使用来自数百万Alexa扬声器的信息训练大语言模型，并识别家庭中个别说话者的身份。但本地大语言模型可以直接听取和阅读你的所有语音和内容，以便充分了解不仅是你的地理位置，还有你详细的兴趣。

虽然"生活流应用"可能带来的奥威尔式后果在2010年代确实让我们感到担忧，但我们仍然用连续的状态报告填充它们。智能体命令行界面使用设置markdown文件为大语言模型提供项目提示，因此长期分析用户肯定会更有效率。据说苏格拉底曾说"不经审视的生活不值得过"，虽然我怀疑他会赞成AI，但适度的记录确实可以为大语言模型提供丰富的(如果是个人的)图谱来开始工作。

市场现实与未来展望

在大型提供商着手改进效率，或投资者不再追逐"通用人工智能"之前，市场可能需要一个小的"修正"(即崩溃)。也许大公司将共同转向另一个炒作领域，以继续AI势头并保持其股价高位。但工程转向改进现有投资的可能性很大。

如果你在软件开发中使用大语言模型，你将在前排观看任何即将到来的变化。

Q&A

Q1：大语言模型目前面临哪些主要限制？

A：大语言模型主要面临三个限制：能耗成本高昂、持续的幻觉问题，以及软件开发者需要不断增加Token使用量才能获得更聚焦的结果。这些问题已经限制了模型规模的进一步扩张。

Q2：什么是模型上下文协议MCP？它有什么作用？

A：MCP是Anthropic开发的模型上下文协议，被称为"大语言模型的USB"。它允许大语言模型调用本地知识和应用服务器，实现标准化和互操作性，甚至竞争对手OpenAI也采用了这个协议。

Q3：本地运行大语言模型有什么优势？

A：本地运行大语言模型可以获取用户的个人上下文，包括地理位置和详细兴趣。同时可以实现混合模型，用本地模型处理简单查询，复杂查询则发送到云端，既提高效率又降低成本。

从AGI炒作到工程现实：大语言模型的未来发展方向

漏洞扫描 VS 渗透测试：2026年企业安全防护的选择策略与实战指南

上海嵌入式开发哪家专业？实邦电子值得考虑吗？

特朗普：必须拥有整个格陵兰岛

高效的跨境电商广告优化系统：易营宝广告投放实操指南

泛素连接酶STUB1调控干扰素γ受体稳定性及其在肿瘤免疫中的功能

ChatGPT新手入门指南：如何开始使用AI聊天机器人