news 2026/4/18 10:48:24

LLM生成文本每次是把之前所有的token都输入,还是只输入上一个token?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LLM生成文本每次是把之前所有的token都输入,还是只输入上一个token?

LLM生成文本时,是自回归地生成。那每次是把之前所有的token都输入,还是只输入上一个token?

答:在逻辑层面上,是输入“之前所有的token”;但在物理运算层面,我们通过一种技术手段避免了重复计算。

1. 逻辑层面:为什么需要“全量输入”?

LLM(如 GPT 系列)基于Transformer Decoder架构。为了预测下一个词,模型必须理解上文的语境。

如果只输入“上一个 token”,模型就像一个只有极短记忆的人,它知道当前的词,但不知道之前的逻辑。例如:

  • 上文:“巴黎是法国的…”
  • 当前输入:“的”
  • 逻辑:模型需要看到“巴黎”、“是”、“法国”才能准确预测出“首都”。

因此,在自回归生成(Autoregressive Generation)的定义中,每一步生成的概率公式如下:

P ( x t ∣ x 1 , x 2 , . . . , x t − 1 ) P(x_t | x_1, x_2, ..., x_{t-1})P(xtx1,x2,...,xt1)

这代表第t tt个词的产生,取决于前面所有词的序列。


2. 物理层面:KV Cache(键值缓存)技术

虽然逻辑上需要全量信息,但如果每次都把成千上万个词重新通过模型计算一遍,效率会极其低下(计算量呈平方级增长)。

为了解决这个问题,现代 LLM 使用了KV Cache技术:

  • 只“计算”最新 Token:实际上,每一轮推理中,只有最新生成的那个 token 会经过完整的神经网络计算。
  • 缓存旧信息:之前所有 token 的计算结果(具体为 Attention 机制中的 Key 和 Value 向量)已经存在显存里了。
  • 拼接与注意力:模型通过将“新生成的 KV”与“缓存的旧 KV”进行拼接,让新 token 能够与历史信息产生“注意力(Attention)”连接,从而得出预测结果。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 5:35:50

stm32单片机智能浇花浇水土壤湿度光照检测远程控制系统设计成品

目录系统概述硬件组成软件设计功能特点应用场景注意事项源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!系统概述 STM32单片机智能浇花系统是一款基于土壤湿度、光照强度检测的自动化灌溉装置,支持远程控制。该系统通过传感…

作者头像 李华
网站建设 2026/4/18 0:06:36

学长亲荐!专科生毕业论文必备!8款一键生成论文工具TOP8测评

学长亲荐!专科生毕业论文必备!8款一键生成论文工具TOP8测评 2026年专科生毕业论文工具测评:从功能到体验的深度解析 随着人工智能技术的不断进步,越来越多的专科生开始借助AI工具辅助完成毕业论文写作。然而,面对市场上…

作者头像 李华
网站建设 2026/4/18 7:54:52

‍优必选Walker S2机器人2790专利-万祥军| 国研智库·中国国政研究

‍优必选Walker S2机器人2790专利-万祥军| 国研智库中国国政研究在深圳机器人谷的调研现场,国务院总理驻足观看的一幕成为科技界的标志性画面——优必选Walker S2机器人流畅完成自主换电与精密搬运的演示,其关节电机传出的细微嗡鸣声仿佛中国智能制造的新…

作者头像 李华
网站建设 2026/4/18 8:07:16

大语言模型(LLM)学习原理深度解析:从超级学生到词语社交网络

文章将大语言模型比喻为"超级学生",通过三步学习:1)词元化将文字转为数字编码;2)建立词语社交网络,统计词语间关联强度;3)玩文字接龙游戏预测最可能的下一个词。LLM学习的是语言模式和思维方式而非固定答案&…

作者头像 李华
网站建设 2026/4/16 17:46:17

程序员必看!LoRA大模型微调技术详解:从概念到实践的收藏级教程

文章介绍LoRA技术通过低秩分解模拟参数变化,冻结预训练模型参数只训练少量新增矩阵,实现高效微调。详细解释了LoRA的概念、特点、优缺点,以及训练过程中的参数选择(如rank、alpha)和技巧。LoRA具有节省存储、不增加推理…

作者头像 李华
网站建设 2026/4/17 8:23:27

小白也能学会!本地大模型全部署教程(Mac+Win)

本文详细介绍了使用Ollama工具在Mac和Windows系统上本地部署大模型的完整教程,无需编程基础即可操作。文章解释了本地部署的优势(隐私保护、断网可用、不触发屏蔽词等),提供了两种部署方式的详细步骤,比较了本地与云端…

作者头像 李华