news 2026/6/15 4:35:50

补充上一章时间步问题

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
补充上一章时间步问题

时间步0-样本0: [2.0, 1.0, 0.1, 0.5] # 预测下一个token的分数
时间步0-样本1: [0.3, 2.5, 1.2, 0.8]
时间步1-样本0: [1.5, 0.2, 2.0, 0.3]
时间步1-样本1: [0.1, 0.4, 3.0, 1.5]
时间步2-样本0: [0.8, 1.2, 0.5, 2.5]
时间步2-样本1: [2.0, 1.0, 0.5, 0.2]

问题 这些都是预测下一个token的,但是时间步都不一样?

这些y_hat的每一行确实是预测下一个 token,但要注意:每个时间步预测的“下一个”是不同的

具体对应关系

假设输入序列(经过 one-hot 后的X)按时间步排列为:

  • 时间步 0:输入 token A → 预测 token B

  • 时间步 1:输入 token B → 预测 token C

  • 时间步 2:输入 token C → 预测 token D

那么y_hat的三行分别对应:

  • 第 0 行:基于 token A 预测 token B 的 logits

  • 第 1 行:基于 token B 预测 token C 的 logits

  • 第 2 行:基于 token C 预测 token D 的 logits

每个时间步的预测目标不同,但都是“下一个 token”。所以:

  • 时间步 0 的目标是真实序列中位置 1 的 token(即 B)

  • 时间步 1 的目标是真实序列中位置 2 的 token(即 C)

  • 时间步 2 的目标是真实序列中位置 3 的 token(即 D)

为什么这样设计?

这是语言模型的标准做法:给定当前已看到的 token,预测紧接着的下一个 token。通过这种方式,模型学会根据上下文推断后续内容。不同时间步的预测任务构成了完整的序列建模。

回到你的例子

在你给出的y_hat示例中,6 行对应 3 个时间步 × 2 个样本,每行的目标分别是:

  • 行 0(时间步0-样本0):预测该样本第 2 个 token

  • 行 1(时间步0-样本1):预测该样本第 2 个 token

  • 行 2(时间步1-样本0):预测该样本第 3 个 token

  • ……

所以虽然都是“预测下一个”,但每个时间步的“下一个”指向的位置不同,这正是序列预测的本质。

个样本都有自己的独立预测目标,它们互不干扰,同时计算损失。

问题

行 0(时间步0-样本0):预测该样本第 2 个 token
行 1(时间步0-样本1):预测该样本第 2 个 token 那最后选谁?

具体解释

在训练时,y_hat的每一行对应一个特定的(时间步,样本)​ 组合。例如:

  • 行 0:时间步0-样本0 → 预测该样本的第2个 token(即真实序列中位置1的 token)

  • 行 1:时间步0-样本1 → 预测该样本的第2个 token(即真实序列中位置1的 token)

这两个预测是独立的,因为它们属于不同的样本。每个样本都有自己的真实标签(y中对应的元素)。损失函数会分别计算每个预测与其真实标签的交叉熵,然后对所有样本和时间步取平均。

不需要“选谁”,因为它们是同时参与损失计算的。可以类比为:你有两个学生(样本0和样本1),他们在同一道题(时间步0)上各自作答,老师(损失函数)会分别批改他们的答案,然后计算平均分。

在推理(预测)时

推理时,我们通常只关心一个样本(batch_size=1),并且只取最后一个时间步的输出作为下一个 token 的预测。这是因为在自回归生成中,我们一步一步地生成,每次只看当前最后一个 token 的预测结果。

总结

  • 训练时:所有时间步、所有样本的预测都参与损失计算,同时更新参数。

  • 推理时:只取最后一个时间步的输出,用于生成下一个 token。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 4:33:11

AI in Motion:动态智能的工程落地方法论

1. 项目概述:当AI不再“静止”,而是真正“动起来”“AI in Motion”——这五个字母组合乍看像一句英文口号,但放在当下技术演进的语境里,它其实是一条清晰的技术分水岭:我们正从“能算、能认、能写”的静态AI能力&…

作者头像 李华
网站建设 2026/6/15 4:29:56

开源模型实现o1-mini级链式推理:分层调度架构实战

1. 项目概述:当“推理能力”不再被闭源模型垄断最近在几个开源社区的讨论区里,反复看到一句话:“o1-mini 的链式思考(Chain-of-Thought)太稳了,本地跑不动,但又不想交出数据和控制权。”这句话背…

作者头像 李华
网站建设 2026/6/15 4:28:00

数据科学家的乔丹式成长:从工具执行到价值决策的四层跃迁

1. 项目概述:这不是速成课,而是一份职业运动员级别的数据科学训练手册“Becoming the Michael Jordan of Data Science”这个标题乍看像一句热血口号,但在我带过37个转行学员、审过214份数据岗简历、参与过58场技术终面之后,我敢说…

作者头像 李华