news 2026/4/18 7:59:14

大模型训练_week3_day15_Llama概念_《穷途末路》

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型训练_week3_day15_Llama概念_《穷途末路》

目录


前言

碎碎念:我翻山越岭,纵然这世间再也无人像你

梳理llama架构,和transformer很像,新学到 embedding后的词向量RMSnorm,和qk矩阵融合的Rope旋转编码,SwiGLU激活函数,GQA分组查询注意力机制


llama

分词器

l和l组合的概率高,所以把它重新组成为一个ll的词元

比如 it's 42! it, 's , 42, !

在自然语言处理中的 BPE 分词器的工作原理如下:

  1. 初始化:首先,将所有词汇表中的单词分解为单个字符或符号。例如,单词 “hello” 会被表示为["h", "e", "l", "l", "o"]

  2. 统计频率:接下来,统计所有字符对(相邻字符组合)的出现频率。例如,如果 “l” 和 “l” 出现在一起的频率最高,那么它们会被作为一个新的词元 “ll”。

  3. 合并频率最高的字符对:将出现频率最高的字符对合并成一个新的词元。然后重复这个过程,直到达到预定义的词元数量或不能再合并为止。

  4. 生成词汇表:最终生成的词汇表包含了从单个字符到更复杂的子词的所有词元,这些词元可以组合成原始的单词和短语。

分词完后通过id 到embedding去查token向量,id=279,就到大矩阵里拿280列向量

RMS对嵌入向量进行归一化

ROPE

先构建第一层的注意力机制,为什么不直接位置编码?

因为ROPE融入了QKV

RoPE(旋转位置编码)

RoPE 是一种高效的位置编码方法,通过旋转向量的方式将位置信息注入到查询(query)和键(key)向量中。

1.核心思想

  • 对查询向量和键向量进行旋转,旋转的角度与 token 的位置相关。

  • 旋转后的向量既保留了原始信息,又包含了位置信息。

2.公式

3.效果

  • 对于不同位置的相同 token(例如三个 “the”),RoPE 会生成不同的查询向量。

  • 旋转后的查询向量既包含了 token 的语义信息,也包含了位置信息。

为什么不用PE, ROPE优势是什么

Q和K旋转完了之后,V要不要旋转?

词和词之间的相对关系。 苹果性能好,怎么把苹果向手机上偏移呢

mask

上半角的矩阵代表后面单词对前面单词的影响,底下代表前面对后面的影响

姑且把纵向作为后面的单词,在decoder里 纵向的单词对横向即前面的单词是没影响的。所以把右上角的三角的矩阵掩码

再经过wo得到attention_score后先进行一次rms归一化

ffn

swishGLU 激活函数

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 16:06:07

Java毕设项目:基于 Web Service 技术的警务数据交互平台设计与实现(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/9 3:48:42

Java毕设选题推荐:基于 Web Service 技术的警务数据交互平台设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/16 18:20:53

【计算机毕业设计案例】基于Java濒危物种公益网站的设计与实现基于SpringBoot濒危物种公益救助交流平台(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/8 18:28:07

【实测好用】禁止windows更新工具,一键彻底关闭Win11自动更新工具

你是否厌倦了Windows系统在工作或游戏时突然弹出的“正在更新”提示?虽然微软推送更新是为了安全,但在实际体验中,频繁的强制重启、更新后的驱动不兼容、甚至突如其来的“蓝屏死机”,让无数用户头疼不已。 市面上很多“禁用服务…

作者头像 李华
网站建设 2026/4/10 19:58:44

【NestJS】为什么return不返回客户端?

在 NestJS 中,当你使用了 Res()(或 Response())装饰器时,NestJS 会进入**“库原生模式”(Library-specific mode)**。 原因分析 一旦你在路由处理函数中注入了 Res(),NestJS 就失去了对响应流的…

作者头像 李华
网站建设 2026/4/11 9:03:03

day135—快慢指针—环形链表Ⅱ(LeetCode-142)

题目描述给定一个链表的头节点 head ,返回链表开始入环的第一个节点。 如果链表无环,则返回 null。如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环,评测系统内部…

作者头像 李华