transformer(下)-程序员充电站

接下来是decoder

decoder其实有两种，接下来介绍的是autoregressive的decoder

以语音辨识为例子，机器收到一段声音讯号作为输入到encoder，此时输出就是一排vector，接下来就是decoder的运作，产生语音辨识的结果

首先先给他一段特殊的符号，代表开始，接下来decoder会吐出一个向量，这个向量和我们要识别的单位是一样的，以中文为例子，这个输出向量的size就是我们中文汉字的长度，不同语言输出的单位是不一样的，比如英文可以选择字母的长度（26个），也可以选择用英文单词，这个可能会比较多，每一个中文的字都会对应一个数值，得到向量之前会和做分类一样跑一个softmax，这个向量里面的分数是一个distribution，也就是他们的分数相加的结果是1，分数最高的中文字就是最终的输出，如下图

接下来第一个输出的向量结果这个汉字会当作decoder新的一个输入，表示成一个one-hot vector当作输入，根据两个输入得到一个输出，还是根据这个输出向量对于每一个字的分数，分数最高的那一个输出，接下来继续拿第二个输出当作第三个输入，这样反复下去，因为decoder自己的输出就是自己的输入，所以也可能看到错误的结果也有可能引发后续的一步错步步错，如下图

看一下decoder的内部结构，看一下transformer里面的，如下图

先把encoder和decoder放在一起比较，如下图

把中间的decoder盖起来，会发现encoder和decoder并没有那么大的差别，有一点区别就是这里的multi-head attention里面也加了一个masked，如下图

我们原来的self-attention每一个输出都需要看所有的输入来综合判断，如下图

但是变成masked之后，我们不会再看右边的输入来输出，即b1考虑a1，b2考虑a1，a2， b3考虑a1，a2，a3， b4考虑a1，a2，a3，a4，如下图

更具体一点就是在计算b2的时候，我们只能a2的query和a1以及a2的key去计算，如下图

那么为什么masked呢？

因为我们decoder的输入是一个一个的，输出也是一个一个的都是顺序的，和self-attention一次性输入输出不一样的，如下图

接下来，还有一个关键的问题，decoder必须自己决定自己输出的长度，如何才能正确的知道输出的长度，如下图

推文接龙，一个人说一个字，然后继续接，当有一个人冒险去推一个“断”的时候才会停下来，如下图

decoder要做的事情也是一样，要去推一个“断”，我们也要准备一个特殊的符号去作为一个断的符号，如下图

当decoder产生完机器学习的习之后就会自动产生end来暂停，如下图

接下来说一下non-autoregressive的model即NAT

不一样的是一次产生整个句子，比如一次投入四个begin，然后产生四个output，这四个output就是一个句子，一种可能的做法是告诉机器一个数字，然后机器根据这个数字产生相对应长度的句子，另一个做法是假设我们这次输出的句子不会超过三百个字，那么我们就一次性产生一个三百个字的句子，然后看这个句子里面哪个会产生end，end右侧的句子我们全部都不算输出，全部忽略

NAT的好处第一个是平行化，如果是AT，那么要做好多次的encoder，但是NAT一次就可以，所以时间上更快，另外一个好处就是比较能够控制他的输出的长度，以语音辨识为例子，那么NAT的decoder假设我们要想让model讲话快一点，那么我们可以把长度变成一半，如下图

可以看一下multi-modality

接下来说一下decoder和encoder是如何穿句子的，即我们刚才遮起来的，叫做cross attention，如下图

首先，encoder根据输入得到三个输出，然后decoder根据begin经过masked self-attention得到一个向量，然后把这个输出的向量乘一个矩阵做一个transform得到一个query，encoder都产生key，把query和k1,k2,k3相乘的到向量，a1',a2',a3'，接下来，把a1',a2',a3'乘上v1,v2,v3，再相加得到v，这个v接下来会丢到fully-connected network，这个步骤就叫做cross attention，如下图

当然产生第一个中文字之后，接下里的运作是一样的，如下图

下面是一个实际文献的效果图，如下图

这个encoder和decoder都有很多层，原始paper里面无论那一层，都是encoder最后输出才是进入decoder，但其实不一定非要最后一层，这个可以去研究，如下图

最后，讲解训练的事情

【期货量化AI】期货量化交易策略深度学习应用（Python量化）

一、前言深度学习在量化交易中的应用越来越广泛。通过深度学习模型，可以捕捉复杂的非线性关系，提高策略的预测能力。本文将介绍如何将深度学习应用于期货量化交易。本文将介绍： 深度学习在量化交易中的应用LSTM模型应用CNN模型应用注意力…

李华

【期货量化进阶】期货量化交易策略高频交易技巧（Python量化）

一、前言高频交易通过快速执行大量交易获取微小价差收益。虽然对个人投资者来说完全的高频交易较难实现，但学习高频交易技巧可以提高策略执行效率。本文将介绍高频交易的核心技巧。本文将介绍： 高频交易基本原理订单簿分析微观结构分析执行算法延迟…

李华

救命神器 8个降AI率网站深度测评与推荐：专科生必看！

在当前的学术写作环境中，AI生成内容（AIGC）已经成为许多学生不得不面对的现实。无论是论文、报告还是课程作业，如何有效降低AI痕迹、避免查重率过高，成为了专科生们亟需解决的问题。而随着技术的发展，越来越…

李华

多模态大模型效率提升：Token压缩技术详解与实战指南

近年来多模态大模型在视觉感知，长视频问答等方面涌现出了强劲的性能，但是这种跨模态融合也带来了巨大的计算成本。高分辨率图像和长视频会产生成千上万个视觉 token ，带来极高的显存占用和延迟，限制了模型的可扩展性和本地部署。 …

李华

市场用行动投票：招商林屿缦岛首开售罄背后的价值逻辑

2026年春天，招商林屿缦岛用一份“首开售罄”的答卷，回应了市场对品质居住的所有期待。203套房源在开盘当日即告售罄，这不仅是一个项目的成功，更是市场理性选择的一次集中体现。当喧嚣褪去，价值回归，我们有必…

李华

干货合集：AI论文平台，千笔 VS 万方智搜AI，本科生必备！

随着人工智能技术的迅猛发展，AI辅助写作工具已经逐步渗透到高校学术写作场景中，成为本科生、研究生完成毕业论文不可或缺的得力助手。越来越多的学生开始借助这些工具提升写作效率、降低论文压力。然而，面对市场上琳琅满目的AI写作平台&#…

李华