无需训练！DCA让大模型轻松突破长上下文限制，附开源代码-程序员充电站

Dual Chunk Attention (DCA)是一种无需微调即可提升大模型长序列处理能力的技术。它将长序列划分为多个小于预训练窗口的chunks，包含三种注意力机制：Intra-Chunk处理同一chunk内token，Inter-Chunk处理不同chunk间token，Successive-Chunk保留相邻chunks的局部相关性。DCA可从4K外推至32K，在zero-shot任务上媲美微调模型，且与FlashAttention无缝集成。

Introduction

提出 Dual Chunk Attention (DCA)，无需微调或继续训练即可外推，实现与微调模型相媲美的长序列表现，且与 FlashAttention 无缝集成，已开源代码。

图 1：Dual Chunk Attention 机制运行实例

DCA 将长序列的 attention 计算划分为多个小的 chunks，每个 chunk 的长度均小于预训练窗口的大小。DCA 包含三部分：

Intra-Chunk Attention：处理同一 chunk 内的 tokens，chunk 尺寸需小于预训练长度
chunk 内的 query / key，正常计算 attention score
Inter-Chunk Attention：处理不同 chunk 内的 token
不相邻的 chunk 之间的 query / key，相对距离视作常数
Successive-Chunk Attention：处理相邻 chunks 之间的 tokens，保留局部相关性
相邻的 chunk，保留一定的相对位置变化

DCA 具有如下特性：

强大的外推能力：无需训练，即可从 4K 外推至 32K，且 PPL 的上升可忽略不计
正交性：可与现有主流外推 / 插值方法共同使用
零样本迁移：在 zero-shot / few-shot 相关 benchmark 上，可与微调模型相媲美甚至更佳

Methods

对于长度为的序列，我们将其划分为个 chunk，确保每个 chunk 内的位置索引不超过 chunk 大小。

Intra-Chunk Attention

Intra-Chunk Attention 用于计算同一个 chunk 内的 query 和 keys 之间的内积。

position index

如图 1 中 a 所示，输入序列长度为，预训练长度为 10，分割为 2 个 chunk。然后，key 和 query 的 position idx 在 chunk 大小内进行缩放。

具体而言，key 的 position index 为：

更形式化的，在 Intra-Chunk Attention 中，query 和 key 的 position index 为：

attention score

对同一 chunk 内的绝对位置索引和，和之间的位置编码之差为：

对应的 attention score 计算方式如下：

Inter-Chunk Attention

Inter-Chunk Attention 用于聚合不同 chunk 之间的信息。此时，为了反映信息流方向，当时，期望。

此时不能再使用，例如和之间的相对距离为。因此，key 的位置索引可以以界进行重复，但 query 的位置索引需要重新设置。

为确保 query 的位置索引大于所有先前 chunk 的 key 的位置索引，一种简单的策略是为其分配一个相当大的位置索引，例如：设置为预训练期间的最大位置索引，其中为预训练上下文长度：

对应的相对位置矩阵为：

如图 1 b 所示，为所有位置分配一个常数的，其大于中最大位置索引，我们通过 Intra-Chunk Attention 填补矩阵中其余空白的部分。

Successive-Chunk Attention

Successive-Chunk Attention 可被视为 inter-chunk attention 的一种特殊 case，其旨在维护 LLMs 的局部性，即：下一个 token 的预测严重依赖相邻 tokens。

到此，还有另一个问题，即：无法拟合局部相关性！！！因此，我们引入 successive-chunk attention 来处理这种情况。

具体来说，调整中的前个位置索引，如图 1 c 所示。给定预训练长度、chunk 尺寸，且时，若保持局部窗口，则 Successive-Chunk Attention 的位置索引为：

更形式化的，给定 chunk 尺寸、预训练大小、局部窗口，有：

其中：

表示局部窗口大小，可直接设置为预训练长度与 chunk 尺寸之差

结合 Intra-Chunk、Inter-Chunk、Successive-Chunk，最终计算为：

对应的 attention score 计算方式为：

Normalization

Softmax layer

在 query 与 key 计算内积之后，通过 softmax 进行归一化：

其中表示 hidden states 的维度。

Flash Attention

将 DCA 与 FlashAttention 结合的 Pytorch 风格的伪代码如下所示：

借助 FlashAttention，DCA 在 GPU 内存用量、推理速度上达到了与原生 self-attention 相当的水平：

Inference time & GPU memory Usage

Experiments

详见原论文。

如何学习AI大模型？

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

无需训练！DCA让大模型轻松突破长上下文限制，附开源代码