news 2026/4/18 8:05:15

vit创建一组可学习的位置编码是怎么初始化的,怎么体现不同位置的

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
vit创建一组可学习的位置编码是怎么初始化的,怎么体现不同位置的

❓1. ViT 的可学习位置编码是怎么初始化的?

❓2.不同位置的信息是怎么体现的?


一、ViT 的可学习位置编码(pos_embedding)是怎么初始化的?

非常简单:它就是一块 learnable 参数矩阵

pos_embedding=nn.Parameter(torch.zeros(1,num_patches+1,embed_dim))

也就是说:

  • 初始值通常是全零正态分布随机初始化(取决于实现)
  • 它和模型的其他权重一起被训练

OpenCLIP/CLIP 的实现是正态初始化(这个更常见):

nn.init.normal_(self.positional_embedding,std=0.02)

对应形状举例:

pos_embedding.shape=[1,197,768]# ViT-B/16

🟥关键点:初始时,位置编码并没有“位置含义”

刚开始训练时:

pos_embedding[1] 跟 pos_embedding[100] 没有区别 它们都是随机数

位置结构不是靠初始化给的,而是靠训练学出来的


🔥二、那不同位置的信息是怎么体现的?(核心原理)

⬇️ 下面是你要的核心答案 ⬇️

🌟不同 patch 具有不同的“index”,每个 index 对应一个独立的向量。

也就是:

pos_embedding[0] = CLS 的位置 pos_embedding[1] = 左上角 patch 的位置 pos_embedding[2] = 第二个 patch 的位置 ... pos_embedding[196] = 右下角 patch 的位置

注意:

  • 位置 1 和位置 2 的向量是不同的参数
  • 它们会在训练中被优化,分别学出“这个位置在哪个地方”

🔧三、为什么加上位置编码后 patch 会有空间信息?

模型输入:

x[i]=patch_feature[i]+pos_embedding[i]

Transformer 的 Q/K/V 是从x[i]线性变换来的:

Q_i = Wq * x[i] K_i = Wk * x[i] V_i = Wv * x[i]

每个位置都变成不同的 Q/K/V,这意味着:

  • patch(左上) 的注意力行为 ≠ patch(右下)
  • patch(最上) 会更多关注“上下邻近的 patch”
  • patch(最右) 会学到“自己在最右边”

训练过程会将不同的 pos 向量优化成有规律的 2D 空间结构。


🔥四、模型是怎么自动学出来“左上”和“右下”的?

举例:Transformer 在训练时会学习任务(分类或对比学习)。

假设某个任务需要识别“猫在左边还是右边”。

梯度会让:

  • 左边 patch 的 pos_embedding 学成一组特征分布
  • 右边 patch 的 pos_embedding 学成另一组分布

最后会形成一个非常规整的二维结构:

pos[1] ~左上 pos[2] ~靠右 pos[14] ~第二行 ... pos[196] ~右下

你看到的位置结构不是提前设计好的,而是训练自动形成的几何结构


📊五、位置编码如何体现“二维”?并没有特地编码 2D,2D 是训练自动学出来的

ViT 的位置编码本质上是1D 序列位置编码(不像卷积是 2D)。
但因为 patch 排列顺序固定:

行优先:从左到右 → 从上到下

所以:

  • patch[1~14] 代表第一行
  • patch[15~28] 代表第二行

Transformer 看到足够多的数据后会自动学出二维结构。

这已经在大量论文中可视化过 —— 位置编码的 PCA 会形成非常规整的 2D 网格。


🔍六、给你最直观的伪代码

H=W=14# 14×14 patchesN=H*W# 196 patchesD=768# embedding dimpos=nn.Parameter(torch.randn(1,N+1,D)*0.02)patches=embed_patches(img)# [1, 196, 768]x=torch.cat([cls_token,patches],dim=1)x=x+pos# 位置编码加在这里out=transformer(x)image_emb=out[:,0]# CLS = 图像最终向量

🎯七、最终总结(超级简短)

✔ 位置编码初始化

  • 就是一块随机参数
  • 训练的时候自动学出位置结构

✔ 为什么位置不同?

  • pos[i] 与 pos[j] 是不同参数
  • Transformer 在训练中把它们优化成 2D 几何结构

✔ 怎么“体现”位置?

  • 每个 patch embedding 加上自己对应的 pos embedding
  • Q/K/V 带着位置 → 注意力学习空间关系

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 7:55:00

仅限资深开发者:C#编写高性能数字孪生渲染引擎的10个核心秘诀

第一章:工业数字孪生与C#实时渲染引擎概述工业数字孪生是智能制造和工业4.0的核心技术之一,通过构建物理设备的虚拟映射,实现对生产过程的实时监控、仿真分析与优化决策。在这一过程中,高保真度的可视化呈现至关重要,而…

作者头像 李华
网站建设 2026/4/16 10:31:03

Bili2text:重新定义视频内容处理效率

Bili2text:重新定义视频内容处理效率 【免费下载链接】bili2text Bilibili视频转文字,一步到位,输入链接即可使用 项目地址: https://gitcode.com/gh_mirrors/bi/bili2text 你是否曾经为了从视频中提取关键信息而反复回放?…

作者头像 李华
网站建设 2026/4/15 18:27:58

鸿蒙深色模式与Flutter界面联动适配指南

欢迎大家加入[开源鸿蒙跨平台开发者社区](https://openharmonycrossplatform.csdn.net),一起共建开源鸿蒙跨平台生态。鸿蒙深色模式与Flutter界面联动适配指南 在鸿蒙(HarmonyOS)应用中集成Flutter时,深色模式的适配是一个关键需…

作者头像 李华
网站建设 2026/4/5 8:40:52

天远全国自然人多头借贷风险API接口Java对接与解密工具类实现

一、构建基于天远API的金融风控中台 在构建企业级信贷审批系统或消费金融风控中台时,数据源的稳定性与集成效率至关重要。天远数据提供的“全国自然人多头借贷风险信息查询”API,通过整合银行、消金、小贷及互金平台的多维度数据,为后端决策引…

作者头像 李华
网站建设 2026/4/17 3:24:16

Playwright02-CDP

Playwright02-CDP playwright自动化开发记录,学习BrowserUse的时候涉及到playwright和udp-use的知识点 1-核心知识点 1-运行playwright第一个demo 2-参考网址 1-用Playwright实现接口自动化测试:https://www.cnblogs.com/wzzkaifa/p/191135782-playwri…

作者头像 李华
网站建设 2026/4/17 1:12:03

流水的CEO,铁打的图里琛:中层管理者的“顶级钝感力”

在职场金字塔中,中层管理者(Middle Management)是最危险的位置。 上,要承接高层的雷霆之怒; 下,要面对基层的混乱与琐碎; 左与右,则是平级部门的暗流与推搡。大部分中层死于三件事&a…

作者头像 李华