news 2026/4/18 3:40:05

Twin-Merging: Dynamic Integration of ModularExpertise in Model Merging(模型合并中模块化专业知识的动态整合)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Twin-Merging: Dynamic Integration of ModularExpertise in Model Merging(模型合并中模块化专业知识的动态整合)

一、研究背景

1.1 当前问题

合并来自不同领域的模型通常会牺牲特定的任务性能,导致与单个专家相比存在很大的性能差距。两个主要原因阻碍了现有的合并方法达到单个专家的理论性能上限:(1)模型之间的干扰。以前的研究表明,参数冗余和符号差异,以及任务之间的分布差距,阻碍了有效的模型合并。我们证明,特定于任务的模型通常包含混合知识,其中一个模型中的专业知识可能是独家的,或者对其他模型有害。这种冗余或干扰可能会阻碍跨模型的专业知识集成。(2)测试时数据的异质性。以前的方法为各种任务追求单一的静态最优解决方案。

1.2 解决方法(Twin-Merging)

为了解决上述问题,本文引入了Twin合并,涉及两个主要阶段:(1)知识模块化:与以往研究以参数方式迁移合并干扰或搜索合并系数不同,我们将专家拥有的知识分解为共享知识和独占任务特定知识,如图1(Ii)所示。首先,我们将共同的知识压缩成一个共享的专家,用于捕获和整合不同任务中的共同知识。然后根据任务专家和共享专家之间的差异分离出排他性知识,使不同的知识得到更精细的分解。(2)动态归并:受混合专家[80,84,85]的启发,将参数归并问题简化为条件合成问题。如图1(Iii)所示,我们引入了一个路由器来根据测试输入动态合并共享和独占知识,而不是在测试时预先确定异类数据的最佳参数组合。共享模型作为基础,根据路由器有条件地注入特定于任务的知识。

二、Twin-Merging

2.1 算法整体结构

算法分为两个阶段:

  1. 预计算阶段(第1-5行):只执行一次,准备共享专家和专属知识库

  2. 推理阶段(第6-15行):对每个输入动态融合并推理

2.2 预计算阶段

1.共享专家:为了在不同的模型之间分离共享知识,我们将预合并模型视为一个自然的占位符,以封装对所有任务重要的共同知识(表示为θ∗)。通过利用已建立的合并技术,如任务算法,我们可以很容易地从初始合并模型中提取共享专家。

2.独占知识:为了在分离共同知识的同时传达特定任务的信息,我们计算了差异向量:Vt=θt−θ∗。该减法向量保留未合并的特定于任务的信息,同时丢弃共享的知识

3.压缩排他向量:为了便于实际使用和分发,我们使用奇异值分解(SVD)将上述排他知识进一步压缩为每个任务的向量。假设Vt有一个秩m分解,Vt=UtΣTVT t,我们通过选择前r个奇异值来得到一个低秩任务空间,从而得到Ut(R)Σt(R)Vt(R)T。我们只存储Ut(R),Σt(R),Vt(R)T。

2.3 推理阶段

第6-8行:初始化与循环

# Inference: ▷ Main loop initialize output Y for each input x in inputs X do
  • Y: 收集所有输入的预测结果

  • 每个输入单独处理(可批量优化,但算法展示的是逐样本)

第9-10行:路由器计算权重

[w₁, ..., w_T] ← softmax(R(Emb(x); φ))

第11-12行:动态融合专家

θ* ← θ_s + Σ_{t=1}^T w_t v_t

第13-14行:执行推理并收集结果

Y ← Y ∪ f(x; θ*)

第15行:循环结束

处理下一个输入时,重新计算权重、重新组装 θ*。

三、现存不足

标记数据来训练

可能过拟合到训练任务

增加推理计算量

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 8:23:45

OneDrive彻底卸载指南:告别系统冗余,释放存储空间

OneDrive彻底卸载指南:告别系统冗余,释放存储空间 【免费下载链接】OneDrive-Uninstaller Batch script to completely uninstall OneDrive in Windows 10 项目地址: https://gitcode.com/gh_mirrors/one/OneDrive-Uninstaller 你是不是也曾经为W…

作者头像 李华
网站建设 2026/4/16 18:24:20

3步搞定实时面部替换!Deep-Live-Cam新手避坑全攻略

还在为复杂的AI面部替换软件头疼?看着别人轻松实现实时面部交换,自己却卡在安装配置阶段?别担心,今天这篇指南将带你绕过所有弯路,3分钟内完成第一次惊艳的面部替换体验! 【免费下载链接】Deep-Live-Cam re…

作者头像 李华
网站建设 2026/4/17 22:13:31

解放双手:Playwright+AI如何让测试工程师“躺赢”

Playwright这支微软打造的现代化自动化利剑,与大型语言模型的完美邂逅,彻底改写了人机协作的规则。测试工程师们突然发现,他们不再是与HTML标签搏斗的"代码苦力",而化身为指挥智能数字军团的"测试指挥官"。这…

作者头像 李华
网站建设 2026/4/8 23:00:22

苍穹外卖项目总结(一)[MyBatis-Plus,文件上传,Redis]

苍穹外卖项目复习笔记 一、 MyBatis-Plus (MP) 核心应用 这部分是开发数据持久层的核心&#xff0c;重点在于理解MP如何简化开发以及如何处理复杂场景。 1. 基础 CRUD 与架构关系 BaseMapper vs ServiceImpl : BaseMapper<T>: 位于DAO层。提供了最底层的数据库原子操作&a…

作者头像 李华
网站建设 2026/4/16 13:51:12

yysScript终极指南:阴阳师自动刷御魂的完整解决方案

yysScript终极指南&#xff1a;阴阳师自动刷御魂的完整解决方案 【免费下载链接】yysScript 阴阳师脚本 支持御魂副本 双开 项目地址: https://gitcode.com/gh_mirrors/yy/yysScript yysScript是一款专为阴阳师玩家设计的智能自动挂机脚本&#xff0c;采用先进的图像识别…

作者头像 李华