news 2026/6/10 13:14:25

AlignGuard-LoRA:一种结合了高效微调和安全保护的新正则化方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AlignGuard-LoRA:一种结合了高效微调和安全保护的新正则化方法

总结

低秩自适应性(LoRA)被广泛用于微调大型语言模型,其优点是效率高、计算资源少。

但与此同时,它也存在一个明显的问题,那就是破坏了 “对齐”,而 "对齐 "是为了维护安全性和道德约束。

具体来说,会出现毒性声明增加、过度拒绝和偏差恶化等情况,从而降低模型的可靠性。

AlignGuard-LoRA 通过使用费雪信息矩阵进行正则化来控制对齐敏感的方向,从而实现任务适应和安全保护。

此外,它还利用特定任务的正则化来稳定更新,并通过引入基于黎曼几何和大地距离的 “避免碰撞正则化”,从几何角度将对齐相关更新与任务相关更新分离开来。
经证明,与传统的 LoRA 相比,所提出的方法可实现高达 50%的漂移抑制,同时提高了安全性和性能。

拟议方法

AlignGuard-LoRA 的结构是将 LoRA 的低秩更新分解为 "对齐相关部分 "和 “任务特定部分”,并对每个部分应用不同的正则化。

首先,添加基于费雪信息矩阵的惩罚,以抑制对齐敏感方向上的过度更新。

这使得剔除精度和毒性控制等安全行为更容易保持。

接下来,针对特定任务组件引入了 “信任域正则化”,以稳定低熵域的学习。

最重要的是 “避免碰撞正则化”。

它结合了黎曼距离的每坐标干扰抑制和大地距离的几何方向分离,以防止对齐和任务更新之间的干扰。

这三种正则方法相辅相成,旨在将任务适应性和安全性结合起来。
它们缓解了传统 LoRA 中的权衡问题,即通过降低安全性来换取任务准确性的提高,并允许在保持低等级和高效学习的同时,进行不干扰对齐的微调。

实验

实验比较了标准 LoRA、提议的 AlignGuard-LoRA 以及使用 LLaMA 3 (7B) 模型对所有参数进行的全面微调。
评估指标包括一般任务(如 GLUE 和 SuperGLUE)、安全性和鲁棒性基准(如 HELM 和 AdvGLUE)以及毒性(RealToxicityPrompts)、拒绝行为(OR-Bench)和偏差(CrowS-Pairs, BBQ)。使用了多方面的标准。

结果,与标准 LoRA 相比,AlignGuard-LoRA 大幅减少了毒性和偏差,并保持了排斥的准确性。
特别是完整版,在增加了避免碰撞正则化后,其性能与完全微调版相当,甚至更好,同时还保持了其在安全指标方面的优势。

顺序消融实验也证实,基于费舍尔的正则化、特定任务正则化和避免碰撞正则化各自有效,将它们结合在一起会产生协同效应。
此外,在一项名为 DRIFTCHECK 的新基准测试中,AlignGuard 的安全性能降低了 50%,证明了其作为安全关键领域微调方法的有效性。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 23:38:21

3分钟掌握React Native键盘控制的终极指南

3分钟掌握React Native键盘控制的终极指南 【免费下载链接】react-native-keyboard-controller Keyboard manager which works in identical way on both iOS and Android 项目地址: https://gitcode.com/gh_mirrors/re/react-native-keyboard-controller React Native …

作者头像 李华
网站建设 2026/6/9 20:00:59

FaceFusion与Hugging Face集成:一键拉取最新模型版本

FaceFusion与Hugging Face集成:一键拉取最新模型版本 在生成式AI迅猛发展的今天,视觉内容的自动化处理早已不再是实验室里的概念——从短视频平台上的实时换脸特效,到影视工业中的数字替身合成,人脸替换技术正以前所未有的速度走向…

作者头像 李华
网站建设 2026/6/9 22:44:23

Science | 本周最新文献速递

文章标题:Mechanosensitive genomic enhancers potentiate the cellular response to matrix stiffness 中文标题: 揭秘细胞如何感知硬度!发现“机械增强子”调控基因表达与细胞行为的新机制 关键词: 机械转导、基因组增强子、细胞…

作者头像 李华
网站建设 2026/6/10 10:22:41

告别Vim搜索混乱:Unite.vim让你的编辑器效率翻倍

告别Vim搜索混乱:Unite.vim让你的编辑器效率翻倍 【免费下载链接】unite.vim :dragon: Unite and create user interfaces 项目地址: https://gitcode.com/gh_mirrors/un/unite.vim Unite.vim是一款革命性的Vim插件,它通过统一搜索界面彻底改变了…

作者头像 李华
网站建设 2026/6/10 10:42:57

5分钟快速上手BewlyCat:B站主页美化的终极指南

5分钟快速上手BewlyCat:B站主页美化的终极指南 【免费下载链接】BewlyCat BewlyCat——基于BewlyBewly开发 项目地址: https://gitcode.com/gh_mirrors/be/BewlyCat BewlyCat是一款专注于优化B站主页体验的开源工具,通过简洁美观的界面设计和实用…

作者头像 李华
网站建设 2026/6/10 0:50:29

FaceFusion镜像SLA服务等级协议说明:稳定性承诺

FaceFusion镜像SLA服务等级协议说明:稳定性承诺 在AI生成内容(AIGC)迅猛发展的今天,视觉创作的边界正在被不断拓展。人脸替换技术——这个曾被视为“黑科技”的领域,如今已悄然渗透进影视后期、短视频生产、虚拟偶像乃…

作者头像 李华