news 2026/4/18 8:49:37

揭秘Gemini如何防御间接提示注入攻击

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
揭秘Gemini如何防御间接提示注入攻击

构建最安全的Gemini模型

我们发布了一份新的白皮书,阐述了如何使Gemini 2.5成为迄今为止最安全的模型家族。想象一下,要求你的AI助手总结最新的电子邮件——这看起来是一项简单的任务。Gemini和其他大型语言模型正通过访问我们的文档、日历或外部网站等信息,持续提升执行此类任务的能力。但是,如果其中一封电子邮件包含隐藏的恶意指令,旨在诱骗AI共享私人数据或滥用其权限呢?

间接提示注入是一个真实的网络安全挑战,AI模型有时难以区分真实的用户指令和嵌入在所检索数据中的操纵性命令。我们的新白皮书《防御Gemini免受间接提示注入攻击的经验教训》,阐述了我们的战略蓝图,旨在应对使由先进大型语言模型支持的智能AI工具成为此类攻击目标的间接提示注入问题。我们致力于构建不仅强大而且安全的AI代理,这意味着我们持续不断地研究Gemini可能如何响应间接提示注入,并使其对此类攻击更具韧性。

评估基线防御策略

间接提示注入攻击非常复杂,需要持续保持警惕并部署多层防御。某中心DeepMind的安全与隐私研究团队专门负责保护我们的AI模型免受蓄意、恶意的攻击。手动寻找这些漏洞是缓慢且低效的,尤其是在模型快速发展的时期。这也是我们构建一个自动化系统来持续探测Gemini防御的原因之一。

利用自动化红队测试提升Gemini安全性

我们安全策略的核心部分是自动化红队测试,即我们的内部Gemini团队持续以现实的方式攻击Gemini,以发现模型中潜在的安全弱点。结合白皮书中详述的其他努力,采用这项技术显著提高了Gemini在使用工具时防御间接提示注入攻击的保护率,使Gemini 2.5成为我们迄今为止最安全的模型家族。

我们测试了研究社区建议的几种防御策略,以及我们自己的一些想法。

为自适应攻击定制评估

基线缓解措施在对抗基本的非自适应攻击方面显示出前景,显著降低了攻击成功率。然而,恶意行为者越来越多地使用自适应攻击,这些攻击旨在随着自动化红队测试的演进而适应,以规避正在测试的防御。

成功的基线防御措施在应对学会了如何处理和绕过静态防御方法的自适应攻击时,效果大打折扣。这一发现阐明了一个关键点:仅依赖针对静态攻击测试的防御会带来虚假的安全感。为了获得强大的安全性,评估能够针对潜在防御而演进的自适应攻击至关重要。

通过模型强化构建内在韧性

虽然外部防御和系统级护栏很重要,但增强AI模型识别并忽略数据中嵌入的恶意指令的内在能力也至关重要。我们称此过程为“模型强化”。

我们在一个由自动化红队测试生成的、针对敏感信息的有效间接提示注入所构成的大型现实场景数据集上对Gemini进行了微调。这教会了Gemini忽略恶意的嵌入指令,并遵循原始的用户请求,从而仅提供其本应给出的正确、安全的响应。这使得模型能够内在地理解如何处理随时间演进、作为自适应攻击一部分的受损信息。

这种模型强化显著提升了Gemini识别和忽略注入指令的能力,降低了其攻击成功率。重要的是,这并未显著影响模型在正常任务上的性能。

需要注意的是,即使进行了模型强化,也没有模型是完全免疫的。坚定的攻击者可能仍然会发现新的漏洞。因此,我们的目标是使攻击对对手而言更加困难、成本更高且更复杂。

采取整体方法保障模型安全

保护AI模型免受间接提示注入等攻击需要“深度防御”——使用多层保护,包括模型强化、输入/输出检查(如分类器)和系统级护栏。对抗间接提示注入是我们实施智能体安全原则和指南以负责任地开发智能体的关键方式。

保护先进AI系统免受间接提示注入等特定、不断演变的威胁是一个持续的过程。这要求进行持续和自适应的评估、改进现有防御并探索新的防御方法,以及在模型本身中构建内在的韧性。通过层层设防和不断学习,我们可以使Gemini等AI助手继续保持极其实用和可靠。

要了解更多关于我们内置到Gemini中的防御措施,以及我们关于使用更具挑战性的自适应攻击来评估模型鲁棒性的建议,请参阅某中心DeepMind的白皮书《防御Gemini免受间接提示注入攻击的经验教训》。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:47:28

查重 AI 痕双标红?虎贲等考 AI:降重降 AIGC 一步到位,论文合规稳了

论文定稿前的至暗时刻,莫过于查重率居高不下,改到头晕眼花后,又被 AIGC 检测系统标红。你是不是也试过同义词替换改得语句不通,费尽心思降重后,却因 “机器文风” 被导师打回重写?作为深耕论文写作科普的博…

作者头像 李华
网站建设 2026/4/18 8:48:30

拒稿率暴跌 90%!虎贲等考 AI 解锁期刊论文发表 “快车道”

据学术期刊联盟统计,超 70% 的论文投稿因选题不符、格式混乱、创新不足被直接拒稿,其中 “技术性拒稿” 占比高达 45%。对于科研工作者和高校师生而言,撰写一篇符合期刊标准的论文,往往要经历 “反复改格式、熬夜查文献、盲目投期…

作者头像 李华
网站建设 2026/4/15 20:16:10

AI音乐创作新体验:用灵芽社区Minimax工具生成你的第一首歌

AI音乐创作新体验:用灵芽社区Minimax工具生成你的第一首歌 从创意到成品,只需几步即可拥有专属AI音乐 引言 在这个AI赋能的时代,音乐创作不再是专业人士的专利。灵芽社区携手Minimax推出的AI音乐生成工具,让每个人都能轻松创作属…

作者头像 李华
网站建设 2026/4/10 22:36:06

9 款 AI 写论文哪个好?实测封神!虎贲等考 AI 凭硬核实力 C 位出圈

毕业季的论文战场,AI 写作工具成了学子们的 “救命稻草”,但面对五花八门的选择,“9 款 AI 写论文哪个好” 的灵魂拷问,难住了无数人。作为深耕学术测评的博主,我耗时 1 个月,以计算机、汉语言文学、临床医…

作者头像 李华
网站建设 2026/4/18 8:20:04

从补丁续命到系统重构:经济学的范式革命与文明突围

从补丁续命到系统重构:经济学的范式革命与文明突围当一位读者读完《经济学原理》后困惑“为何要设经济学专业”,本质上触碰到了一个横跨百年的学科命题:我们所学的经济学,究竟是解释世界的“用户手册”,还是设计世界的…

作者头像 李华
网站建设 2026/4/16 9:32:27

风险厌恶因子显著抬升:多因子模型指向黄金价格逼近4700美元

摘要:本文通过风险情绪量化模型、跨资产相关性分析与宏观因子权重评估,结合贵金属价格行为、美元指数变化及政策不确定性信号,对近期黄金与白银同步走强的市场逻辑进行系统性解析。一、风险厌恶因子上行,黄金价格刷新历史区间周一…

作者头像 李华