揭秘Gemini如何防御间接提示注入攻击-程序员充电站

构建最安全的Gemini模型

我们发布了一份新的白皮书，阐述了如何使Gemini 2.5成为迄今为止最安全的模型家族。想象一下，要求你的AI助手总结最新的电子邮件——这看起来是一项简单的任务。Gemini和其他大型语言模型正通过访问我们的文档、日历或外部网站等信息，持续提升执行此类任务的能力。但是，如果其中一封电子邮件包含隐藏的恶意指令，旨在诱骗AI共享私人数据或滥用其权限呢？

间接提示注入是一个真实的网络安全挑战，AI模型有时难以区分真实的用户指令和嵌入在所检索数据中的操纵性命令。我们的新白皮书《防御Gemini免受间接提示注入攻击的经验教训》，阐述了我们的战略蓝图，旨在应对使由先进大型语言模型支持的智能AI工具成为此类攻击目标的间接提示注入问题。我们致力于构建不仅强大而且安全的AI代理，这意味着我们持续不断地研究Gemini可能如何响应间接提示注入，并使其对此类攻击更具韧性。

评估基线防御策略

间接提示注入攻击非常复杂，需要持续保持警惕并部署多层防御。某中心DeepMind的安全与隐私研究团队专门负责保护我们的AI模型免受蓄意、恶意的攻击。手动寻找这些漏洞是缓慢且低效的，尤其是在模型快速发展的时期。这也是我们构建一个自动化系统来持续探测Gemini防御的原因之一。

利用自动化红队测试提升Gemini安全性

我们安全策略的核心部分是自动化红队测试，即我们的内部Gemini团队持续以现实的方式攻击Gemini，以发现模型中潜在的安全弱点。结合白皮书中详述的其他努力，采用这项技术显著提高了Gemini在使用工具时防御间接提示注入攻击的保护率，使Gemini 2.5成为我们迄今为止最安全的模型家族。

我们测试了研究社区建议的几种防御策略，以及我们自己的一些想法。

为自适应攻击定制评估

基线缓解措施在对抗基本的非自适应攻击方面显示出前景，显著降低了攻击成功率。然而，恶意行为者越来越多地使用自适应攻击，这些攻击旨在随着自动化红队测试的演进而适应，以规避正在测试的防御。

成功的基线防御措施在应对学会了如何处理和绕过静态防御方法的自适应攻击时，效果大打折扣。这一发现阐明了一个关键点：仅依赖针对静态攻击测试的防御会带来虚假的安全感。为了获得强大的安全性，评估能够针对潜在防御而演进的自适应攻击至关重要。

通过模型强化构建内在韧性

虽然外部防御和系统级护栏很重要，但增强AI模型识别并忽略数据中嵌入的恶意指令的内在能力也至关重要。我们称此过程为“模型强化”。

我们在一个由自动化红队测试生成的、针对敏感信息的有效间接提示注入所构成的大型现实场景数据集上对Gemini进行了微调。这教会了Gemini忽略恶意的嵌入指令，并遵循原始的用户请求，从而仅提供其本应给出的正确、安全的响应。这使得模型能够内在地理解如何处理随时间演进、作为自适应攻击一部分的受损信息。

这种模型强化显著提升了Gemini识别和忽略注入指令的能力，降低了其攻击成功率。重要的是，这并未显著影响模型在正常任务上的性能。

需要注意的是，即使进行了模型强化，也没有模型是完全免疫的。坚定的攻击者可能仍然会发现新的漏洞。因此，我们的目标是使攻击对对手而言更加困难、成本更高且更复杂。

采取整体方法保障模型安全

保护AI模型免受间接提示注入等攻击需要“深度防御”——使用多层保护，包括模型强化、输入/输出检查（如分类器）和系统级护栏。对抗间接提示注入是我们实施智能体安全原则和指南以负责任地开发智能体的关键方式。

保护先进AI系统免受间接提示注入等特定、不断演变的威胁是一个持续的过程。这要求进行持续和自适应的评估、改进现有防御并探索新的防御方法，以及在模型本身中构建内在的韧性。通过层层设防和不断学习，我们可以使Gemini等AI助手继续保持极其实用和可靠。

要了解更多关于我们内置到Gemini中的防御措施，以及我们关于使用更具挑战性的自适应攻击来评估模型鲁棒性的建议，请参阅某中心DeepMind的白皮书《防御Gemini免受间接提示注入攻击的经验教训》。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

揭秘Gemini如何防御间接提示注入攻击

构建最安全的Gemini模型

评估基线防御策略

利用自动化红队测试提升Gemini安全性

为自适应攻击定制评估

通过模型强化构建内在韧性

采取整体方法保障模型安全

查重 AI 痕双标红？虎贲等考 AI：降重降 AIGC 一步到位，论文合规稳了

拒稿率暴跌 90%！虎贲等考 AI 解锁期刊论文发表 “快车道”

AI音乐创作新体验：用灵芽社区Minimax工具生成你的第一首歌

9 款 AI 写论文哪个好？实测封神！虎贲等考 AI 凭硬核实力 C 位出圈

从补丁续命到系统重构：经济学的范式革命与文明突围

风险厌恶因子显著抬升：多因子模型指向黄金价格逼近4700美元