引言
承接上一章对大模型 Prompt 注入与越狱攻击的防御,本章将深入探讨 Project Glasswing 的安全治理理念,重点解决本地 Agent 在输入与输出两个环节的安全审查,构建企业级的双向审查防火墙。
核心理论
Project Glasswing 旨在打造一个“看门狗”机制,利用 AI 模型和规则引擎协同工作,保障模型不被恶意诱导且不泄露敏感信息。具体体现在两个方向:
- 输入端:通过一个轻量级分类模型捕获并拦截恶意或违规的请求内容,防止危险指令进入模型推理环节。
- 输出端:结合正则表达式和命名实体识别(NER)技术,自动识别并清理用户输出中的敏感数据(如手机号、企业内部 IP),避免信息泄露。
这种双管齐下的审查体系,是构建企业级 AI 服务安全合规的基石,特别适用于金融等对合规性要求极高的行业。
实战演练
本节以一个完整的示例展示如何落地双向审查防火墙。
1. 部署输入端安检模型(以轻量文本分类为例)
- 这里使用一个预训练的小型文本分类模型,如基于 Hugging Face Transformers 的 DistilBERT 用于恶意输入检测。
fromtransformersim