Dify如何实现敏感信息过滤与内容审核？-程序员充电站

Dify如何实现敏感信息过滤与内容审核？

在AI应用快速渗透企业核心业务的今天，一个看似智能的回答背后，可能潜藏着巨大的合规风险：大语言模型是否会无意中泄露客户隐私？是否会在回答中夹带违法不良信息？这些问题不再只是技术设想，而是摆在每个AI产品负责人面前的真实挑战。

Dify作为开源的AI Agent开发平台，没有将安全视为事后补救的功能模块，而是从架构设计之初就将其融入系统的血脉。它不仅支持Prompt编排、RAG知识库构建和Agent流程自动化，更通过一套纵深防御机制，在用户输入、提示词引导、数据源处理和模型输出等关键节点上层层设防，实现了对敏感信息的端到端管控。

这套机制的核心，并非依赖某一项“黑科技”，而是将多种策略有机整合——既有基于规则的精准打击，也有借助外部AI服务的语义理解；既利用Prompt进行软性约束，又在数据源头就切断泄露路径。更重要的是，这一切都以可视化、低代码的方式呈现给开发者，让非安全背景的团队也能快速构建出符合监管要求的应用。

内容审核引擎：双层防护的自动哨兵

如果把Dify比作一座智能安防系统，那么内容审核引擎就是其中24小时值守的自动哨兵。它的特别之处在于，不是等到问题发生后再去应对，而是在两个最关键的时刻主动出击：一次在用户刚开口时，另一次在模型即将回应前。

想象这样一个场景：有人试图通过客服机器人套取内部员工通讯录。传统系统可能直到生成回复后才察觉异常，而Dify早在第一步就已介入——当用户输入“请列出所有人事部门员工的联系方式”时，前置审核立即触发。系统不仅能识别“联系方式”这样的关键词，还能结合正则表达式判断是否存在手机号或邮箱格式的内容。一旦命中规则，请求直接被拦截，根本不会进入模型推理环节。

这种前后置双层结构的设计，本质上是一种“失败提前”的工程哲学。与其寄希望于模型永远不说错话，不如建立多重保险机制。即使Prompt未能完全约束住模型行为，后置审核仍能兜底拦截高风险输出。

更进一步的是，Dify的审核能力并非铁板一块。它采用可插拔架构，允许企业根据实际需求灵活配置：

对于普通问答场景，启用基础关键词过滤即可；
在金融或医疗领域，则可以接入阿里云内容安全、腾讯天御等第三方AI审核API，利用其训练好的涉政、色情、暴力倾向检测模型进行语义级判断；
高度敏感业务甚至可替换为私有化部署的NLP审核服务，确保数据不出内网。

这种细粒度控制能力，使得同一个平台既能服务于对外公众服务的严格过滤，也能满足内部知识助手的宽松调试需求。不同应用场景下，审核策略可以独立设置、实时生效，无需重新发布代码。

下面这个简化的Python类，正是Dify本地审核逻辑的缩影：

import re from typing import List, Dict class ContentModeration: def __init__(self): self.blocked_keywords = ["诈骗", "病毒", "国家领导人"] self.patterns = { "phone": r"1[3-9]\d{9}", "id_card": r"\d{17}[\dX]" } def scan(self, text: str) -> Dict[str, List[str]]: findings = {} found_keywords = [kw for kw in self.blocked_keywords if kw in text] if found_keywords: findings["keywords"] = found_keywords for name, pattern in self.patterns.items(): matches = re.findall(pattern, text) if matches: findings[name] = matches return findings def is_blocked(self, text: str) -> bool: result = self.scan(text) return len(result) > 0

虽然开发者通常不会直接编写这类代码，但理解其背后的逻辑有助于做出更合理的策略选择。例如，为什么某些误报频繁出现？很可能是因为关键词过于宽泛，或者正则表达式未考虑边界情况。此时可以通过日志分析持续优化规则库，而不是简单地增加更多禁词。

Prompt工程：用语言指令塑造合规意识

如果说内容审核引擎是“硬防火墙”，那Prompt工程就是“软引导”。它不靠强制拦截，而是通过精心设计的语言指令，让模型在生成过程中自觉遵守规范。

这听起来有些理想化——毕竟LLM有时会“越狱”或忽略指令。但在实践中，强约束性的系统提示（System Prompt）确实能显著降低违规输出的概率。Dify的聪明之处在于，它把这项原本需要深厚NLP经验的技术，变成了普通人也能操作的可视化配置。

比如你要搭建一个银行客服AI，只需在界面上勾选“金融行业模板”，系统就会自动生成类似这样的提示词：

“你是一个银行官方AI客服助手，名为‘小银’。你的职责是帮助客户查询账户信息、办理业务指引和解答常见问题。禁止透露任何客户的私人信息……对于超出服务范围的问题，请统一回复：‘抱歉，这个问题不属于我的服务范畴。’”

这段文字不只是功能说明，更是一套行为准则。它明确了角色定位、划定了权限边界、规定了输出格式，甚至预设了拒绝话术。当LLM接收到这些指令时，会在解码阶段优先遵循这些约束，从而在源头减少有害内容的产生。

相比纯事后过滤，这种方式的优势非常明显：

更低的误杀率：模型知道“不该说什么”，而不是等到说完再被删改；
更好的上下文一致性：拒绝回答时能给出合理解释，而非突兀中断；
更高的兼容性：无论底层使用GPT、通义千问还是百川模型，都能通过Prompt实现统一控制。

不过也要清醒认识到，Prompt不能替代审核。再完善的提示词也无法保证100%可靠，尤其是面对刻意诱导或复杂语境时。因此Dify推荐采用“Prompt + 后过滤”的双重保障模式——前者负责预防，后者负责兜底。

RAG数据源净化：从源头杜绝“脏数据污染”

很多人关注模型本身的安全性，却忽视了一个更根本的问题：知识库是不是干净的？

在RAG（检索增强生成）系统中，模型的回答往往基于外部知识片段。如果原始文档本身就包含身份证号、电话号码甚至合同细节，哪怕模型再谨慎，也可能把这些信息原封不动地吐出来。这就是所谓的“干净模型 + 脏数据 = 危险输出”。

Dify在这一点上做了重要突破：它把敏感信息过滤前置到了数据入库阶段。当你上传一份PDF或Word文件到知识库时，系统不会直接索引原文，而是先经过一道脱敏流水线。

这个过程是自动完成的。例如，以下文本：

联系人：张先生，电话13812345678，邮箱zhang@example.com，身份证号11010119900307XXXX

经过清洗后变为：

联系人：张先生，电话[PHONE]，邮箱[EMAIL]，身份证号[ID_CARD]

使用的正是类似下面这段脚本的逻辑：

import re def anonymize_text(text: str) -> str: text = re.sub(r"1[3-9]\d{9}", "[PHONE]", text) text = re.sub(r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b", "[EMAIL]", text) text = re.sub(r"\d{6}(19|20)\d{2}(0[1-9]|1[0-2])(0[1-9]|[12]\d|3[01])\d{3}[\dX]", "[ID_CARD]", text) return text

实际生产环境中，这套流程还会结合命名实体识别（NER）模型来识别非常规格式的人名、地址等，并支持人工复核机制。对于病历、合同等高敏感文档，系统可设置为“需审批后上线”，强制走审核流程。

由于脱敏发生在离线阶段，整个过程不影响在线查询性能。这也体现了“安全左移”的理念——越早发现问题，修复成本越低。

实际工作流中的协同防御

在一个典型的企业级智能客服场景中，上述三大机制是如何协同工作的？

假设一位用户发送消息：“帮我查张伟的账号余额。”

前置审核启动：系统识别出“张伟”为人名，“账号余额”为敏感操作关键词；
检查当前会话权限，发现未认证，立即拦截并返回标准提示：“您未登录，无法查询他人信息。”
若为合法请求（如已认证用户问“如何修改密码？”）：
- 加载预设安全Prompt：“你是密码重置助手，仅提供流程指引，不涉及具体验证。”
- 从已脱敏的知识库中检索相关条目；
- 调用LLM生成回答；
后置审核扫描输出：
- 检查是否包含“验证码”“原始密码”等关键词；
- 未命中则放行，否则替换为通用提示；
最终安全响应返回用户。

整个流程在毫秒级内完成，用户无感知，但背后已完成至少两次安全校验。

这种纵深防御体系解决了企业在AI落地中的三大核心痛点：