news 2026/4/17 17:36:19

研究人员通过数据投毒技术保护知识图谱免遭盗用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
研究人员通过数据投毒技术保护知识图谱免遭盗用

来自中国和新加坡高校的研究人员开发了一项新技术,能够使被盗的知识图谱数据在未经授权的情况下被整合到GraphRAG AI系统中时变得无用。

大语言模型基于训练数据进行预测,无法有效回应其他数据的查询。AI行业通过检索增强生成(RAG)技术来解决这一局限性,让大语言模型能够访问外部数据集。例如,Google搜索中的AI概览功能就使用RAG为底层Gemini模型提供当前的网络数据,尽管这些数据不一定准确。

GraphRAG是微软为提高RAG效果所做的努力。通过创建称为知识图谱的语义相关数据集群,GraphRAG在与基于大语言模型的系统连接时表现优于基础RAG。数据的结构化使得大语言模型在接收提示时能够做出更准确的预测。

亚马逊、Google和微软都在各自的云服务中支持GraphRAG。

在一篇题为《让盗窃无用:GraphRAG系统中基于掺假的专有知识图谱保护》的预印本论文中,作者王伟杰、吕培卓等人观察到,企业知识图谱的构建成本相当高昂,他们引用了Cyc中包含2100万个断言的知识图谱中每个事实陈述成本5.71美元的数据。

考虑到潜在的高昂成本,企业有动机防止知识图谱资产被盗用来构建竞争性的AI产品——这也是出版商、作者和其他媒体内容创作者所担心的问题。辉瑞和西门子等公司已投资于知识图谱,以促进药物发现并协助制造。

王伟杰、吕培卓及其合作者提出了一种名为AURA的知识图谱防护技术,AURA代表"通过掺假主动降低效用"。这十位作者分别来自中国科学院、新加坡国立大学、南洋理工大学和北京理工大学。

他们在论文中解释,AURA是"一个新颖的框架,能够使被盗的知识图谱对攻击者无用,同时为GraphRAG系统保持最小的性能开销"。

本质上,这是一种巧妙地对知识图谱中的数据进行投毒或掺假的机制,使得准确检索需要密钥。与传统加密不同,目标不是拒绝对明文的访问,而是降低知识图谱对大语言模型的响应质量,使得在没有密钥的情况下进行的预测产生准确性下降和幻觉。

水印等替代方法可能在使数据盗窃可追踪方面有一定效用,但它们不能解决在私人环境中滥用被盗数据的问题。作者认为加密并不实用。

"完全加密文本和嵌入需要为每个查询解密图的大部分内容,"他们声称。"这个过程引入了令人望而却步的计算开销和延迟,使其不适合实际使用。"

这里的威胁模型假设攻击者能够完全窃取知识图谱,但没有获得密钥。商业秘密诉讼证实,像Waymo这样的公司不愿意看到他们的知识产权资产被窃取。

研究人员通过使用MetaQA、WebQSP、FB15K-237和HotpotQA数据集创建掺假的知识图谱来测试他们的技术,然后尝试将这些被投毒的知识图谱与各种大语言模型(GPT-4o、Gemini-2.5-flash、Llama-2-7b和Qwen-2.5-7b)结合部署GraphRAG系统。

结果表明AURA非常有效。模型100%检索到掺假内容,并基于这些错误信息向用户输出错误响应的比例达到94%。

学者们指出,这项技术并不完美,因为在某些情况下,知识图谱可能同时包含关于某个主题的正确和错误(掺假)数据,大语言模型可能会选择正确答案。

虽然存在净化被投毒数据的技术,但作者声称他们的方法主要抵抗基于语义一致性(如Node2Vec)、基于图的异常检测(如ODDBALL)和混合方法(如SEKA)的检查。

"通过降低被盗知识图谱的效用,AURA为保护GraphRAG中的知识产权提供了实用的解决方案,"作者总结道。

Q&A

Q1:AURA技术是什么?它的工作原理是怎样的?

A:AURA是"通过掺假主动降低效用"的缩写,是一种知识图谱防护技术。它通过巧妙地对知识图谱数据进行投毒或掺假,使得准确检索需要密钥。与传统加密不同,它的目标是降低知识图谱对大语言模型的响应质量,让没有密钥的预测产生准确性下降和幻觉。

Q2:AURA技术的防护效果如何?

A:测试结果显示AURA技术非常有效。在实验中,模型100%检索到了掺假内容,并基于这些错误信息向用户输出错误响应的比例达到94%。该技术主要抵抗基于语义一致性、图异常检测和混合方法的检查。

Q3:为什么需要保护知识图谱不被盗用?

A:企业知识图谱的构建成本相当高昂,例如Cyc知识图谱中每个事实陈述的成本达5.71美元。辉瑞和西门子等公司已大量投资于知识图谱用于药物发现和制造辅助。考虑到高昂成本和商业价值,企业有强烈动机防止这些资产被盗用来构建竞争性AI产品。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:56:09

【计算机毕业设计案例】基于微信小程序的考研资源共享平台的设计与实现基于django+微信小程序的考研信息查询系统(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/18 5:42:22

交变磁场下含感应材料沥青路面温度:奇妙的物理与技术融合

交变磁场下含感应材料沥青路面温度在道路工程领域,沥青路面是我们再熟悉不过的存在。然而,你是否想过,通过交变磁场与含感应材料的结合,能让沥青路面的温度产生神奇的变化?这背后蕴含着有趣的物理原理和潜在的应用价值…

作者头像 李华
网站建设 2026/4/18 7:04:52

昆仑通态直接控制变频器程序及通讯那些事儿

昆仑通态直接控制变频器程序及通讯。在工业自动化领域,昆仑通态人机界面与变频器的协同工作是实现精准控制与高效生产的关键环节。今天就来唠唠昆仑通态如何直接控制变频器程序及通讯。 一、通讯基础准备 昆仑通态与变频器通讯,首先要明确通讯协议。常见…

作者头像 李华
网站建设 2026/4/17 22:04:35

django基于数据挖掘技术的台风灾害预测系统-计算机毕业设计源码+无LW文档

Django基于大数据旅游数据分析与推荐系统的设计与实现 摘要 本文阐述了一个基于Django框架,结合大数据技术的旅游数据分析与推荐系统的设计与实现过程。该系统旨在利用大数据分析技术深入挖掘旅游数据,为游客提供精准的旅游推荐和全面的旅游资讯&#xf…

作者头像 李华
网站建设 2026/4/18 5:23:11

永磁同步电机(PMSM)矢量控制之旅:从理论到MATLAB仿真

永磁同步电机(PMSM)矢量控制,坐标变换到d-q轴后,采用SVPWM调制算法,进行速度电流双闭环控制,控制算法为PID,仿真结果如图所示。 (默认发MATLAB R2018b版本)永磁同步电机(PMSM)因其高效、功率密度…

作者头像 李华
网站建设 2026/4/18 11:25:33

英文论文降AI工具横评:留学生亲测这3款最靠谱

英文论文降AI工具横评:留学生亲测这3款最靠谱 TL;DR:留学生英文论文降AI首选AIGCleaner(达标率95%,支持Turnitin/GPTZero),其次是HumText(专注学术英文,6.8元起)&#xf…

作者头像 李华