news 2026/6/12 7:40:40

知识图谱加速COVID-19科研信息发现

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
知识图谱加速COVID-19科研信息发现

利用知识图谱简化COVID-19研究

知识图谱是一种组织信息的方式,以便更高效地进行探索和分析。像所有图谱一样,它由节点(通常描绘为圆圈)和边(通常描绘为连接节点的线段)组成。在知识图谱中,节点通常代表实体,边则表示实体之间的关系。

2020年5月,某中心网络服务部门公开发布了COVID-19知识图谱(CKG)。该图谱组织了COVID-19开放研究数据集(CORD-19)中的信息。CORD-19是一个由某机构人工智能研究所领导的联盟创建的、不断增长的关于COVID-19及相关主题的学术出版物存储库。CKG为某中心的CORD-19排名和推荐系统提供了支持。

在早些时候于AACL-IJCNLP“将结构化知识与神经网络整合用于自然语言处理”研讨会上发表的一篇论文中,我们解释了如何创建CKG,并描述了几种可能的应用,包括针对特定主题的论文排名和相关论文的发现。

图谱结构如何?

该图谱包含五种类型的节点:

  • 论文节点:包含论文的元数据,如标题和ID号。
  • 作者节点:包含作者的姓名。
  • 机构节点:包含机构的名称和位置。
  • 概念节点:包含论文中出现的特定医学术语,例如布洛芬、心功能不全和哮喘。
  • 主题节点:包含广泛的研究领域,例如基因组学、流行病学和病毒学。

该图谱还包含五种类型的边:

  • authored_by:将论文与其作者链接起来。
  • affiliated_with:将作者与其所属机构链接起来。
  • associated_concept:将论文与其相关概念链接起来。
  • associated_topic:将论文与其主题链接起来。
  • cites:将论文链接到引用它的其他论文。

图谱是如何创建的?

CORD-19数据库中论文的标准化格式允许轻松提取标题、摘要、正文、作者、机构和引用。

为了识别概念,使用了某中心Comprehend Medical服务,该服务从文本中提取医学实体并将其分类为实体类型。例如,给定句子“腹部超声提示急性阑尾炎”,该服务会提取以下实体:腹部(解剖结构)超声(检查治疗程序)急性阑尾炎(医疗状况)

为了提取主题,使用了一种名为Z-LDA的潜在狄利克雷分配的扩展方法,该方法使用每篇论文的标题、摘要和正文文本进行训练。Z-LDA假设论文中最具特征的术语反映了某个主题,并根据该术语在整个语料库中的出现频率选择其中一个作为该主题的标签。通过这种方式生成的主题列表在医疗专业人员的帮助下最终缩减为10个主题。

应用示例:基于引用的排名

在学术界,衡量论文相关性的一个标准是引用它的出版物数量。图结构使引用计数变得容易。但它也支持自定义计数,例如处理特定主题或包含特定概念的出版物进行的引用。

相似论文引擎

给定一篇论文,相似论文引擎会检索一个包含k篇相似论文的列表。它使用两种不同的相似性度量,在最后一步进行组合。

一种度量使用SciBert嵌入,它建立在流行的BERT语言模型之上,但针对科学文本进行了微调。SciBert将输入句子表示为多维空间中的点,使得涉及相同科学概念的句子倾向于聚集在一起。

我们为论文的标题、摘要和正文创建独立的嵌入,然后将它们平均以生成最终的嵌入。先前的研究表明,标题嵌入可能比正文嵌入更容易区分,而正文嵌入则携带更丰富的信息。因此,选择了一种赋予两者相等权重的嵌入方案。平均嵌入在表示空间中的接近程度表明了相关论文的相似性。

第二个模型使用另一种嵌入方式,即知识图谱嵌入,它试图保留知识图谱中编码的关系。如果图中的两个实体通过一条代表关系的边连接,那么第一个实体的嵌入,加上代表该关系的向量后,应该在第二个实体位置的附近(理想情况下是精确位置)产生一个点。

为了创建知识图谱嵌入网络,使用了DGL-KE工具,该工具在某中心开发,并扩展了早期的深度图库(DGL)。

作为训练数据,从CKG中提取向量三元组(h, r, t)的集合,其中h是头实体,r是关系类型,t是尾实体。这些三元组是正面的训练样本。负面样本是通过随机替换现有三元组的头或尾实体来合成的。

使用这些样本,训练模型以区分错误链接和真实链接。结果是为图中的每个节点生成一个嵌入。

在此过程结束时,将语义嵌入和知识图谱嵌入连接起来,创造一个新的、更高维度的表示空间。通过计算该空间中前k个最接近的向量(余弦距离),即可获得前k篇最相似的论文。

鉴于缺乏论文推荐的基准事实,通过分析性的定量和定性指标来评估该算法。这些指标包括但不限于流行度分析、源论文与推荐论文之间的主题交集、低维聚类和摘要比较。关于方法的更多信息,可以参阅某中心博客上的两篇文章:“使用某中心 Neptune、某中心 Comprehend Medical 和 Tom Sawyer Graph Database Browser 探索COVID-19科学研究”以及“构建和查询某中心 COVID-19知识图谱”。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 11:58:10

微信游戏外包开发的流程

微信小游戏的外包开发流程具有高度的定制性,不仅涉及传统游戏的开发逻辑,还深度结合了微信生态的社交属性与技术规范。以下是微信游戏外包开发的标准全流程:第一阶段:需求明确与策划这是项目的起点,直接决定了后续开发…

作者头像 李华
网站建设 2026/6/10 11:52:23

零基础入门:用KILO CODE写出你的第一行代码

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个面向编程新手的KILO CODE学习平台,提供交互式教程和简单项目模板(如计算器、待办事项列表)。平台应能根据用户选择的难度级别自动生成适…

作者头像 李华
网站建设 2026/6/10 11:56:20

传统NLP开发vs使用HuggingFace:效率对比实验

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个对比实验项目:1. 分别用传统方法(如TF-IDF机器学习)和HuggingFace预训练模型实现文本分类;2. 比较两者的开发时间、准确率和…

作者头像 李华
网站建设 2026/6/10 12:33:52

【高精度气象】台风季怎么把损失降到最低?从台风路径预测到检修计划的“提前量”全流程打法

关键词:高精度气象、台风路径预测、台风强度预报、台风风险评估、台风影响预报、暴雨大风预警、风场预报、阵风gust、降水预报、海浪风暴潮、停机避险、检修计划、应急预案、资产防护、风电台风防护、光伏台风防护、电网运维、停电风险、提前量、风险分级、抢修排班…

作者头像 李华
网站建设 2026/6/10 19:17:37

MGeo在电商平台商家入驻审核中的应用

MGeo在电商平台商家入驻审核中的应用 引言:地址真实性核验的业务挑战 在电商平台的商家入驻流程中,地址信息的真实性与一致性核验是风控体系的关键环节。虚假或错误的经营地址不仅影响物流履约能力评估,还可能成为刷单、套利等违规行为的掩护…

作者头像 李华
网站建设 2026/6/10 11:41:48

AI如何帮你自动生成业务架构图?

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个能够自动生成业务架构图的AI工具。用户只需输入业务需求描述,系统自动分析并生成对应的业务架构图。支持多种架构风格(如分层架构、微服务架构等&a…

作者头像 李华