news 2026/4/18 10:53:36

提升基因变异检测准确性的GPU加速技术与pangenome方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
提升基因变异检测准确性的GPU加速技术与pangenome方法

使用某中心Parabricks提升变异检测准确性

专为数据科学家和生物信息学家设计的某中心Parabricks是一个可扩展的基因组学二级分析软件套件。它提供GPU加速版本的开源工具,以提高分析速度和准确性,使研究人员能够更快地获得生物学见解。

最新版本Parabricks v4.6对多项功能进行了改进,最显著的是支持某机构的DeepVariant和DeepSomatic 1.9。这包括了DeepVariant的pangenome-aware模式,该模式提高了跨遗传变异和不同人群分析的准确性。

新功能:

  • DeepVariant和DeepSomatic 1.9,包括pangenome-aware DeepVariant。
  • DeepSomatic长读长和全外显子组测序支持。
  • STAR的quantMode,包括GeneCounts。

改进功能:

  • STAR加速:在两个某中心RTX PRO 6000 GPU上,相比仅使用CPU的解决方案,速度提升近8倍。
  • 为Mutectcaller增加了额外参数,包括线粒体模式。

使用DeepVariant和DeepSomatic 1.9改进变异检测

变异检测是基因组分析的关键步骤。它能识别样本基因组(例如个体或群体)与参考基因组之间的差异。理解这些遗传差异有助于科学家更好地了解疾病和潜在的治疗方法。

目前有各种各样的工具用于变异检测,包括来自Broad研究所的基因组分析工具包(GATK)中的HaplotypeCaller和Mutect2。除了GATK的行业标准工具外,基于深度学习的变异检测工具也已得到广泛应用。

由某机构开发的DeepVariant和DeepSomatic使用深度学习来支持变异识别。对于种系数据,DeepVariant确定遗传性变异。而DeepSomatic则显示了体细胞变异如何影响非遗传性突变,包括在肿瘤细胞中发现的突变。

提高变异检测的准确性至关重要,尤其是在考虑遗传多样性时。根据最近的一篇论文,与基于线性参考的DeepVariant相比,pangenome-aware DeepVariant在所有设置下将错误减少了高达25.5%。

结合Giraffe和DeepVariant v1.9进一步提升准确性

传统的线性参考,包括基因组参考联盟人类构建38(GRCh38),仅基于少数个体的DNA构建,为基因组研究提供了一个通用坐标系统。然而,这些参考并未捕捉到更广泛人类群体中存在的全部遗传变异谱。因此,重要的亚群体多样性往往未被充分代表。这可能会给后续分析带来偏差,例如读段比对和变异检测,可能会遗漏或错误解释与祖先或疾病相关的重要遗传差异。

与线性参考不同,pangenome通过整合来自不同个体的多个高质量基因组来构建,捕捉了人类群体中更广泛的遗传变异范围。这种综合方法减少了参考偏差,改善了跨人群的变异检测,并支持更准确和公平的基因组分析。由加州大学圣克鲁兹分校研究人员开发的软件工具Giraffe,能够实现对pangenome图的高效读段比对。

Giraffe将基因组序列比对到参考pangenome,而不是传统的线性参考,从而提高了跨不同人群的变异检测准确性。将Giraffe与DeepVariant的pangenome-aware模式(现已在Parabricks v4.6中提供)相结合,不仅提高了已识别变异的准确性,还提供了Parabricks GPU加速的速度。

准确性:根据pangenome-aware DeepVariant的结果,开源pangenome-aware DeepVariant比BWA更准确,获得了以下F1分数:

  • Pangenome-aware DeepVariant: SNP: 0.9981 | Indel: 0.9971
  • BWA: SNP: 0.9973 | Indel: 0.9968

速度:利用Parabricks中的GPU加速,Giraffe和DeepVariant的运行时间实现了超过14倍的加速,对比在四个某中心RTX PRO 6000 GPU上使用仅CPU的Giraffe和pangenome-aware模式的DeepVariant。

开始使用Giraffe和DeepVariant

Parabricks的现有用户可以在提供以下文件后运行DeepVariant:

  1. 来自Giraffe索引文件的适当FASTA参考文件。
  2. 运行Giraffe后输出的BAM文件和图形GPZ文件。

有关获取这些文件的说明,请参阅专注于在变异检测工作流中使用Giraffe的Parabricks Giraffe文档。以下步骤也将指导您完成整个过程。

步骤 1
运行基线VG以从图形生成FASTA文件。
请注意,使用基线VG的步骤1只需运行一次。一旦您从图形获得了FASTA文件,就不需要再次运行步骤1。相反,运行步骤2和步骤3来处理更多的FASTQ样本。

# 提取与路径列表对应的序列到FASTA文件dockerrun --rm --volume$(pwd):/workdir\--workdir /workdir\quay.io/vgteam/vg:v1.59.0\vg paths -x hprc-v1.1-mc-grch38.gbz -p hprc-v1.1-mc-grch38.paths.sub -F>hprc-v1.1-mc-grch38.fa# 索引fasta文件samtools faidx hprc-v1.1-mc-grch38.fa

步骤 2
接下来,正常运行Giraffe。

# 此命令假定所有输入都在当前工作目录中,所有输出也放置在同一位置。dockerrun --rm --gpus all --volume$(pwd):/workdir --volume$(pwd):/outputdir\--workdir /workdir\nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1\pbrun giraffe --read-group"sample_rg1"\--sample"sample-name"--read-group-library"library"\--read-group-platform"platform"--read-group-pu"pu"\--dist-name /workdir/hprc-v1.1-mc-grch38.dist\--minimizer-name /workdir/hprc-v1.1-mc-grch38.min\--gbz-name /workdir/hprc-v1.1-mc-grch38.gbz\--ref-paths /workdir/hprc-v1.1-mc-grch38.paths.sub\--in-fq /workdir/${INPUT_FASTQ_1}/workdir/${INPUT_FASTQ_2}\--out-bam /outputdir/${OUTPUT_BAM}

步骤 3
最后,这三个文件可以用作DeepVariant的输入。使用来自步骤2的BAM、来自步骤1的FASTA以及图形GBZ文件运行pangenome_aware_deepvariant。

# Pangenome_aware_deepvariant# 此命令假定所有输入都在当前工作目录中,所有输出也放置在同一位置。dockerrun --rm --gpus all --volume$(pwd):/workdir --volume$(pwd):/outputdir\--workdir /workdir\nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1\pbrun pangenome_aware_deepvariant\--ref /workdir/hprc-v1.1-mc-grch38.fa\--pangenome /workdir/hprc-v1.1-mc-grch38.gbz\--in-bam /workdir/${INPUT_BAM}\--out-variants /outputdir/${OUTPUT_VCF}

STAR改进:包括quantMode GeneCounts

除了DeepVariant的pangenome-aware模式外,Parabricks的最新版本还包括对STAR的改进。STAR是一个用于加速RNA测序比对的工具。它因其在跨测序平台的RNA-seq数据上的速度和准确性以及对大型数据集的可扩展性而特别有用。STAR已可在Parabricks中使用,并且得益于GPU加速,其速度得到进一步提升——在两个某中心RTX PRO 6000 GPU上,相比仅使用CPU的解决方案,实现了近8倍的加速。

在Parabricks的最新版本中,quantMode GeneCounts是STAR的一个新可用选项,对于基因表达、质量控制、标准化和数据整合等多种应用非常有价值。在比对的映射步骤中,quantMode GeneCounts能够快速生成基因水平的读段计数。

开始使用STAR

QuantMode GeneCounts可以作为参数添加到STAR中运行。示例命令如下。

dockerrun --rm --gpus all --volume$(pwd):/workdir --volume$(pwd):/outputdir\--workdir /workdir\nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1\pbrun rna_fq2bam\--genome-lib-dir${GENOME_DIR}\--in-fq${FASTQ1}${FASTQ2}\--output-dir${OUT_DIR}\--ref${GENOME}\--out-bam${OUT_BAM}\--num-gpus${GPU_NUM}\--quantMode GeneCounts

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:30:37

超详细版讲解I2S协议中字选择频率的多种模式

深入理解I2S协议中的字选择频率:从基础到多模式实战在开发一款智能音箱、车载音频系统或高保真DAC时,你是否曾遇到过这样的问题——播放音乐时左右声道颠倒?录音听起来像是“慢放”或“快进”?甚至多个音频设备无法同步启动&#…

作者头像 李华
网站建设 2026/4/10 14:33:38

PCB过孔与电流对照一览表全面讲解(选型专用)

PCB过孔载流能力全解析:从查表到实战设计的深度指南在一块小小的PCB上,电流如何安全“穿层而过”?这个问题看似微小,却常常成为压垮电源系统的最后一根稻草。你有没有遇到过这样的情况:- 满载测试时,某个不…

作者头像 李华
网站建设 2026/4/16 10:55:43

Open-AutoGLM模型实战指南:5步实现企业级AI自动化部署

第一章:Open-AutoGLM模型实战指南:5步实现企业级AI自动化部署在企业级AI系统中,快速部署具备自然语言理解与任务编排能力的模型至关重要。Open-AutoGLM作为开源的自动化生成语言模型,支持任务分解、工具调用与流程控制&#xff0c…

作者头像 李华
网站建设 2026/4/18 3:53:24

C语言多线程编程:用mutex解决数据竞争与死锁问题

在多线程编程中,数据竞争是一个普遍且棘手的问题。C语言本身不提供内置的并发原语,但通过POSIX线程库(pthreads)中的互斥锁(mutex),开发者可以有效保护共享资源,实现线程间的安全同步…

作者头像 李华
网站建设 2026/4/18 2:34:27

大模型微调(Fine-tuning)全解,需要了解的都在这里

1. 微调基础概念介绍 1.1 微调基本概念 大模型微调指在已有大规模预训练模型基础上,用标注数据训练,进一步优化模型表现,以适应特定任务或场景需求。 与RAG或Agent技术通过搭建工作流优化模型表现不同,微调通过修改模型参数优化…

作者头像 李华
网站建设 2026/4/18 2:25:02

一文搞懂大模型:RAG“分而治之“的工程哲学

"分而治之"是工程学中的经典思想——将复杂问题拆解为相对独立的子问题,分别解决后再统一整合。这一思想在RAG(检索增强生成)技术的设计中得到了完美体现,从知识与能力的分离,到检索与生成的协作&#xff0c…

作者头像 李华