提升基因变异检测准确性的GPU加速技术与pangenome方法-程序员充电站

使用某中心Parabricks提升变异检测准确性

专为数据科学家和生物信息学家设计的某中心Parabricks是一个可扩展的基因组学二级分析软件套件。它提供GPU加速版本的开源工具，以提高分析速度和准确性，使研究人员能够更快地获得生物学见解。

最新版本Parabricks v4.6对多项功能进行了改进，最显著的是支持某机构的DeepVariant和DeepSomatic 1.9。这包括了DeepVariant的pangenome-aware模式，该模式提高了跨遗传变异和不同人群分析的准确性。

新功能：

DeepVariant和DeepSomatic 1.9，包括pangenome-aware DeepVariant。
DeepSomatic长读长和全外显子组测序支持。
STAR的quantMode，包括GeneCounts。

改进功能：

STAR加速：在两个某中心RTX PRO 6000 GPU上，相比仅使用CPU的解决方案，速度提升近8倍。
为Mutectcaller增加了额外参数，包括线粒体模式。

使用DeepVariant和DeepSomatic 1.9改进变异检测

变异检测是基因组分析的关键步骤。它能识别样本基因组（例如个体或群体）与参考基因组之间的差异。理解这些遗传差异有助于科学家更好地了解疾病和潜在的治疗方法。

目前有各种各样的工具用于变异检测，包括来自Broad研究所的基因组分析工具包（GATK）中的HaplotypeCaller和Mutect2。除了GATK的行业标准工具外，基于深度学习的变异检测工具也已得到广泛应用。

由某机构开发的DeepVariant和DeepSomatic使用深度学习来支持变异识别。对于种系数据，DeepVariant确定遗传性变异。而DeepSomatic则显示了体细胞变异如何影响非遗传性突变，包括在肿瘤细胞中发现的突变。

提高变异检测的准确性至关重要，尤其是在考虑遗传多样性时。根据最近的一篇论文，与基于线性参考的DeepVariant相比，pangenome-aware DeepVariant在所有设置下将错误减少了高达25.5%。

结合Giraffe和DeepVariant v1.9进一步提升准确性

传统的线性参考，包括基因组参考联盟人类构建38（GRCh38），仅基于少数个体的DNA构建，为基因组研究提供了一个通用坐标系统。然而，这些参考并未捕捉到更广泛人类群体中存在的全部遗传变异谱。因此，重要的亚群体多样性往往未被充分代表。这可能会给后续分析带来偏差，例如读段比对和变异检测，可能会遗漏或错误解释与祖先或疾病相关的重要遗传差异。

与线性参考不同，pangenome通过整合来自不同个体的多个高质量基因组来构建，捕捉了人类群体中更广泛的遗传变异范围。这种综合方法减少了参考偏差，改善了跨人群的变异检测，并支持更准确和公平的基因组分析。由加州大学圣克鲁兹分校研究人员开发的软件工具Giraffe，能够实现对pangenome图的高效读段比对。

Giraffe将基因组序列比对到参考pangenome，而不是传统的线性参考，从而提高了跨不同人群的变异检测准确性。将Giraffe与DeepVariant的pangenome-aware模式（现已在Parabricks v4.6中提供）相结合，不仅提高了已识别变异的准确性，还提供了Parabricks GPU加速的速度。

准确性：根据pangenome-aware DeepVariant的结果，开源pangenome-aware DeepVariant比BWA更准确，获得了以下F1分数：

Pangenome-aware DeepVariant: SNP: 0.9981 | Indel: 0.9971
BWA: SNP: 0.9973 | Indel: 0.9968

速度：利用Parabricks中的GPU加速，Giraffe和DeepVariant的运行时间实现了超过14倍的加速，对比在四个某中心RTX PRO 6000 GPU上使用仅CPU的Giraffe和pangenome-aware模式的DeepVariant。

开始使用Giraffe和DeepVariant

Parabricks的现有用户可以在提供以下文件后运行DeepVariant：

来自Giraffe索引文件的适当FASTA参考文件。
运行Giraffe后输出的BAM文件和图形GPZ文件。

有关获取这些文件的说明，请参阅专注于在变异检测工作流中使用Giraffe的Parabricks Giraffe文档。以下步骤也将指导您完成整个过程。

步骤 1
运行基线VG以从图形生成FASTA文件。
请注意，使用基线VG的步骤1只需运行一次。一旦您从图形获得了FASTA文件，就不需要再次运行步骤1。相反，运行步骤2和步骤3来处理更多的FASTQ样本。

# 提取与路径列表对应的序列到FASTA文件dockerrun --rm --volume$(pwd):/workdir\--workdir /workdir\quay.io/vgteam/vg:v1.59.0\vg paths -x hprc-v1.1-mc-grch38.gbz -p hprc-v1.1-mc-grch38.paths.sub -F>hprc-v1.1-mc-grch38.fa# 索引fasta文件samtools faidx hprc-v1.1-mc-grch38.fa

步骤 2
接下来，正常运行Giraffe。

# 此命令假定所有输入都在当前工作目录中，所有输出也放置在同一位置。dockerrun --rm --gpus all --volume$(pwd):/workdir --volume$(pwd):/outputdir\--workdir /workdir\nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1\pbrun giraffe --read-group"sample_rg1"\--sample"sample-name"--read-group-library"library"\--read-group-platform"platform"--read-group-pu"pu"\--dist-name /workdir/hprc-v1.1-mc-grch38.dist\--minimizer-name /workdir/hprc-v1.1-mc-grch38.min\--gbz-name /workdir/hprc-v1.1-mc-grch38.gbz\--ref-paths /workdir/hprc-v1.1-mc-grch38.paths.sub\--in-fq /workdir/${INPUT_FASTQ_1}/workdir/${INPUT_FASTQ_2}\--out-bam /outputdir/${OUTPUT_BAM}

步骤 3
最后，这三个文件可以用作DeepVariant的输入。使用来自步骤2的BAM、来自步骤1的FASTA以及图形GBZ文件运行pangenome_aware_deepvariant。

# Pangenome_aware_deepvariant# 此命令假定所有输入都在当前工作目录中，所有输出也放置在同一位置。dockerrun --rm --gpus all --volume$(pwd):/workdir --volume$(pwd):/outputdir\--workdir /workdir\nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1\pbrun pangenome_aware_deepvariant\--ref /workdir/hprc-v1.1-mc-grch38.fa\--pangenome /workdir/hprc-v1.1-mc-grch38.gbz\--in-bam /workdir/${INPUT_BAM}\--out-variants /outputdir/${OUTPUT_VCF}

STAR改进：包括quantMode GeneCounts

除了DeepVariant的pangenome-aware模式外，Parabricks的最新版本还包括对STAR的改进。STAR是一个用于加速RNA测序比对的工具。它因其在跨测序平台的RNA-seq数据上的速度和准确性以及对大型数据集的可扩展性而特别有用。STAR已可在Parabricks中使用，并且得益于GPU加速，其速度得到进一步提升——在两个某中心RTX PRO 6000 GPU上，相比仅使用CPU的解决方案，实现了近8倍的加速。

在Parabricks的最新版本中，quantMode GeneCounts是STAR的一个新可用选项，对于基因表达、质量控制、标准化和数据整合等多种应用非常有价值。在比对的映射步骤中，quantMode GeneCounts能够快速生成基因水平的读段计数。

开始使用STAR

QuantMode GeneCounts可以作为参数添加到STAR中运行。示例命令如下。

dockerrun --rm --gpus all --volume$(pwd):/workdir --volume$(pwd):/outputdir\--workdir /workdir\nvcr.io/nvidia/clara/clara-parabricks:4.6.0-1\pbrun rna_fq2bam\--genome-lib-dir${GENOME_DIR}\--in-fq${FASTQ1}${FASTQ2}\--output-dir${OUT_DIR}\--ref${GENOME}\--out-bam${OUT_BAM}\--num-gpus${GPU_NUM}\--quantMode GeneCounts