news 2026/4/18 17:19:27

转录组如何组装,3种主流方法快速入门贴--随笔022

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
转录组如何组装,3种主流方法快速入门贴--随笔022

转录组组装实战指南:3 种主流形式

转录组组装是高通量 RNA-seq 数据分析的核心环节,不同研究场景(有无参考基因组、研究物种类型)需选择适配的组装策略。本文梳理了Trinity 无参考组装、Trinity 有参考引导组装、Hisat2+Stringtie 参考基因组组装三种主流形式,全程保留原始代码与核心参数,仅做逻辑润色和实操解读,新手可直接复制运行。

01 Trinity 无参考基因组组装(De novo)

Trinity安装与使用-Trinity-v2.15.1(bioinfomatics tools-006)-CSDN博客

StringTie v2.2.3安装与使用-生物信息学工具25_stringtie安装-CSDN博客

梨泛转录组-文献精读145_epav 鉴定和表征是什么-CSDN博客

RNA-seq通用代码-生物信息学pipeline001_rnaseq分析代码-CSDN博客

rna_seq_pipeline.py-python002_python rna-seq-CSDN博客

适合无参考基因组 / 基因组质量差的物种(如非模式生物、新测序物种),也是真菌 / 细菌等小基因组的首选(需加特定参数),核心是基于 k-mer 拼接出完整转录本,后续可通过去冗余、筛选最长转录本优化结果。

1.1 核心参数说明

参数含义实操注意
--seqType fq指定输入序列格式为 fastq若为 fasta 格式则改为fa
--CPU 64调用 CPU 核心数按需调整,建议≥16,越多越快
--max_memory 500G最大使用内存小数据可设为 100G/200G,避免内存不足报错
--full_cleanup组装完成后删除中间文件节省磁盘空间,建议添加
--jaccard_clip高基因密度物种专用(真菌 / 细菌)小基因组必须加,避免过度拼接

1.2 不同测序数据的组装指令

(1)双端测序数据(最常用)
Trinity --seqType fq --left reads_1.fq --right read_2.fq --output trinity_tdn_out --CPU 64 --full_cleanup --max_memory 500G # 真菌/细菌小基因组需添加--jaccard_clip Trinity --seqType fq --left reads_1.fq --right read_2.fq --output trinity_tdn_out --CPU 64 --full_cleanup --max_memory 500G --jaccard_clip
(2)单端测序数据
Trinity --seqType fq --single reads.fq --output trinity_tdn_out --CPU 64 --full_cleanup --max_memory 500G
(3)单双端数据结合(特殊场景)

需先合并数据(合并方法参考:https://github.com/trinityrnaseq/trinityrnaseq/wiki/How-do-I-combine-reads%3F),再运行组装:

Trinity --seqType fq --single combined_reads.fastq --no_normalize_reads --run_as_paired --output rinity_tdn_out_denovo --CPU 64 --full_cleanup --max_memory 500G

1.3 组装后优化(关键步骤)

(1)去除冗余序列(CD-hit-est)

组装结果会存在重复转录本,需用cd-hit-est去冗余,参数-c 0.9表示序列相似度≥90% 即判定为冗余:

cd-hit-est -i trinity_tdn_out_denovo.Trinity.fasta -o new.fa -c 0.9 -n 10 -M 0 -T 0 1>cdhit.log 2>&1
  • -M 0:不限制内存使用;-T 0:自动调用所有可用 CPU;日志输出到cdhit.log,方便排查报错。
(2)提取 accession 号(后续注释用)
~/software/PASApipeline.v2.5.3/misc_utilities/accession_extractor.pl trinity_tdn_out.Trinity.fasta > tdn.accession
(3)统计组装结果(评估质量)

生成组装报告,包含转录本数量、长度分布、N50 等核心指标,是判断组装质量的关键:

~/miniconda3/envs/Trinity/bin/TrinityStats.pl trinity_tdn_out_denovo.Trinity.fasta > assembly_report.txt
(4)筛选最长转录本(构建 unigene)

同一基因会拼接出多个可变剪接本,筛选最长转录本作为 unigene,便于后续功能注释:

~/miniconda3/envs/Trinity/bin/util/misc/get_longest_isoform_seq_per_trinity_gene.pl trinity_tdn_out_denovo.Trinity.fasta > unigene.fasta

02 Trinity 有参考基因组引导组装(Genome Guide)

适合有高质量参考基因组的物种,先将 RNA-seq 数据比对到基因组,再基于比对结果组装,精度远高于无参考组装。

2.1 前置步骤:合并多样本比对结果

若有多个样本的 bam 文件,需先合并(提高组装完整性):

samtools merge -@ 48 -o rnaseq_merge.bam \ ERR392009.sorted.bam SRR7883198.sorted.bam SRR13870117.sorted.bam
  • -@ 48:调用 48 个 CPU 线程;替换为实际样本的 bam 文件名,需是排序后的 bam(sorted.bam)。

2.2 核心组装指令

Trinity --genome_guided_bam rnaseq_merge.bam --output trinity_GG_out --genome_guided_max_intron 100000 --CPU 48 --full_cleanup --max_memory 500G
  • --genome_guided_max_intron 100000:设置最大内含子长度为 100kb,适配大多数真核生物(植物 / 动物可按需调整,如植物设为 50000)。

2.3 去冗余优化

与无参考组装一致,去除冗余序列,提升后续分析效率:

cd-hit-est -i trinity_GG_out.Trinity-GG.fasta -o new.fa -c 0.9 -n 10 -M 0 -T 0

03 Hisat2+Stringtie 组装(参考基因组最优解)

Hisat2(序列比对)+ Stringtie(转录本组装)是有参考基因组时的黄金组合,比 Trinity 有参考组装更精准,尤其适合可变剪接分析、基因表达定量。

3.1 批量处理多样本(for 循环实操)

for sample in ERR392009 SRR7883198 SRR13870117 do echo "开始处理 $sample ..." ## Step1: Stringtie组装转录本(基于比对后的sorted.bam) stringtie ${sample}.sorted.bam -o ${sample}.rnaseq.gtf -p 64 ## Step2: 合并所有样本的gtf文件(构建统一转录本集) stringtie --merge -o stringtie_transcripts.gtf gtf_files.txt -p 64 ## Step3: 提取ORF(开放阅读框)信息(编码区预测) ### 3.1 提取cDNA序列 ~/software/TransDecoder-TransDecoder-v5.7.1/util/gtf_genome_to_cdna_fasta.pl \ stringtie_transcripts.gtf genome.fasta.masked >stringtie_transcripts.fasta ### 3.2 GTF格式转GFF3(适配TransDecoder) ~/software/TransDecoder-TransDecoder-v5.7.1/util/gtf_to_alignment_gff3.pl \ stringtie_transcripts.gtf >stringtie_transcripts.gff3 ### 3.3 提取最长开放阅读框 ~/software/TransDecoder-TransDecoder-v5.7.1/TransDecoder.LongOrfs \ -t stringtie_transcripts.fasta ### 3.4 预测编码区 ~/software/TransDecoder-TransDecoder-v5.7.1/TransDecoder.Predict \ -t stringtie_transcripts.fasta ### 3.5 生成基因组水平的ORF GFF3文件 ~/software/TransDecoder-TransDecoder-v5.7.1/util/cdna_alignment_orf_to_genome_orf.pl \ stringtie_transcripts.fasta.transdecoder.gff3 \ stringtie_transcripts.gff3 \ stringtie_transcripts.fasta \ > stringtie_transcripts.fasta.transdecoder.genome.gff3 ### 3.6 筛选完整编码区的基因GFF3 grep ">" stringtie_transcripts.fasta.transdecoder.cds \ |grep "complete" |sed 's#>##' |sed 's#\s.*##' \ > stringtie_accs.txt grep -f stringtie_accs.txt stringtie_transcripts.fasta.transdecoder.genome.gff3 \ >stringtie_trandecoder.cds.complete.gff3 echo "$sample 处理完成,日志保存到 ${sample}.log" done

3.2 关键步骤解读

  1. Stringtie 组装-o指定输出 GTF 文件(转录本结构注释),-p 64调用 64 线程;
  2. GTF 合并--merge参数整合多样本的转录本,消除样本间的组装差异,构建更完整的转录本集;
  3. ORF 预测:通过 TransDecoder 完成编码区预测,筛选complete(完整 ORF)的序列,是后续蛋白功能分析的基础;
  4. 格式转换:GTF 转 GFF3 是为了适配多数功能注释工具(如 MAKER、InterProScan)的输入要求。

04 三种组装形式对比与选择建议

组装形式适用场景优势劣势
Trinity 无参考无参考基因组 / 新物种无需基因组,通用性强组装精度低,冗余度高,耗时久
Trinity 有参考引导有参考基因组,追求便捷操作简单,兼容 Trinity 生态精度低于 Hisat2+Stringtie
Hisat2+Stringtie有高质量参考基因组组装精度最高,支持可变剪接 / 定量步骤稍多,依赖基因组注释质量

实操总结

  1. 无参考基因组:优先选 Trinity 无参考组装,务必加--jaccard_clip(小基因组)、后续去冗余 + 筛选最长转录本;
  2. 有参考基因组:首选 Hisat2+Stringtie,精度更高;若追求便捷,可选 Trinity 有参考引导组装;
  3. 核心参数:CPU 和内存按需调整,小数据(<100G)可降低内存至 100-200G,避免资源浪费;
  4. 质量评估:组装后务必运行TrinityStats.pl统计结果,重点关注 N50(越高越好)、转录本长度分布、完整 ORF 比例。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:56:04

DeOldify图像上色实测:上传一张黑白照,轻松获得惊艳彩色效果

DeOldify图像上色实测&#xff1a;上传一张黑白照&#xff0c;轻松获得惊艳彩色效果 你有没有翻过家里的老相册&#xff1f;泛黄的纸页间&#xff0c;祖父穿着笔挺的中山装站在梧桐树下&#xff0c;祖母挽着发髻浅浅笑着——可那画面只有灰白&#xff0c;像被时间抽走了所有温…

作者头像 李华
网站建设 2026/4/18 8:30:19

独家披露:某汽车头部厂商MCP 2026适配内参(含PLC梯形图→结构化文本自动转换工具链),仅开放前500名自动化工程师下载

第一章&#xff1a;MCP 2026工业控制指令架构演进与适配必要性 MCP 2026&#xff08;Modular Control Protocol 2026&#xff09;是新一代面向高实时性、多域协同场景的工业控制指令架构标准&#xff0c;由IEC/ISO联合工作组于2024年正式发布。相较于前代MCP 2018&#xff0c;其…

作者头像 李华
网站建设 2026/4/18 8:55:31

计算机网络基础:Qwen3-ForcedAligner-0.6B服务端部署网络配置

计算机网络基础&#xff1a;Qwen3-ForcedAligner-0.6B服务端部署网络配置 1. 为什么网络配置是模型服务的隐形基石 部署一个语音对齐模型&#xff0c;很多人会把注意力放在GPU显存、模型加载速度或者推理精度上&#xff0c;却常常忽略一个更底层但同样关键的问题&#xff1a;…

作者头像 李华
网站建设 2026/4/18 8:55:27

Zotero PDF Translate插件:重构研究翻译工作流的完整指南

Zotero PDF Translate插件&#xff1a;重构研究翻译工作流的完整指南 【免费下载链接】zotero-pdf-translate 支持将PDF、EPub、网页内容、元数据、注释和笔记翻译为目标语言&#xff0c;并且兼容20多种翻译服务。 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-pdf-t…

作者头像 李华
网站建设 2026/4/18 8:54:46

3个秘诀让百度网盘下载速度提升10倍!亲测有效的Python加速工具

3个秘诀让百度网盘下载速度提升10倍&#xff01;亲测有效的Python加速工具 【免费下载链接】pan-baidu-download 百度网盘下载脚本 项目地址: https://gitcode.com/gh_mirrors/pa/pan-baidu-download 作为每天要处理大量设计素材的创意工作者&#xff0c;我太懂那种盯着…

作者头像 李华
网站建设 2026/4/18 8:55:07

ChatGLM-6B小白教程:轻松玩转智能对话

ChatGLM-6B小白教程&#xff1a;轻松玩转智能对话 你是不是也对智能对话模型充满好奇&#xff0c;想亲手体验一下&#xff0c;但又担心技术门槛太高&#xff0c;被复杂的部署和配置劝退&#xff1f;别担心&#xff0c;今天这篇教程就是为你准备的。我们将使用一个开箱即用的CS…

作者头像 李华