NCBI 就是National Center for Biotechnology Information,美国 NIH 下面的国家生物技术信息中心。它的作用可以理解成:一个大型生命科学/生物信息公共平台,提供数据库、网页检索、下载、API 和命令行工具,里面包含基因、基因组、变异、文献、表达数据等很多资源。
你前面看的ClinVar,就是 NCBI 旗下的一个数据库。ClinVar 自己说明,数据既可以在网页上看,也可以通过FTP 下载,还可以通过API访问。
先区分:NCBI 不是一个单独“数据集”,它更像一个“总平台”。里面常见的资源有:
- ClinVar:临床相关变异解释库。
- Gene / Genome / Taxonomy:基因、基因组和物种分类信息。
- GEO:基因表达和功能基因组学数据仓库。
- NCBI Datasets:一个统一的下载入口和工具,适合下载基因、基因组、序列、注释和元数据。
下载链接位于:
https://www.ncbi.nlm.nih.gov/home/download/
直接按照FTP的方式看一下有哪些数据:
https://ftp.ncbi.nlm.nih.gov/
一、你做基因组/变异任务最常会用到的
pub/
这是最常见的公共发布目录。很多数据库真正给用户批量下载的文件都放在这里。
比如你前面看的ClinVar VCF,就是在pub/clinvar/...下面。它更像“公开发行区”。
snp/
和dbSNP相关,主要是已知单核苷酸变异、小变异等。
如果你想找常见变异资源,这类目录很常见。根目录里它是独立入口。
variation/
这是更泛化的变异类资源目录。
如果你找的是“变异相关但不一定就是 dbSNP/ClinVar 单一库”的内容,可以看看这里。
genbank/
GenBank相关的序列数据。通常比 RefSeq 更“原始/更广”,是 NCBI 经典序列资源之一。就是 NCBI 的公共核酸序列数据库,收全球提交的 DNA/RNA 序列及其注释;它更像原始大仓库
refseq/
RefSeq相关,常用于参考序列、转录本、蛋白、注释等。如果你做基因、转录本、蛋白序列任务,这个目录很重要。而 RefSeq 更像整理genbank后的标准参考版
genomes/
和基因组装、物种基因组数据相关。
如果你要下载某个物种的 genome assembly、参考基因组、注释文件,常会进这里。
gene/
和NCBI Gene数据相关。
偏基因层面的整合信息。
1000genomes/
1000 Genomes Project 的数据区。
如果你在找人群遗传变异数据,这个目录就很有代表性。
giab/
GIAB,通常指Genome in a Bottle这类高质量 benchmark/reference 样本资源。
做变异检测 benchmark 时很常见。
二、表达、测序原始数据相关
geo/
GEO数据目录。
GEO 是表达谱、功能基因组学数据仓库,找 RNA-seq、microarray、表观组学实验时经常会用。(NCBI FTP)
sra/
SRA(Sequence Read Archive),测序原始 reads 的大仓库。
如果你要原始 FASTQ/BAM/测序运行数据,常常会从这里对应到 SRA 资源。NCBI 官方下载页也专门给了 SRA download 参考。(NCBI FTP)
epigenomics/
表观基因组相关资源。(NCBI FTP)
eqtl/
eQTL 相关资源。
你前面正好问过 eQTL,这个目录名就很直白。(NCBI FTP)
三、项目级元数据
bioproject/
BioProject数据。
它更像项目层级的“总编号/总入口”,把一个研究项目下的样本、测序、组学资源串起来。(NCBI FTP)
biosample/
BioSample数据。
这是样本层级的元数据,比如样本来自什么组织、什么个体、什么处理条件。(NCBI FTP)
这两个经常一起出现:
BioProject:项目级
BioSample:样本级
四、文献、检索、结构、化学
pubmed/
PubMed 相关资源。偏文献。(NCBI FTP)
blast/
BLAST 相关数据库或支持文件。
如果你做序列比对,这类目录很常见。(NCBI FTP)
mmdb/
结构相关资源,MMDB 是分子结构数据库方向。(NCBI FTP)
pubchem/
PubChem 化学分子资源。
如果你做化学、小分子、药物信息,这个目录会有用。(NCBI FTP)
五、工具、格式、测试文件
toolbox/
一些下载/处理工具相关内容。(NCBI FTP)
asn1-converters/、ncbi-asn1/
和 NCBI 的 ASN.1 数据格式有关。
一般普通用户不太常直接碰,除非你在处理 NCBI 特定格式。(NCBI FTP)
bigwig/
bigWig 相关资源或示例区。(NCBI FTP)
1GB、10GB
这是测试下载用的大文件,通常用于测速或验证下载链路,不是生物学数据集。看文件名和大小就能判断出来。(NCBI FTP)
README.ftp
根目录说明文件。
通常会介绍 FTP 使用方式或一些约定。(NCBI FTP)
你现在最实用的理解方式
你不用逐个记全部目录,先记这几个就够了:
找 ClinVar / 公共发布文件→
pub/找参考序列/转录本→
refseq/找 GenBank 序列→
genbank/找 genome assembly→
genomes/找原始测序数据→
sra/找表达数据→
geo/找项目/样本元数据→
bioproject/、biosample/找已知变异→
snp/、variation/找 1000 Genomes→
1000genomes/(NCBI FTP)
对你当前方向,最相关的是哪些
你现在做基因组模型、变异、剪接这类任务,通常最值得关注的是:
pub/:因为 ClinVar 等常用公开文件常在这里refseq/:拿参考转录本、蛋白、注释genomes//genbank/:拿参考基因组和装配snp//variation/:拿变异资源sra//geo/:拿实验原始数据和表达数据1000genomes/、giab/:拿 benchmark 或人群资源 (NCBI FTP)