news 2026/4/18 5:18:59

空间转录组上游(Space Ranger)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
空间转录组上游(Space Ranger)

引言

空间转录组(Spatial Transcriptomics, ST)技术在传统转录组与单细胞转录组的基础上,引入了空间位置信息,使研究者能够在组织结构背景下解析基因表达模式。相较于下游分析中对空间结构、生物学机制的深入挖掘,上游分析的核心目标在于:将测序原始数据转换为高质量、可用于空间建模和生物学解释的表达矩阵与空间坐标信息

空间转录组的上游分析直接决定了后续空间聚类、空间差异基因、空间通讯等分析的可靠性。因此,系统、规范地理解其上游分析流程具有重要意义。

空间转录组数据类型概述

不同空间转录组技术路线,其上游数据形态与处理方式存在一定差异,但总体可归纳为以下几类:

1. 基于捕获芯片的空间转录组(如 10x Visium)

  • 原始数据:FASTQ

  • 空间信息来源:芯片上固定位置的 barcode

  • 特点:一个 spot 通常包含多个细胞

2. 原位杂交/成像型空间转录组(如 MERFISH、seqFISH)

  • 原始数据:显微图像

  • 空间信息来源:细胞或分子级坐标

  • 特点:空间分辨率高,基因数相对受限

3. 组织切片测序型(如 Slide-seq、Stereo-seq)

  • 原始数据:FASTQ + bead 坐标文件

  • 特点:高分辨率、大规模空间点位

本文重点以尤其是 10x Visium为代表,系统介绍其上游分析流程,需要sratoolkit与Space Ranger

安装

sratoolkit官网安装

01. Downloading SRA Toolkit · ncbi/sra-tools Wiki · GitHubhttps://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit

下载的为Ubuntu Linux X64 wget -c https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.3.0/sratoolkit.3.3.0-ubuntu64.tar.gz 解压即可 tar -zxvf sratoolkit.3.3.0-ubuntu64.tar.gz 可选择添加到环境变量 export PATH=$PATH:$PWD/sratoolkit.3.3.0-ubuntu64/bin

Space Ranger官网安装

Space Ranger | Official 10x Genomics Supporthttps://www.10xgenomics.com/support/software/space-ranger/latest

下载Space Ranger wget -O spaceranger-4.0.1.tar.gz "https://cf.10xgenomics.com/releases/spatial-exp/spaceranger-4.0.1.tar.gz?Expires=1766082461&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA&Signature=ehvI5hDYu5uCFb36xyvl-97DQS6mnL506M58Xf5uVC4q33IHmkqx8qx81Ifm3-xAMhKz453qkl~onEejVL~rVQsW4Dtf32sJkDyTBoQtG8WDzTJuoGQk9uIpszGovFixWWuluoxvH2bYAJZH90yNTVz746Iq3DXuveCD0j2gEUiB20~DTPfPkWoMPACy1B2Vd2l2kUE-aG2NcCLtgvvYA0ktj9~SEf299BaD19tkZlWbIvQPbkJomCIG4csLr~69UmTKjOpr~K-1TNw1gc1cq429uREdJJMMlzd6PWfgaIPZu9wLCUJJVcBCcyuYtiJmFUUa79NTInJXei1RbMWPvQ__" 解压 tar -zxvf spaceranger-4.0.1.tar.gz 添加到环境变量 export PATH=$PATH:$PWD/spaceranger-4.0.1-ubuntu64/bin 下载参考基因组 人 wget "https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2024-A.tar.gz" 解压 tar -zxvf refdata-gex-GRCh38-2024-A.tar.gz Mouse wget "https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCm39-2024-A.tar.gz" Rat wget "https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mRatBN7-2-2024-A.tar.gz"

下载数据

选择的数据SRR编号为SRR27277620,GEO编号为GSM7980872,组织类型:甲状腺癌,临床分型:ATC

空间转录组的上游分析不仅需要fastq文件,还需要一个HE组织染色图像

图像一般都在GEO数据库的补充文件中

第四个下载解压即可

prefetch --max-size 100G SRR27277620 将下载的sra转为fastq fasterq-dump SRR27277612.sra -O fastq_store -e 20 --include-technical 修改名字 mv SRR27277612_1.fastq SRR27277612_S1_L001_R1_001.fastq mv SRR27277612_2.fastq SRR27277612_S1_L001_R2_001.fastq

注意sra转为fastq过程中:--include-technical→ 保留空间转录组必需的技术读段

转完格式之后,必须将fastq名称修改为Space Ranger规定的格式

<样本名>_<S编号>_<Lane编号>_<Read类型>_<001>.fastq.gz
组成部分格式示例含义说明必需性Spaceranger 匹配规则
样本名PTC,sample1样本标识符,与--sample参数一致必需通过--sample指定前缀
S编号S1,S2样本在测序中的编号通常必需自动识别,无需指定
Lane编号L001,L002测序 lane 编号通常必需自动按 lane 分组配对
Read类型R1,R2,I1读段类型必需自动配对 R1↔R2
文件编号001,002文件批次编号通常为001自动识别

一般只有R1和R2两个fastq文件,也有的会有I1文件

文件类型标准命名主要功能内容长度在空间转录组中的用途
R1 (Read 1)*_R1_*.fastq.gz空间barcode + UMI28 bp (Visium v1)识别spot位置和分子计数
R2 (Read 2)*_R2_*.fastq.gzcDNA序列50-150 bp基因识别和定量
I1 (Index 1)*_I1_*.fastq.gz样本index8-10 bp多样本混合时区分样本

上游分析

前期处理好之后就开始进行空转上游处理

在运行spaceranger count时,组织图像与芯片坐标的对齐(image alignment)是一个关键步骤。Space Ranger 实际上提供了两种对齐策略:

  1. 自动对齐(Automatic alignment):由 Space Ranger 在 count 过程中自动完成
  2. 手动对齐(Manual alignment):借助 Loupe Browser 预先完成人工校准,再由 Space Ranger 读取结果

自动对齐

spaceranger count \ --id=ATC \ --transcriptome=/home/duyo/data_251215/huma_data/refdata-gex-GRCh38-2024-A \ --fastqs=/home/duyo/data_251215/SRR27277612data/SRR27277612/fastq_store/ \ --sample=SRR27277612 \ --image=./GSM7980872_ATC-1_visium_tissue_hires_image.png \ --unknown-slide visium-1 \ --localcores=16 \ --localmem=64 \ --create-bam false
  • --id分析任务名称,同时作为输出目录名。
  • --transcriptome指定 10x 官方格式的人类参考转录组(GRCh38)。
  • --fastqsFASTQ 文件所在目录。
  • --sample指定需要分析的样本名,用于匹配 FASTQ 文件。
  • --image组织切片图像(H&E),用于空间对齐和 in-tissue 判定。
  • --unknown-slide指定芯片类型为标准 10x Visium(无芯片序列号时使用)。

如果知道芯片编号可以使用 --slide=V19J01-123

不知道芯片序列需要使用--unknown-slide选择芯片的类型,后面必须指定以下之一

  1. visium-1→ 第一代 Visium 载玻片(标准 6.5mm 捕获区)
  2. visium-2→ 第二代 Visium 载玻片(新版设计)
  3. visium-2-large→ 第二代大尺寸载玻片
  4. visium-hd→ 高分辨率 Visium HD 载玻片
  • --localcores使用多少个 CPU 核心进行计算。
  • --localmem分配多少内存供分析使用。
  • --create-bam false不生成 BAM 文件,以节省磁盘空间。

当看到这几行时说明运行成功了!!

手动对齐

需要下载Loupe Browser进行对齐,下载连接与教程连接

Loupe Browser | Official 10x Genomics Supporthttps://www.10xgenomics.com/support/software/loupe-browser/latest对齐之后会输出一个json文件,使用--loupe-alignment指定该文件

例如

spaceranger count \ --id=ATC \ --transcriptome=/home/duyo/data_251215/huma_data/refdata-gex-GRCh38-2024-A \ --fastqs=/home/duyo/data_251215/SRR27277612data/SRR27277612/fastq_store/ \ --sample=SRR27277612 \ --image=./GSM7980872_ATC-1_visium_tissue_hires_image.png \ --unknown-slide visium-1 \ --localcores=16 \ --localmem=64 \ --create-bam false \ -loupe-alignment=SRR27277612.json

输出内容说明

不同的芯片格式输出内容不同(所以分析时最好有芯片序列号),参考官网说明

Understanding Space Ranger Outputs | Official 10x Genomics Supporthttps://www.10xgenomics.com/support/software/space-ranger/latest/analysis/outputs/output-overview

使用芯片Visium HD 或 Visium HD'3

文件或目录名称描述
barcode_mappings.parquet该文件高效存储空间映射信息,本质上作为CSV文件,追踪Visium HD数据中条码(方块)、核、单元和箱之间的关系。详情请参见分段输出页面。
binned_outputs默认情况下,该目录有三个子目录:、、和。每个目录包含 、 、 、 和 。该目录仅提供8微米和16微米的频箱尺寸。仅提供8微米的箱体尺寸。仅提供2微米分辨率。square_002umsquare_008umsquare_016umfiltered_feature_bc_matrixraw_feature_bc_matrixspatialfiltered_feature_bc_matrix.h5raw_feature_bc_matrix.h5analysiscloupe.clouperaw_probe_bc_matrix.h5
cloupe_008um.cloupe与 .cloupe 文件的 8 微米 bin 尺寸有对称链接
cloupe_cell.cloupe与.cloupe文件的单元格分段的对称链接
feature_slice.h5一种专为 Visium HD 设计的新文件类型,支持高效获取单个或多个基因的 2 微米分辨率图像切片。详情请见此页面。
metrics_summary.csv以CSV格式运行汇总指标
molecule_info.h5包含所有含有有效条形码、有效UMI且高度确定分配给基因条码或bin的分子的每分子信息。
probe_set.csv输入探针集的副本,参考CSV文件。
segmented_outputs包含分段输出的文件夹。包含 , , , , , 和 。详情请参见分段输出页面。analysiscell_segmentations.geojsoncloupe.cloupefiltered_feature_cell_matrixfiltered_feature_cell_matrix.h5graphclust_annotated_cell_segmentations.geojsongraphclust_annotated_nucleus_segmentations.geojsonnucleus_segmentations.geojsonraw_feature_cell_matrixraw_feature_cell_matrix.h5spatial
spatial包含数据空间性的输出文件夹。更多详情请参见空间输出页面。
web_summary.html以HTML格式运行汇总指标和图表

使用Visium v1/v2

文件或目录名称描述
web_summary.html以HTML格式运行汇总指标和图表
cloupe.cloupe放大镜浏览器可视化与分析文件
spatial/包含数据空间性的输出文件夹。
analysis/包含次级分析数据的文件夹,包括基于图的聚类和K均值聚类(K = 2-10);簇间的基因表达差异;PCA、t-SNE和UMAP降维。
metrics_summary.csv以CSV格式运行汇总指标
probe_set.csv输入探针集的副本,参考CSV文件。关于Visium FFPE和CytAssist工作流程的呈现
possorted_genome_bam.bam索引BAM文件,包含位置排序的读段,与基因组和转录组对齐,并附有条形码信息
possorted_genome_bam.bam.bai索引。如果参考转录组是从染色体非常长的基因组(>512 Mbp)生成的,Space Ranger v2.0+ 会生成索引文件。possorted_genome_bam.bampossorted_genome_bam.bam.csi
filtered_feature_bc_matrix/仅包含MEX格式的组织相关条码。矩阵中的每个元素分别是与特征(行)和条码(列)相关的UMI数量。该文件可以输入第三方软件包,允许用户作条码特征矩阵(例如过滤异常点、运行降维、规范基因表达)。
filtered_feature_bc_matrix.h5信息与HDF5格式相同。filtered_feature_bc_matrix/
raw_feature_bc_matrices/包含所有检测到的MEX格式条码。矩阵中的每个元素分别是与特征(行)和条码(列)相关的UMI数量。
raw_feature_bc_matrix.h5信息与HDF5格式相同。raw_feature_bc_matrices/
raw_probe_bc_matrix.h5包含所有检测到的条码的每个探头的UMI计数,格式为HDF5格式。仅在运行探针检测管道时生产。
molecule_info.h5包含所有含有有效条形码、有效UMI且高度置信度地分配给基因或蛋白质条码的分子的每分子信息。该文件对于包括 、 和 在内的其他分析管道是必需的。spacerangeraggrtargeted-comparetargeted-depth

但是一般分析完成之后,我们所需的下游分析所需文件主要集中于outs文件

outs ├── aggregation.csv ├── aggr_tissue_positions.csv ├── analysis │ ├── clustering │ ├── diffexp │ ├── pca │ ├── tsne │ └── umap ├── cloupe.cloupe ├── filtered_feature_bc_matrix │ ├── barcodes.tsv.gz │ ├── features.tsv.gz │ └── matrix.mtx.gz ├── filtered_feature_bc_matrix.h5 ├── spatial │ ├── LV123 │ │ ├── scalefactors_json.json │ │ ├── tissue_hires_image.png │ │ └── tissue_lowres_image.png │ ├── LB456 │ │ ├── scalefactors_json.json │ │ ├── tissue_hires_image.png │ │ └── tissue_lowres_image.png │ └── LP789 │ ├── scalefactors_json.json │ ├── tissue_hires_image.png │ └── tissue_lowres_image.png ├── summary.json └── web_summary.html
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 23:40:37

解码康师傅源头活水:从用户共鸣到价值引领的年轻化新未来

在Z世代成为消费主力、饮品市场竞争进入“存量博弈”的当下,如何精准捕捉年轻群体需求、构建长效品牌联结,成为行业破局的核心命题。作为深耕饮品行业三十余年的国民品牌,康师傅饮品早已跳出“产品叫卖”的传统营销模式,以“用户洞察为锚、场景渗透为脉、价值共创为核”,构建起…

作者头像 李华
网站建设 2026/4/18 1:16:11

如何将外部镜像文件导入华为云国际站代理商的IMS服务?

将外部镜像文件导入华为云国际站代理商的 IMS 服务&#xff0c;流程和直接在华为云国际站操作 IMS 导入一致&#xff0c;代理商可协助完成全流程&#xff0c;核心是完成镜像准备、上传至 OBS 桶、注册为私有镜像三步&#xff0c;具体操作步骤如下&#xff1a;准备符合规范的外部…

作者头像 李华
网站建设 2026/4/18 5:16:27

SPI注入

简单来说&#xff1a;Api&#xff0c;你调用框架spi&#xff0c;框架调用你一、先记住这四个角色可以先记住这四个角色&#xff1a;Java SPI&#xff1a;JDK 级插件发现&#xff08;最原始&#xff09;Spring Boot SPI&#xff1a;框架级插件发现&#xff08;带生命周期&#x…

作者头像 李华
网站建设 2026/4/15 16:24:27

ARM 汇编指令:MOV

ARM 汇编指令&#xff1a;MOV 本文来自于我关于 ARM 汇编指令系列文章。欢迎阅读、点评与交流~ 1、ARM 汇编指令&#xff1a;MOV 2、ARM 汇编指令&#xff1a;LDR 3、ARM 汇编指令&#xff1a;STR 4、ARM 汇编指令&#xff1a;MRS 和 MSR 5、ARM 汇编指令&#xff1a;ORRS 在 A…

作者头像 李华
网站建设 2026/4/16 1:50:07

第 8 篇 目标检测(下):YOLO与SSD的“一步到位”哲学

《人工智能AI之计算机视觉:从像素到智能》 模块二:核心感知(上)——2D世界的精细化理解 朋友们好。 在上一篇里,我们聊了R-CNN家族。那是一群像严谨的考古学家一样的算法,讲究“先勘探(找候选区),再鉴定(分类和微调)”。听起来特别靠谱,对吧?这种“两步走”的逻…

作者头像 李华