news 2026/4/18 10:39:53

NC文章复现 | 单细胞和空间转录组学揭示前列腺癌中棒状细胞的免疫抑制效应(一):单细胞数据预处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
NC文章复现 | 单细胞和空间转录组学揭示前列腺癌中棒状细胞的免疫抑制效应(一):单细胞数据预处理

搜索文献,发现一篇非常好的单细胞和空间转录组学联合分析的好文章,带有全套复现代码。从今天开始,我们就来系统学习一下。文章的题目是:Single cell and spatial transcriptomics highlight the interaction of club-like cells with immunosuppressive myeloid cells in prostate cancer。代码托管在 Github:https://github.com/akiviaho/ST-prostate

文章的主要内容前面已经作了简要介绍:

全套复现代码 | 单细胞和空间转录组学,揭示前列腺癌耐药性的新驱动因素

本研究揭示了棒状细胞导致的前列腺癌耐药恶性循环,如下图所示:

如果你对这篇文章的复现感兴趣,可以加我微信:usegalaxy,拉你入群一块交流。

我们先来看一下文章用到的主要数据。

文章数据

该研究涉及空间转录组(ST)、单细胞转录组(scRNA-seq)参考集及外部验证数据。

  1. 1. 空间转录组数据 (ST):
    ◦ 发现队列:包含 80 个新鲜冷冻组织切片(来自 56 名患者),涵盖良性(BPH)、初治(TRNA)、新辅助治疗(NEADT)和去势抵抗(CRPC)阶段。数据已上传至 GEO,登录号为 GSE278936。
    ◦ 验证队列:来自 8 名初治患者的 32 个切片。数据存储在 EGA,登录号为 EGAD50000000603。
    ◦ 转移癌数据:包含 4 个转移灶样本(盆腔淋巴结、肝、心包、硬脑膜)。

  2. 2. 单细胞参考图谱 (scRNA-seq Reference):
    ◦ 研究整合了多项已发表的数据集(共 98 个样本、64 名患者、223,881 个细胞)来定义 26 种细胞状态。
    ◦ GEO 登录号:GSE137829, GSE141445, GSE176031, GSE185344, GSE181294;以及 SRA: PRJNA699369 和 Broad Institute 研究 SCP1244。

  3. 3. 外部 Bulk 验证数据:
    ◦ TCGA-PRAD 和 SU2C-PCF (mCRPC) 队列

数据预处理

import numpy as np import pandas as pd import scanpy as sc import anndata as ad from pathlib import Path import glob import warnings warnings.filterwarnings('ignore') import os os.chdir('/pub/sci-paper/2024_spatial_prostate')

Formatting Dong et al. 2020 data

我们先下载 dong_2020 参考数据,GEO 编号:GSE137829。需要注意的是,这个数据的 Series Matrix File(s) 文件中只有注释信息,而表达数据存在于补充文件 GSE137829_RAW.tar。解压后,得到 6 个.txt 文件:

galaxy@galaxy:/pub/sci-paper/2024_spatial_prostate/sc-reference/dong_2020$ ll -lsh *.txt 179M -rw-rw-r-- 1 galaxy galaxy 179M Sep 23 2019 GSM4089151_P1_gene_cell_exprs_table.txt 63M -rw-rw-r-- 1 galaxy galaxy 63M Sep 23 2019 GSM4089152_P2_gene_cell_exprs_table.txt 68M -rw-rw-r-- 1 galaxy galaxy 68M Sep 23 2019 GSM4089153_P3_gene_cell_exprs_table.txt 72M -rw-rw-r-- 1 galaxy galaxy 72M Sep 23 2019 GSM4089154_P4_gene_cell_exprs_table.txt 469M -rw-rw-r-- 1 galaxy galaxy 469M Aug 5 2020 GSM4711414_P5_gene_cell_exprs_table.txt 436M -rw-rw-r-- 1 galaxy galaxy 436M Aug 5 2020 GSM4711415_P6_gene_cell_exprs_table.txt

接着从文章的附件中下载注释文件:

wget https://static-content.springer.com/esm/art%3A10.1038%2Fs42003-020-01476-1/MediaObjects/42003_2020_1476_MOESM4_ESM.xlsx

稍加整理后开始合并样本数据(代码有适当调整):

import numpy as np import pandas as pd import scanpy as sc import anndata as ad from pathlib import Path import glob import warnings warnings.filterwarnings('ignore') import os os.chdir('/pub/sci-paper/2024_spatial_prostate') # Formatting Dong et al. 2020 data sc_files = glob.glob('sc-reference/dong_2020/*txt') dong_annot = pd.read_csv('sc-reference/dong_2020/dong_2020_annot.csv',sep=',',index_col=0) dong_annot = dong_annot.rename(columns={'CellType':'celltype_orig'}) # Download the files into a list and concatenate together adata_list = [] for file in sc_files: s_abbr = '_'.join(file.split('/')[2].split('_')[0:2]) df = pd.read_csv(file, sep='\t', index_col=1) df = df.iloc[:, 1:] adata = ad.AnnData(df.T) #### ADDING METADATA #### adata.obs_names = s_abbr + '_' + adata.obs_names meta = adata.obs.copy() meta['sample'] = s_abbr meta['patient'] = s_abbr meta = meta.merge(dong_annot,how='left',left_index=True,right_index=True) meta['phenotype'] = 'CRPC' meta['dataset'] = 'dong_2020' adata.obs = meta.copy() ########## adata.obs_names_make_unique() # Since the genes were originally named with ENSEMBL ID, we have to make them unique. adata.var_names_make_unique() adata_list.append(adata) adata_concat = ad.concat(adata_list, join='outer', fill_value=0) adata_concat.obs adata_concat.write('sc-reference/dong_2020/adata_obj.h5ad')

好了,我们今天先整理到这里,明天见~

推荐阅读

中国银河生信云平台(UseGalaxy.cn)致力于零代码生信分析。平台拥有海量计算资源、3000 多个生信工具和数十条生信流程,并且为用户提供 200G 免费存储空间。进群交流请先加 usegalaxy 为好友。我们还为进阶用户提供高质量培训课程:

RNA-seq数据分析实战 | 2026年第1期,开启你的生信学习之旅

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 7:14:01

Dify平台小说章节续写功能用户满意度调查

Dify平台小说章节续写功能用户满意度调查 在网文创作节奏日益加快的今天,作者们面临的不仅是灵感枯竭的压力,还有如何维持剧情连贯、角色统一和风格稳定的现实挑战。尤其对于日更数章的连载作家而言,每一章都必须精准承接前情、推动主线、埋设…

作者头像 李华
网站建设 2026/4/18 7:53:13

Open-AutoGLM性能优化全攻略:让ChatGPT响应速度提升300%

第一章:Open-AutoGLM性能优化全攻略:让ChatGPT响应速度提升300%通过合理配置推理引擎与模型压缩策略,Open-AutoGLM可在不损失精度的前提下显著提升响应效率。以下关键优化手段已在多个生产环境中验证,平均延迟从1200ms降至300ms以…

作者头像 李华
网站建设 2026/4/18 8:37:46

【Open-AutoGLM 性能优化黄金法则】:提升推理效率300%的4个关键技术

第一章:Open-AutoGLM 性能优化概述 Open-AutoGLM 作为一款开源的自动推理语言模型框架,其性能表现直接影响到推理延迟、吞吐量和资源利用率。在高并发与低延迟并重的应用场景中,对模型推理流程进行系统性优化尤为关键。性能优化不仅涉及模型结…

作者头像 李华
网站建设 2026/4/18 8:19:01

使用Dify构建脑筋急转弯问答系统

使用Dify构建脑筋急转弯问答系统 在AI技术日益普及的今天,越来越多的应用开始尝试将大语言模型(LLM)融入日常互动场景。但一个现实问题是:尽管模型“知识渊博”,却常常答非所问——尤其面对像“什么东西越洗越脏&#…

作者头像 李华
网站建设 2026/4/18 8:28:07

HTTP 缓存详解

HTTP缓存是提升Web性能的关键技术,通过将资源保存在客户端或代理服务器上,减少重复请求。核心机制分为强缓存(直接使用本地副本)和协商缓存(需服务器验证),通过Expires、Cache-Control、ETag等头…

作者头像 李华
网站建设 2026/4/18 8:15:06

Dify镜像在企业AI转型中的核心价值与应用场景

Dify镜像在企业AI转型中的核心价值与应用场景 在今天的数字化浪潮中,越来越多的企业意识到:大模型不是未来的技术,而是当下必须掌握的生产力工具。然而现实却很骨感——许多团队投入大量资源尝试构建AI应用,最终却被困在提示词调优…

作者头像 李华