news 2026/4/18 3:29:46

Python---pandas

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Python---pandas

一、Pandas 显示设置 (Option)

这些命令决定了你在屏幕上看到数据的样子,通常放在脚本的最开头。

命令解读代码示例
显示所有列别让中间的列变成省略号...pd.set_option('display.max_columns', None)
显示所有行慎用!数据量大时会刷屏pd.set_option('display.max_rows', None)
内容不截断让长文本(如路径)完整显示pd.set_option('display.max_colwidth', None)
自动换行控制防止表格太宽被强行折叠pd.set_option('display.width', 1000)
查看设置说明忘记参数怎么写时查阅说明书pd.describe_option('display')

二、 核心工具:Pandas 常用操作命令

1. 数据概览(初步体检)

在处理单细胞数据(如muxu.obs)时,先看一眼表格的结构。

importpandasaspd df=muxu.obs# 假设 df 是你的样本信息表print(df.head(10))# 查看前 10 行print(df.columns)# 查看所有的列名print(df.info())# 查看每列的类型、是否有空值print(df.shape)# 查看表格的大小(行数, 列数)
2. 数据统计(摸清家底)

统计每个类别出现的频率。

# 统计每个细胞类型有多少个细胞print(df['celltype'].value_counts())# 统计每个样本(batch)的分布print(df['batch'].value_counts())# 查看数值列(如 nCount_RNA)的平均值、标准差、最大最小值print(df['nCount_RNA'].describe())
3. 数据筛选(精准定位)

从几万行数据中选出你想要的。

# 选出所有属于 CD 组的细胞cd_data=df[df['orig.ident']=='CD']# 选出 Cortex 且 RNA 计数大于 500 的细胞filtered_data=df[(df['celltype']=='Cortex')&(df['nCount_RNA']>500)]
4. 数据修改(手术修整)

给表格增加信息或改名。

# 修改列名:把 'orig.ident' 改为 'Group'df=df.rename(columns={'orig.ident':'Group'})# 新增一列:提取细胞 ID 的前缀df['sample_prefix']=df.index.str.split('_').str[0]

三、 针对你的项目:快速检查muxu数据

你可以直接把这段代码粘贴到你的 Python 环境中运行:

importpandasaspdimportscanpyassc# 1. 极简显示配置pd.set_option('display.max_columns',None)pd.set_option('display.width',1000)# 2. 读取数据adata=sc.read_h5ad("muxu.h5ad")df=adata.obs# 3. 核心三连看print("--- 1. 前 5 行预览 ---")print(df.head())print("\n--- 2. 所有列名清单 ---")print(df.columns.tolist())print("\n--- 3. 实验设计验证 ---")if'batch'indf.columns:print(df['batch'].value_counts())else:print("警告:未发现 batch 列,可能需要手动从 index 提取!")

💡 小贴士

  • **点号.与中括号[]**df['celltype']df.celltype大部分时候是一样的,但如果列名里有空格或特殊符号,必须用['列名']
  • 不改变原数据:绝大多数 pandas 操作(如rename,dropna)默认不修改原表格,而是返回一个新表格。所以记得写成df = df.rename(...)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/9 1:53:34

Redis 面试必看:内存淘汰策略解析

文章目录Redis的回收策略(淘汰策略)?一、内存淘汰策略的背景二、Redis支持的内存淘汰策略1. **noeviction(默认策略)**配置代码:优缺点分析:2. **allkeys-lru**配置代码:优缺点分析&…

作者头像 李华
网站建设 2026/4/8 17:44:06

DUT功能验证中的断言使用技巧:实战经验分享

断言实战指南:如何用SVA为DUT验证装上“雷达眼”你有没有遇到过这样的场景?一个复杂的SoC设计在仿真中跑了整整一晚,第二天打开波形一看——数据错乱、协议违规、状态跳转异常……但问题到底出在哪一拍?是驱动没对齐,还…

作者头像 李华
网站建设 2026/4/17 8:39:41

CES 2026 | 重大更新:NVIDIA DGX Spark开启“云边端”模式

作者:毛烁算力日益增长的需求与数据搬运效率之间的矛盾,在过去两年尤为尖锐。当开源模型的参数量级迈过 100B(千亿)门槛, MoE(混合专家)架构成为主流,数百万开发者和科研人员尴尬地发…

作者头像 李华
网站建设 2026/4/10 8:32:49

Java中多线程异步调用

新启动一个或多个线程去完成所要完成的工作,主线程继续执行,互不干扰。异步场景:1、视频文件的格式转换(比较耗时);2、一般都是耗时的步骤,使用一个新的线程去完成,主线程不受限制&a…

作者头像 李华
网站建设 2026/4/12 10:34:07

ddodiag.exe文件丢失找不到问题 免费下载方法

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

作者头像 李华
网站建设 2026/4/16 19:46:51

液冷技术的未来:相变冷却、喷淋冷却等前沿技术探索

随着人工智能、大数据和云计算技术的迅猛发展,全球算力需求呈指数级增长。芯片性能提升伴随功耗急剧攀升,传统风冷技术已无法满足高功率密度服务器的散热需求。在这一背景下,液冷技术正从边缘走向主流,成为数据中心散热的新标准。…

作者头像 李华