news 2026/4/17 20:23:59

Pandas库基础概念和基础操作

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Pandas库基础概念和基础操作

Pandas 是 Python 中用于数据分析和处理最流行的开源库之一,建立在 NumPy 之上,提供了高性能、易用的数据结构和数据分析工具。它特别适合处理结构化数据(如表格型或异质型数据)。以下是 Pandas 的基础概念详细介绍:


一、核心数据结构

Pandas 主要有两个核心数据结构:

1.Series

  • 一维带标签的数组,可以保存任何数据类型(整数、字符串、浮点数、Python 对象等)。
  • 类似于带索引的 NumPy 数组。
  • 每个元素都有一个对应的标签(称为 index)。
importpandasaspd s=pd.Series([1,3,5,7],index=['a','b','c','d'])print(s)

输出:

a 1 b 3 c 5 d 7 dtype: int64

特点:

  • 自动对齐索引(在运算时非常有用)
  • 支持向量化操作
  • 可以看作是字典和数组的结合体

2.DataFrame

  • 二维表格型数据结构,类似于 Excel 表格或 SQL 表。
  • 每列可以是不同的数据类型(但同一列内类型一致)。
  • 具有行索引(index)和列索引(columns)。
df=pd.DataFrame({'Name':['Alice','Bob','Charlie'],'Age':[25,30,35],'City':['New York','Paris','Tokyo']})print(df)

输出:

Name Age City 0 Alice 25 New York 1 Bob 30 Paris 2 Charlie 35 Tokyo

特点:

  • 列可命名,支持按列名访问(如df['Name']
  • 支持多种数据输入格式(字典、列表、NumPy 数组、CSV 文件等)
  • 提供丰富的数据操作方法(筛选、分组、合并、透视等)

二、基本操作

1.创建 DataFrame

  • 从字典、列表、NumPy 数组、CSV/Excel 文件等创建。
# 从 CSV 读取df=pd.read_csv('data.csv')# 从字典创建data={'col1':[1,2],'col2':[3,4]}df=pd.DataFrame(data)

2.查看数据

df.head()# 查看前5行df.tail(3)# 查看后3行df.info()# 显示数据概要(类型、非空值等)df.describe()# 统计摘要(均值、标准差、四分位数等)df.shape# 返回 (行数, 列数)

3.索引与选择

  • 按列选择
    df['Name']# 返回 Seriesdf[['Name','Age']]# 返回 DataFrame
  • 按行选择
    df.loc[0]# 按标签索引(第0行)df.iloc[0]# 按位置索引(第0行)df.loc[0:1,'Name':'City']# 标签切片

4.条件筛选

df[df['Age']>25]df[(df['Age']>25)&(df['City']=='Tokyo')]

注意:使用&|而不是andor,且条件需加括号。


三、数据清洗常用操作

1.处理缺失值

df.isnull()# 检查缺失值(返回布尔 DataFrame)df.dropna()# 删除含缺失值的行df.fillna(0)# 用0填充缺失值df.fillna(method='ffill')# 前向填充

2.去重

df.duplicated()# 检查重复行df.drop_duplicates()# 删除重复行

3.数据类型转换

df['Age']=df['Age'].astype('float')pd.to_datetime(df['date_column'])# 转换为日期时间

四、数据操作进阶

1.分组(GroupBy)

df.groupby('City')['Age'].mean()
  • 类似 SQL 中的GROUP BY
  • 支持聚合函数:sum(),mean(),count(),agg()

2.合并与连接

  • pd.concat():沿轴拼接多个 DataFrame
  • pd.merge():类似 SQL 的 JOIN 操作
pd.merge(df1,df2,on='key')

3.透视表(Pivot Table)

pd.pivot_table(df,values='Age',index='City',aggfunc='mean')

五、时间序列支持

Pandas 对时间序列有强大支持:

ts=pd.date_range('2025-01-01',periods=10,freq='D')df=pd.DataFrame({'value':range(10)},index=ts)df.resample('W').sum()# 按周重采样

六、性能与注意事项

  • 向量化优于循环:尽量使用内置方法而非 for 循环。
  • 避免链式赋值:如df[df.A > 2]['B'] = new_val可能引发警告,应使用.loc
  • 内存优化:对于大文件,可使用dtype参数指定列类型,或使用chunksize分块读取。

总结

概念说明
Series一维带标签数组
DataFrame二维表格结构,核心分析对象
Index行/列标签,支持快速查找和对齐
Vectorized Operations高效的批量计算
Data I/O支持 CSV、Excel、JSON、SQL 等多种格式

掌握这些基础概念后,你就可以高效地进行数据加载、清洗、探索和分析了。

如需进一步学习,可参考官方文档:https://pandas.pydata.org/docs/

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 3:31:06

基础IP协议知识

网络层最主要的协议就是IP协议,IP协议最主要的工作有两个一个地址管理,使用IP地址这个概念,标识网络上某个设备的位置二是路由选择,在两个通信节点之间选一个合适的路径IP协议的数据报四位版本这里主要使用的是IPV4和IPV6&#xf…

作者头像 李华
网站建设 2026/4/18 3:31:15

47、打造应用过渡效果:从简单到通用的实现之旅

打造应用过渡效果:从简单到通用的实现之旅 1. 增添简单过渡效果 在开发应用程序时,合理运用过渡效果能够显著提升用户与应用的交互体验,但需注意避免过度使用。WPF 在处理过渡效果方面表现出色,不过有时明确告知 WPF 具体需求并非易事。 为了给应用增添一些趣味性,我们…

作者头像 李华
网站建设 2026/4/18 3:31:38

美团Java面试被问:Redis集群模式的工作原理

一、Redis 集群模式全景 1. 集群模式对比 text Redis 高可用方案演进: ├── 主从复制(Replication) ├── 哨兵模式(Sentinel) └── 集群模式(Cluster)⭐ 主流方案集群模式特点&#xff…

作者头像 李华
网站建设 2026/4/17 19:33:25

22、量子力学中的自旋角动量:概念、实验与数学表达

量子力学中的自旋角动量:概念、实验与数学表达 1. 自旋角动量的基本概念 在量子力学的世界里,除了轨道角动量,还有一种独特的角动量——自旋角动量。与轨道角动量不同,自旋角动量无法用空间坐标来描述,它代表了电子的固有磁矩,即电子即使完全孤立于空间中也拥有的磁矩,…

作者头像 李华
网站建设 2026/4/17 22:55:54

Langchain-Chatchat结合Chroma/FAISS实现高效语义检索

Langchain-Chatchat 结合 Chroma 与 FAISS:构建高效私有化语义检索系统 在企业知识管理的智能化浪潮中,一个核心痛点始终存在:如何让大语言模型真正“理解”公司内部那些 PDF 手册、Word 制度文件和 Excel 表格里的专有信息?通用 …

作者头像 李华
网站建设 2026/4/18 3:24:53

Langchain-Chatchat构建企业制度智能查询系统实例

Langchain-Chatchat构建企业制度智能查询系统实例 在现代企业中,制度文件往往分散在多个部门、存储于不同格式的文档之中——PDF、Word、甚至纸质归档。新员工入职时面对厚厚的《员工手册》无从下手;HR被重复的“年假怎么休”问题困扰;管理层…

作者头像 李华