太原微网站建设,html个人网页制作源代码,科技小论文500字范文,免费发布网站建设的平台Pandas 是 Python 中用于数据分析和处理最流行的开源库之一#xff0c;建立在 NumPy 之上#xff0c;提供了高性能、易用的数据结构和数据分析工具。它特别适合处理结构化数据#xff08;如表格型或异质型数据#xff09;。以下是 Pandas 的基础概念详细介绍#xff1a;一…Pandas 是 Python 中用于数据分析和处理最流行的开源库之一建立在 NumPy 之上提供了高性能、易用的数据结构和数据分析工具。它特别适合处理结构化数据如表格型或异质型数据。以下是 Pandas 的基础概念详细介绍一、核心数据结构Pandas 主要有两个核心数据结构1.Series一维带标签的数组可以保存任何数据类型整数、字符串、浮点数、Python 对象等。类似于带索引的 NumPy 数组。每个元素都有一个对应的标签称为 index。importpandasaspd spd.Series([1,3,5,7],index[a,b,c,d])print(s)输出a 1 b 3 c 5 d 7 dtype: int64特点自动对齐索引在运算时非常有用支持向量化操作可以看作是字典和数组的结合体2.DataFrame二维表格型数据结构类似于 Excel 表格或 SQL 表。每列可以是不同的数据类型但同一列内类型一致。具有行索引index和列索引columns。dfpd.DataFrame({Name:[Alice,Bob,Charlie],Age:[25,30,35],City:[New York,Paris,Tokyo]})print(df)输出Name Age City 0 Alice 25 New York 1 Bob 30 Paris 2 Charlie 35 Tokyo特点列可命名支持按列名访问如df[Name]支持多种数据输入格式字典、列表、NumPy 数组、CSV 文件等提供丰富的数据操作方法筛选、分组、合并、透视等二、基本操作1.创建 DataFrame从字典、列表、NumPy 数组、CSV/Excel 文件等创建。# 从 CSV 读取dfpd.read_csv(data.csv)# 从字典创建data{col1:[1,2],col2:[3,4]}dfpd.DataFrame(data)2.查看数据df.head()# 查看前5行df.tail(3)# 查看后3行df.info()# 显示数据概要类型、非空值等df.describe()# 统计摘要均值、标准差、四分位数等df.shape# 返回 (行数, 列数)3.索引与选择按列选择df[Name]# 返回 Seriesdf[[Name,Age]]# 返回 DataFrame按行选择df.loc[0]# 按标签索引第0行df.iloc[0]# 按位置索引第0行df.loc[0:1,Name:City]# 标签切片4.条件筛选df[df[Age]25]df[(df[Age]25)(df[City]Tokyo)]注意使用、|而不是and、or且条件需加括号。三、数据清洗常用操作1.处理缺失值df.isnull()# 检查缺失值返回布尔 DataFramedf.dropna()# 删除含缺失值的行df.fillna(0)# 用0填充缺失值df.fillna(methodffill)# 前向填充2.去重df.duplicated()# 检查重复行df.drop_duplicates()# 删除重复行3.数据类型转换df[Age]df[Age].astype(float)pd.to_datetime(df[date_column])# 转换为日期时间四、数据操作进阶1.分组GroupBydf.groupby(City)[Age].mean()类似 SQL 中的GROUP BY支持聚合函数sum(),mean(),count(),agg()等2.合并与连接pd.concat()沿轴拼接多个 DataFramepd.merge()类似 SQL 的 JOIN 操作pd.merge(df1,df2,onkey)3.透视表Pivot Tablepd.pivot_table(df,valuesAge,indexCity,aggfuncmean)五、时间序列支持Pandas 对时间序列有强大支持tspd.date_range(2025-01-01,periods10,freqD)dfpd.DataFrame({value:range(10)},indexts)df.resample(W).sum()# 按周重采样六、性能与注意事项向量化优于循环尽量使用内置方法而非 for 循环。避免链式赋值如df[df.A 2][B] new_val可能引发警告应使用.loc。内存优化对于大文件可使用dtype参数指定列类型或使用chunksize分块读取。总结概念说明Series一维带标签数组DataFrame二维表格结构核心分析对象Index行/列标签支持快速查找和对齐Vectorized Operations高效的批量计算Data I/O支持 CSV、Excel、JSON、SQL 等多种格式掌握这些基础概念后你就可以高效地进行数据加载、清洗、探索和分析了。如需进一步学习可参考官方文档https://pandas.pydata.org/docs/