Python Pandas 数据清洗、统计、可视化完整实战教程
本教程面向 Python 新手及数据分析初学者,详细讲解 Pandas 数据分析库的使用方法,包括 Series 和 DataFrame 的创建、数据读取、清洗、统计分析和可视化操作。通过小标题分步骤讲解,让用户快速掌握 Pandas 的核心功能,解决数据处理、缺失值处理和分析效率问题,提高数据分析能力。
Python数据分析库Pandas使用教程(详细版)
一、Pandas基础知识
步骤:
安装 Pandas:
pip install pandas
导入 Pandas:
import pandas as pd
了解两个核心数据结构:
Series:一维带标签数组
DataFrame:二维表格数据结构
技巧:
Series 可通过列表或字典创建,DataFrame 可通过字典、列表或 CSV 文件读取。
DataFrame 是 Pandas 数据分析的核心,掌握其操作至关重要。
二、Series 和 DataFrame 创建
步骤:
创建 Series:
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
创建 DataFrame:
data = {'姓名': ['张三','李四'], '年龄':[25,30], '职业':['程序员','设计师']}
df = pd.DataFrame(data)
从 CSV 文件读取数据:
df = pd.read_csv('data.csv')技巧:
head()和tail()查看数据前几行或后几行shape查看数据维度,info()查看数据类型和缺失情况
三、数据清洗与处理
步骤:
处理缺失值:
df.dropna() # 删除缺失行
df.fillna(0) # 填充缺失值
数据类型转换:
df['年龄'] = df['年龄'].astype(int)
过滤和排序:
df[df['年龄'] > 25] # 条件筛选
df.sort_values(by='年龄', ascending=False) # 按年龄降序排序
技巧:
使用
apply()或map()对列进行批量操作使用布尔索引快速筛选数据
四、统计分析与分组
步骤:
基本统计:
df.describe() # 数值列统计信息
df['年龄'].mean() # 平均值
分组聚合:
df.groupby('职业')['年龄'].mean()计数统计:
df['职业'].value_counts()
技巧:
groupby 配合 agg 可实现多种统计操作
count()、sum()、mean() 等方法快速分析数据
五、数据可视化
步骤:
快速绘制柱状图:
df['年龄'].plot(kind='bar')
绘制折线图或饼图:
df['职业'].value_counts().plot(kind='pie')
技巧:
Pandas 内置绘图基于 matplotlib,可快速生成图表
对复杂图表可结合 seaborn 或 matplotlib 进行美化
六、常见问题解决
数据类型错误 → 使用
astype()转换数据类型缺失值处理 → 使用
dropna()或fillna()筛选结果为空 → 检查条件表达式和列名拼写是否正确
总结:
通过本教程,你可以系统掌握 Python 数据分析库 Pandas 的使用技巧,包括 Series 和 DataFrame 创建、数据清洗、统计分析、分组聚合和可视化方法。结合这些技巧,新手也能快速进行数据分析和处理,提高数据分析效率和准确性。