10分钟学会 Python 数据处理高效方法(进阶必备)
本教程面向 Python 新手及数据分析初学者,详细讲解 Python 数据处理实战方法,包括数据读取、清洗、转换、分析和导出。通过小标题分步骤讲解,让用户快速掌握数据处理思路,解决缺失值、格式不一致、重复数据等常见问题,提高数据处理效率。
Python数据处理实战教程(详细版)
一、导入数据
步骤:
使用 Pandas 读取 CSV 文件:
import pandas as pd
df = pd.read_csv('data.csv')
读取 Excel 文件:
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')查看数据基本信息:
df.head()
df.info()
df.describe()
技巧:
head()查看前几行,tail()查看后几行info()快速检查缺失值和数据类型
二、数据清洗
步骤:
处理缺失值:
df.dropna() # 删除缺失行
df.fillna(0) # 填充缺失值
删除重复行:
df.drop_duplicates(inplace=True)
数据类型转换:
df['年龄'] = df['年龄'].astype(int)
技巧:
对大数据集先检查缺失值数量
使用
inplace=True可直接修改原数据
三、数据选择与过滤
步骤:
选择列:
df[['姓名', '年龄']]
条件筛选:
df[df['年龄'] > 25]
多条件筛选:
df[(df['年龄'] > 25) & (df['性别'] == '男')]
技巧:
布尔索引快速筛选数据
query()方法也可实现条件筛选
四、数据排序与分组
步骤:
排序:
df.sort_values(by='年龄', ascending=False)
分组聚合:
df.groupby('部门')['工资'].mean()计数统计:
df['部门'].value_counts()
技巧:
groupby()配合agg()可实现多统计操作使用
reset_index()重置索引,便于后续处理
五、数据转换与计算
步骤:
新增列计算:
df['年薪'] = df['工资'] * 12
应用函数处理列:
df['姓名长度'] = df['姓名'].apply(len)
对列进行映射转换:
df['性别'] = df['性别'].map({'男':1,'女':0})技巧:
使用
apply()可实现复杂计算map()和replace()快速替换值
六、数据导出
步骤:
导出 CSV 文件:
df.to_csv('output.csv', index=False)导出 Excel 文件:
df.to_excel('output.xlsx', index=False)技巧:
设置
index=False避免导出索引列可结合
ExcelWriter写入多个工作表
七、常见问题解决
缺失值影响计算 → 使用
fillna()或删除缺失行数据类型错误 → 使用
astype()转换数据类型筛选结果为空 → 检查条件逻辑和列名拼写
总结:
通过本教程,你可以系统掌握 Python 数据处理实战技巧,包括数据读取、清洗、筛选、排序、分组、计算和导出方法。结合这些方法,新手也能快速处理和分析数据,提高工作效率和数据处理能力。