新闻中心

10分钟学会 Python 数据处理高效方法(进阶必备)

栏目:软件教程 日期: 作者:admin 阅读:9

本教程面向 Python 新手及数据分析初学者,详细讲解 Python 数据处理实战方法,包括数据读取、清洗、转换、分析和导出。通过小标题分步骤讲解,让用户快速掌握数据处理思路,解决缺失值、格式不一致、重复数据等常见问题,提高数据处理效率。

Python数据处理实战教程(详细版)

一、导入数据

步骤:

  1. 使用 Pandas 读取 CSV 文件:

import pandas as pd
df = pd.read_csv('data.csv')

  1. 读取 Excel 文件:

df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
  1. 查看数据基本信息:

df.head()
df.info()
df.describe()

技巧:

  • head() 查看前几行,tail() 查看后几行

  • info() 快速检查缺失值和数据类型


二、数据清洗

步骤:

  1. 处理缺失值:

df.dropna()  # 删除缺失行
df.fillna(0)  # 填充缺失值

  1. 删除重复行:

df.drop_duplicates(inplace=True)
  1. 数据类型转换:

df['年龄'] = df['年龄'].astype(int)

技巧:

  • 对大数据集先检查缺失值数量

  • 使用 inplace=True 可直接修改原数据


三、数据选择与过滤

步骤:

  1. 选择列:

df[['姓名', '年龄']]
  1. 条件筛选:

df[df['年龄'] > 25]
  1. 多条件筛选:

df[(df['年龄'] > 25) & (df['性别'] == '男')]

技巧:

  • 布尔索引快速筛选数据

  • query() 方法也可实现条件筛选


四、数据排序与分组

步骤:

  1. 排序:

df.sort_values(by='年龄', ascending=False)
  1. 分组聚合:

df.groupby('部门')['工资'].mean()
  1. 计数统计:

df['部门'].value_counts()

技巧:

  • groupby() 配合 agg() 可实现多统计操作

  • 使用 reset_index() 重置索引,便于后续处理


五、数据转换与计算

步骤:

  1. 新增列计算:

df['年薪'] = df['工资'] * 12
  1. 应用函数处理列:

df['姓名长度'] = df['姓名'].apply(len)
  1. 对列进行映射转换:

df['性别'] = df['性别'].map({'男':1,'女':0})

技巧:

  • 使用 apply() 可实现复杂计算

  • map()replace() 快速替换值


六、数据导出

步骤:

  1. 导出 CSV 文件:

df.to_csv('output.csv', index=False)
  1. 导出 Excel 文件:

df.to_excel('output.xlsx', index=False)

技巧:

  • 设置 index=False 避免导出索引列

  • 可结合 ExcelWriter 写入多个工作表


七、常见问题解决

  1. 缺失值影响计算 → 使用 fillna() 或删除缺失行

  2. 数据类型错误 → 使用 astype() 转换数据类型

  3. 筛选结果为空 → 检查条件逻辑和列名拼写


总结:
通过本教程,你可以系统掌握 Python 数据处理实战技巧,包括数据读取、清洗、筛选、排序、分组、计算和导出方法。结合这些方法,新手也能快速处理和分析数据,提高工作效率和数据处理能力。

相关资讯