python 操作 excel 之数据清洗

  python 在对 excel 操作的同时,前面文章中说了数据的读取、插入、简单分析,还有一个非常重要的点就是数据清洗。那什么叫数据清洗,说白了就是去除数据文本中的垃圾值,比如:存在的空值、多余的空格、数据格式等等的处理。

  1,导入 python 库、读取 excel 数据

  # 导入 pandas 库

  import pandas as pd

  # read_excel() 读取 excel 数据

  # DataFrame() 将读取到的数据转换为 DataFrame 数据

  df = pd.DataFrame(pd.read_excel('data.xlsx'))

  2,数据清洗(去除空值)

  # dropna() 函数去除 df 数据表中存在空值的所有行

  df.dropna(how='any')

  # mean() 函数计算 age 字段所在列的平均值

  age_pre = df['age'].mean()

  # 使用 fillna() 函数对存在的空值进行填充,将 age_pre 的值填充到字段为空的值内面

  df['age'].fillna(age_pre)

  3,数据清洗(清除字段中的空格)

  # 清除字段的空格 大连人流哪家好 http://mobile.fkyy120.net/

  df['name'] = df['name'].map(str.strip)

  4,数据清洗(对某个列进行重命名)

  # rename() 函数对列进行重命名

  df.rename(columns={'name': 'name_new'})

  5,数据清洗(清除某一列中的重复值)

  # 从前往后查找某个列中的重复值,如果存在则清除后面所出现的重复值

  df['name'].drop_duplicates()

  # 从后往前查找某个列中的重复值,如果存在则清除前面所出现的重复值

  df['city'].drop_duplicates(keep='last')

  # 两种正好是按照相反的清除顺序

  6,数据清洗(数据值替换)

  # 将某一列中的具体值进行替换

  df['name'].replace('laow', 'lwsbc')

请使用浏览器的分享功能分享到微信等