python 在对 excel 操作的同时，前面文章中说了数据的读取、插入、简单分析，还有一个非常重要的点就是数据清洗。那什么叫数据清洗，说白了就是去除数据文本中的垃圾值，比如：存在的空值、多余的空格、数据格式等等的处理。

　　1，导入 python 库、读取 excel 数据

　　# 导入 pandas 库

　　import pandas as pd

　　# read_excel() 读取 excel 数据

　　# DataFrame() 将读取到的数据转换为 DataFrame 数据

　　df = pd.DataFrame(pd.read_excel('data.xlsx'))

　　2，数据清洗(去除空值)

　　# dropna() 函数去除 df 数据表中存在空值的所有行

　　df.dropna(how='any')

　　# mean() 函数计算 age 字段所在列的平均值

　　age_pre = df['age'].mean()

　　# 使用 fillna() 函数对存在的空值进行填充，将 age_pre 的值填充到字段为空的值内面

　　df['age'].fillna(age_pre)

　　3，数据清洗(清除字段中的空格)

　　# 清除字段的空格大连人流哪家好 http://mobile.fkyy120.net/

　　df['name'] = df['name'].map(str.strip)

　　4，数据清洗(对某个列进行重命名)

　　# rename() 函数对列进行重命名

　　df.rename(columns={'name': 'name_new'})

　　5，数据清洗(清除某一列中的重复值)

　　# 从前往后查找某个列中的重复值，如果存在则清除后面所出现的重复值

　　df['name'].drop_duplicates()

　　# 从后往前查找某个列中的重复值，如果存在则清除前面所出现的重复值

　　df['city'].drop_duplicates(keep='last')

　　# 两种正好是按照相反的清除顺序

　　6，数据清洗(数据值替换)

　　# 将某一列中的具体值进行替换

　　df['name'].replace('laow', 'lwsbc')