python

关注公众号 jb51net

关闭
首页 > 脚本专栏 > python > Python Pandas查找重复数据

Python使用Pandas快速找出重复数据并生成清理报告

作者:站大爷IP

Pandas作为Python数据处理的利器,提供了简单高效的重复数据处理方案,本文将通过真实案例,带你掌握从重复检测到生成专业清理报告的全流程,用代码和可视化让数据清洗变得可感知、可验证

引言:为什么数据重复是隐形杀手?

想象你正在分析电商平台的销售数据,发现某款商品在同一天出现了3次相同的销售记录。这些重复数据就像数据仓库里的"幽灵订单",会导致库存计算错误、销售额虚高、用户行为分析失真。更可怕的是,当数据量达到百万级时,这些重复项会像滚雪球一样积累,最终让你的分析结果偏离真相。

Pandas作为Python数据处理的利器,提供了简单高效的重复数据处理方案。本文将通过真实案例,带你掌握从重复检测到生成专业清理报告的全流程,用代码和可视化让数据清洗变得可感知、可验证。

一、重复数据的三种常见形态

1. 完全重复的行

import pandas as pd

data = {
    '订单号': ['A001', 'A002', 'A001', 'A003'],
    '商品': ['手机', '耳机', '手机', '充电器'],
    '价格': [2999, 199, 2999, 89]
}
df = pd.DataFrame(data)

在这个示例中,第一行和第三行完全相同,属于最容易识别的重复类型。

2. 关键字段重复

当订单号相同但其他字段不同时:

data = {
    '订单号': ['B001', 'B001', 'B002'],
    '商品': ['手机', '手机壳', '充电器'],
    '数量': [1, 2, 1]
}

这种情况更隐蔽,需要定义业务关键字段(如订单号)作为检测依据。

3. 近似重复记录

由于数据录入错误产生的变体:

data = {
    '客户名': ['张三', '张三 ', '张  三', 'zhangsan'],
    '电话': ['13800138000', '13800138000', '13800138000', '13800138000']
}

这类重复需要结合模糊匹配技术处理,本文将聚焦前两种明确重复类型。

二、Pandas重复检测四步法

1. 基础检测:duplicated()方法

# 检测完全重复行(默认保留第一个出现)
duplicates = df[df.duplicated()]
print(duplicates)

输出结果会显示所有重复行(不包括首次出现的行)。通过参数控制:

2. 指定关键字段检测

# 只根据订单号检测重复
key_duplicates = df[df.duplicated(subset=['订单号'])]

这在处理订单数据时特别有用,可以确保每个订单唯一性。

3. 统计重复频率

# 统计每个订单号的出现次数
duplicate_counts = df['订单号'].value_counts()

# 筛选出重复的订单号
repeated_orders = duplicate_counts[duplicate_counts > 1]
print(repeated_orders)

这种方法能快速定位高频重复的字段值。

4. 可视化重复分布

import matplotlib.pyplot as plt

# 绘制重复订单数量分布
duplicate_counts.value_counts().sort_index().plot(kind='bar')
plt.title('重复订单数量分布')
plt.xlabel('重复次数')
plt.ylabel('订单数量')
plt.show()

可视化能直观展示重复问题的严重程度,比如发现80%的重复订单只重复2次,而少数订单重复了10次以上。

三、数据清理实战:从检测到修复

案例:电商订单数据清洗

假设我们有一个包含10万条记录的订单数据集:

# 生成模拟数据
import numpy as np
np.random.seed(42)

orders = {
    '订单号': [f'ORD{str(i).zfill(6)}' for i in range(100000)],
    '客户ID': np.random.randint(1000, 9999, size=100000),
    '商品ID': np.random.randint(100, 999, size=100000),
    '金额': np.round(np.random.uniform(10, 1000, size=100000), 2),
    '下单时间': pd.date_range('2023-01-01', periods=100000, freq='min')
}

# 故意制造5%的重复数据
df = pd.DataFrame(orders)
duplicate_mask = np.random.rand(len(df)) < 0.05
df_duplicates = df[duplicate_mask].copy()

# 给重复数据添加微小变化(模拟数据录入错误)
for col in ['金额', '客户ID']:
    df_duplicates[col] += np.random.uniform(-0.5, 0.5, size=len(df_duplicates))

# 合并数据集
df = pd.concat([df, df_duplicates]).reset_index(drop=True)

1. 全面检测重复

# 完全重复检测
exact_duplicates = df[df.duplicated()]
print(f"完全重复记录数: {len(exact_duplicates)}")

# 关键字段重复检测(订单号+客户ID)
key_duplicates = df[df.duplicated(subset=['订单号', '客户ID'])]
print(f"关键字段重复记录数: {len(key_duplicates)}")

2. 智能去重策略

# 方法1:直接删除完全重复行(保留第一个)
df_cleaned1 = df.drop_duplicates()

# 方法2:对关键字段去重,保留金额最大的记录(假设金额越大越可能是有效记录)
def keep_max_amount(group):
    return group.loc[group['金额'].idxmax()]

df_cleaned2 = df.groupby(['订单号', '客户ID'], as_index=False).apply(keep_max_amount)

3. 清理效果验证

# 比较清理前后数据量
print(f"原始数据量: {len(df)}")
print(f"清理后数据量(方法1): {len(df_cleaned1)}")
print(f"清理后数据量(方法2): {len(df_cleaned2)}")

# 检查是否还有重复
print("方法1是否还有重复:", df_cleaned1.duplicated(subset=['订单号', '客户ID']).any())
print("方法2是否还有重复:", df_cleaned2.duplicated(subset=['订单号', '客户ID']).any())

四、生成专业清理报告

1. 报告核心要素

2. 自动化报告生成代码

from datetime import datetime

def generate_cleaning_report(df_original, df_cleaned, subset=None):
    # 计算关键指标
    original_count = len(df_original)
    cleaned_count = len(df_cleaned)
    reduction_rate = (1 - cleaned_count/original_count) * 100
    
    # 检测重复
    if subset:
        duplicates = df_original[df_original.duplicated(subset=subset)]
        duplicate_counts = df_original[subset[0]].value_counts()
        top_duplicates = duplicate_counts[duplicate_counts > 1].head(10)
    else:
        duplicates = df_original[df_original.duplicated()]
        top_duplicates = None
    
    # 创建报告内容
    report = f"""
    === 数据清理报告 ===
    生成时间: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
    
    1. 数据概览
    - 原始记录数: {original_count}
    - 清理后记录数: {cleaned_count}
    - 记录减少比例: {reduction_rate:.2f}%
    
    2. 重复检测结果
    {''.join([f"- 检测依据字段: {', '.join(subset)}\n" for subset in ([subset] if subset else [])])}
    - 发现重复记录数: {len(duplicates)}
    """
    
    if top_duplicates is not None and not top_duplicates.empty:
        report += "\n3. 高频重复值TOP10\n"
        report += top_duplicates.to_string()
    
    # 添加可视化(需要先运行绘图代码)
    # 这里可以添加保存图表的代码,然后在报告中引用图片路径
    
    return report

# 生成报告
print(generate_cleaning_report(df, df_cleaned2, subset=['订单号', '客户ID']))

3. 高级可视化增强

# 创建画布
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 重复记录比例饼图
duplicate_ratio = len(df[df.duplicated(subset=['订单号', '客户ID'])]) / len(df)
labels = ['唯一记录', '重复记录']
sizes = [1-duplicate_ratio, duplicate_ratio]
axes[0].pie(sizes, labels=labels, autopct='%1.1f%%', startangle=90)
axes[0].set_title('重复记录占比')

# 清理前后对比柱状图
counts = [len(df), len(df_cleaned2)]
axes[1].bar(['原始数据', '清理后'], counts, color=['blue', 'green'])
axes[1].set_title('数据量变化对比')
axes[1].set_ylabel('记录数')

plt.tight_layout()
plt.savefig('cleaning_report_visualization.png')

五、最佳实践与避坑指南

1. 关键注意事项

2. 性能优化技巧

3. 常见错误案例

错误1:直接删除所有重复行导致有效数据丢失

# 错误示范:未指定subset参数,可能误删有效数据
df.drop_duplicates(inplace=True)  # 危险操作!

错误2:忽略时间字段导致重复检测不准确

# 错误示范:未考虑下单时间微小差异
df[df.duplicated(subset=['订单号'])]  # 可能漏检同订单不同时间的记录

错误3:清理后未验证数据一致性

# 错误示范:去重后未检查关键字段唯一性
df_cleaned = df.drop_duplicates(subset=['订单号'])
# 应该添加验证
assert not df_cleaned.duplicated(subset=['订单号']).any()

结语:让数据清洗成为可控的工程

通过本文介绍的方法,你不仅能高效检测各种重复数据,还能生成专业报告证明清理效果。记住,数据清洗不是简单的删除操作,而是需要结合业务逻辑、数据分布和可视化验证的系统工程。

下次面对杂乱的数据时,不妨按照这个流程:检测→分析→清理→验证→报告。随着实践积累,你会逐渐建立起数据质量感知能力,在复杂的数据迷宫中快速找到清理路径。

到此这篇关于Python使用Pandas快速找出重复数据并生成清理报告的文章就介绍到这了,更多相关Python Pandas查找重复数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:
阅读全文