Pandas 多列分组比对行数据并标记不一致性

4次阅读

Pandas 多列分组比对行数据并标记不一致性

本文介绍如何使用 pandas 对 dataframe 中具有相同关键列(如 country 和 reference year)的行进行分组比对,自动识别并标记 value 值不一致的记录为“invalid”,一致则为“valid”。核心方法是 groupby + transform(‘nunique’)。

在实际 数据清洗 与质量校验中,常需检测同一业务主键(如国家 + 年份)下指标值是否唯一。若存在多个不同 value,则说明数据存在逻辑冲突或录入错误,需标记为异常。

以下是一个典型示例:我们有包含 Country、Reference Year 和 value 三列的数据,目标是——对 Country 与 Reference Year 完全相同的行进行分组,若该组内 value 存在多个不同非空 / 有效值(或含空值与非空混存),则整组标记为 “Invalid”;否则为 “Valid”

import pandas as pd import numpy as np  df1 = pd.DataFrame(data=[['Afghanistan','2015','5.1'],           ['Afghanistan','2015','6.1'],           ['Bahrain','2020',''],           ['Bahrain','2020','32'],           ['Bahrain','2021','32'],           ['Bahrain','2022','32']],     columns=['Country','Reference Year','value'] )

关键思路是:
✅ 按 [‘Country’, ‘Reference Year’] 分组;
✅ 对每组的 ‘value’ 列统计其 去重后数量(nunique)
✅ 若某组 nunique > 1,说明该组 value 不一致 → 全部标记为 “Invalid”;
✅ 否则标记为 “Valid”。

实现代码简洁高效:

df1['Validity'] = np.where(df1.groupby(['Country', 'Reference Year'])['value'].transform('nunique').gt(1),     'Invalid',     'Valid' )

✅ transform(‘nunique’) 会将每组的去重计数广播回原 DataFrame 的对应行,保持索引对齐;✅ .gt(1) 等价于 > 1,返回布尔 Series;✅ np.where 根据条件批量赋值,避免循环或 apply,性能优异。

运行后结果如下:

Country Reference Year value Validity
Afghanistan 2015 5.1 Invalid
Afghanistan 2015 6.1 Invalid
Bahrain 2020 Invalid
Bahrain 2020 32 Invalid
Bahrain 2021 32 Valid
Bahrain 2022 32 Valid

⚠️ 注意事项:

  • nunique() 默认 忽略 NaN,但本例中空字符串 ” 被视为有效值(非 NaN),因此 [”, ’32’] 被计为 2 个不同值;如需将空字符串视作缺失,建议预处理:df1[‘value’] = df1[‘value’].replace(”, np.nan);
  • 若 value 列含混合类型(如数字与字符串),nunique 仍能正确识别差异,但建议统一数据类型以提升鲁棒性;
  • 此方法天然支持任意数量的关键列(只需扩展 groupby([…]) 列表),扩展性强。

该方案兼具可读性、性能与工程实用性,是 Pandas 数据一致性校验的标准实践之一。

text=ZqhQzanResources