Pandas 多列分组比对行数据并标记不一致性

28次阅读

本文介绍如何使用 pandas 对 dataframe 中具有相同关键列（如 country 和 reference year）的行进行分组比对，自动识别并标记 value 值不一致的记录为“invalid”，一致则为“valid”。核心方法是 groupby + transform(‘nunique’)。

在实际数据清洗与质量校验中，常需检测同一业务主键（如国家 + 年份）下指标值是否唯一。若存在多个不同 value，则说明数据存在逻辑冲突或录入错误，需标记为异常。

以下是一个典型示例：我们有包含 Country、Reference Year 和 value 三列的数据，目标是——对 Country 与 Reference Year 完全相同的行进行分组，若该组内 value 存在多个不同非空 / 有效值（或含空值与非空混存），则整组标记为 “Invalid”；否则为 “Valid”。

import pandas as pd import numpy as np  df1 = pd.DataFrame(data=[['Afghanistan','2015','5.1'],           ['Afghanistan','2015','6.1'],           ['Bahrain','2020',''],           ['Bahrain','2020','32'],           ['Bahrain','2021','32'],           ['Bahrain','2022','32']],     columns=['Country','Reference Year','value'] )

关键思路是：
✅ 按 [‘Country’, ‘Reference Year’] 分组；
✅ 对每组的 ‘value’ 列统计其 去重后数量（nunique）；
✅ 若某组 nunique > 1，说明该组 value 不一致 → 全部标记为 “Invalid”；
✅ 否则标记为 “Valid”。

实现代码简洁高效：

df1['Validity'] = np.where(df1.groupby(['Country', 'Reference Year'])['value'].transform('nunique').gt(1),     'Invalid',     'Valid' )

✅ transform(‘nunique’) 会将每组的去重计数广播回原 DataFrame 的对应行，保持索引对齐；✅ .gt(1) 等价于 > 1，返回布尔 Series；✅ np.where 根据条件批量赋值，避免循环或 apply，性能优异。

运行后结果如下：

Country	Reference Year	value	Validity
Afghanistan	2015	5.1	Invalid
Afghanistan	2015	6.1	Invalid
Bahrain	2020		Invalid
Bahrain	2020	32	Invalid
Bahrain	2021	32	Valid
Bahrain	2022	32	Valid

⚠️ 注意事项：

nunique() 默认 忽略 NaN，但本例中空字符串 ” 被视为有效值（非 NaN），因此 [”, ’32’] 被计为 2 个不同值；如需将空字符串视作缺失，建议预处理：df1[‘value’] = df1[‘value’].replace(”, np.nan)；
若 value 列含混合类型（如数字与字符串），nunique 仍能正确识别差异，但建议统一数据类型以提升鲁棒性；
此方法天然支持任意数量的关键列（只需扩展 groupby([…]) 列表），扩展性强。

该方案兼具可读性、性能与工程实用性，是 Pandas 数据一致性校验的标准实践之一。

发表于：后端开发

2026-01-16