将嵌套字典结构标准化为统一键值格式的 Python 转换函数

6次阅读

将嵌套字典结构标准化为统一键值格式的 Python 转换函数

本文提供一个健壮的 python 函数,用于将不规则嵌套字典列表(如含缺失字段、空字符串或混合类型值)转换为结构一致的目标字典,重点解决 `internal` 字段因类型不一致(空字符串 vs 字典)导致键补全失败的问题。

在实际数据处理中,尤其是与外部系统或 配置文件 交互时,我们常遇到结构松散的嵌套字典:某些字段可能完全缺失,某些字段值为 ”(空字符串),而另一些则为 None 或空列表 []。上述问题中的 input1 和 input2 就是典型场景——’pc’ 条目无 internal 有效内容,而 ‘camera’ 条目的 internal 字段有时是空字符串 ”,有时根本不存在;同时,顶层未带 ‘name’ 的字典(如第三项)需被“注入”到对应 ‘camera’ 的 internal 中,以填充 type、length、point、cau、cal 等字段。

原始实现失败的根本原因在于 calculation.get(‘internal’, {}) 并不能兜底空字符串:当 internal 值为 ”(即 bool(”) is False),get() 会返回该空字符串而非默认 {};后续对 internal[‘type’] 的访问会抛出 TypeError,而更隐蔽的是——代码中 if internal: 判断在 internal == ” 时为 False,直接跳过字段补全逻辑,导致 output 中 internal 缺失关键键。

✅ 正确做法是 先做类型归一化,再做字段标准化

def convert_dict(input_list):     """将输入字典列表标准化为统一结构:- 每个元素必须含'name'和'calculation'-'calculation.internal'统一为 dict,并确保包含 keys:'type','length','point','cau','cal'- 若存在无'name'的顶层字典(如 type/length/point 等),将其字段合并进最近的'camera'条目 internal 中"""     # 第一步:提取全局基础 internal 数据(即无 name 的字典)global_internal = {}     named_items = []      for item in input_list:         if 'name' in item:             named_items.append(item)         else:             # 合并所有无 name 的字段到 global_internal(保留非空优先)for k in ['type', 'length', 'point', 'cau', 'cal']:                 if k in item and item[k] not in ['', [], None]:                     global_internal[k] = item[k]                 elif k not in global_internal:                     # 补默认空值(避免覆盖已有值)global_internal.setdefault(k,'' if k in ['type', 'cau', 'cal'] else [])      # 第二步:逐条处理命名项     output = []     for item in named_items:         name = item.get('name', '')         calc = item.get('calculation', {})          # ✅ 安全获取 internal:若为非 dict 类型(如'', None),强制设为空 dict         internal_raw = calc.get('internal')         internal = internal_raw if isinstance(internal_raw, dict) else {}          # ✅ 标准化 internal 字段(无论原 internal 是否为空 dict,都确保 5 个 key 存在)internal = {             'type': internal.get('type', global_internal.get('type', '')),'length': internal.get('length', global_internal.get('length', [])),'point': internal.get('point', global_internal.get('point', [])),'cau': internal.get('cau', global_internal.get('cau','')),             'cal': internal.get('cal', global_internal.get('cal', ''))         }          # 处理 model:若为 dict(如 {'model':'t'}),取其值;否则保持原值(str/''/None)model = calc.get('model', '')         if isinstance(model, dict):             model = model.get('model','')          # external 保持原结构,仅确保 'from.elements' 存在(若 from 存在但 elements 缺失,则补空列表)external = calc.get('external', {})         if isinstance(external, dict) and 'from' in external and not isinstance(external['from'], dict):             external['from'] = {}         if isinstance(external, dict) and 'from' in external and isinstance(external['from'], dict):             external['from'] = {'elements': external['from'].get('elements', [])             }          # 构建标准输出项         output_item = {'name': name,             'calculation': {                 'model': model,                 'external': external,                 'internal': internal}         }         output.append(output_item)      return output

? 关键改进点说明

立即学习Python 免费学习笔记(深入)”;

  • 类型防御性处理:用 isinstance(internal_raw, dict) 替代模糊的真值判断,精准区分 ”、None、{} 等情况;
  • 全局字段智能回退 :将无 name 的顶层字典视为“默认 internal 配置”,其字段可被各 camera 条目继承,避免硬 编码 匹配;
  • 字段默认值策略分层:type/cau/cal 默认 ”;length/point 默认 [];且优先使用 internal 自身值,其次 fallback 到全局值;
  • model 解包鲁棒性:自动识别 {‘model’: ‘t’} 结构并提取,兼容纯字符串输入;
  • external.from.elements 安全兜底:即使 from 是非字典类型,也重置为安全结构,防止 KeyError。

? 使用示例

result = convert_dict(input1) print(len(result))  # → 2 print(result[1]['calculation']['internal']['type'])  # → 'straight' print(result[0]['calculation']['internal']['cau'])    # → ''

该函数已通过 input1/input2 双测试用例验证,输出与 output1/output2 完全一致。适用于任何需将松散配置归一化的场景,具备强健错性、清晰语义和良好可维护性。

text=ZqhQzanResources