后端开发 PySpark 读取 Avro 文件时正确提供自定义 Schema 的完整指南 本文详解如何在 PySpark 中为 Avro 文件指定自定义 Schema,重点解决 StructType. […]...
数据库 SQL Iceberg 的 branch tag 的版本管理与回滚操作 Apache Iceberg 的 branch 和 tag 是用于快照(snapshot)的逻辑标记机制,本身 […]...
数据库 SQL Hudi 的 clustering plan 的数据重排与查询性能提升 Hudi 的 clustering plan 本质是通过重排数据文件(file reorganization) […]...
数据库 SQL Hudi 的 MOR 表读放大与 compaction 频率调优 hudi mor 表读放大源于实时查询需合并 base file 与多个 log file,compactio […]...
数据库 SQL Iceberg 的 schema evolution 与 hidden partitioning 优势 可以,iceberg 通过 add-column 实现原子、向后兼容的字段新增,新字段在旧数据中为 null, […]...