SQL报表跨年统计慢_时间分区与聚合索引

25次阅读

跨年 sql 报表慢的核心原因是数据分布与访问路径不匹配：时间分区粒度粗、聚合索引缺失、跨年查询优化器执行计划不稳定；应按月 / 周分区、建覆盖过滤与分组字段的复合索引，并用 union all 拆分跨年查询。

SQL 报表跨年统计慢_时间分区与聚合索引

跨年 SQL 报表慢，核心问题往往不在 SQL 写法本身，而是数据分布与访问路径没对齐——时间分区没用好，聚合索引缺失，导致扫描量爆炸。

很多系统按年或月建分区，但报表常查“过去 12 个月”或“FY2023-FY2024”，跨两个年份分区。如果只按年分区（如 p_2023、p_2024），查询 2023-06 至 2024-05 就会强制扫描两个大分区，且无法裁剪掉无效月份。

推荐按月或周粒度分区，配合PARTITION BY RANGE (DATE)，让优化器能精准定位 6–12 个分区而非 2 个
确保分区键是查询中 WHERE 直接过滤的列（如 stat_date），避免函数包裹（WHERE YEAR(stat_date)=2024 会失效）
定期检查EXPLAIN PARTITIONS，确认实际访问的分区数是否合理

报表常见“按部门 + 产品线 + 月份汇总销售额”，若只在 stat_date 建单列索引，MySQL 仍需回表读取部门、产品等字段再分组，I/ O 和 CPU 双高。

建复合索引时，把过滤字段放前，分组字段居中，聚合字段放后。例如：INDEX(stat_date, dept_id, product_line, amount)
对 SUM/COUNT 类聚合，可考虑物化聚合表：每天凌晨跑一次INSERT INTO rpt_daily_summary SELECT dept_id, product_line, DATE(stat_date), SUM(amount) …… GROUP BY ……，报表直接查这张轻量表
避免在索引字段上做计算或隐式转换（如WHERE dept_id + 0 = 1001），会导致索引失效

当优化器对跨年范围查询的执行计划不稳定（比如有时走索引有时全扫），与其调优一条复杂 SQL，不如显式拆解：

将“2023-07 至 2024-06”拆为两个子查询：SELECT …… WHERE stat_date >= '2023-07-01' AND stat_date = '2024-01-01' AND stat_date
每个子查询都能精准命中分区 + 索引，执行计划确定，且支持并行执行（尤其在 ClickHouse、Doris 等引擎中效果明显）
注意 UNION ALL 不排序不去重，如需全局 ORDER BY，只在外层加一次