SQL 主从延迟是如何产生的？

26次阅读

SQL 主从延迟本质是主库写入速度超过从库日志拉取与重放速度，链路含 binlog 写入、dump 发送、IO 接收写 relay log、SQL 线程读取、执行事务五步；任一环节卡顿均致延迟累积，主库顺序写高效，从库 SQL 线程随机 IO 开销大，高并发或大事务易堵塞，需开启并行回放并优化硬件网络，监控应关注延迟趋势而非仅 Seconds_Behind_Master。

SQL 主从延迟是如何产生的？

SQL 主从延迟，本质是主库写入速度超过了从库拉取和重放日志的速度。整个复制链路分五步：主库写 binlog → 主库 dump 线程发送 → 从库 IO 线程接收并写入 relay log → 从库 SQL 线程读 relay log → 从库执行事务更新数据。任一环节卡住或变慢，都会导致延迟累积。

主库写得快，但从库回放跟不上
主库的 binlog 是顺序写，效率高；而从库 SQL 线程执行 DML/DDL 是随机 IO，还要加锁、查索引、刷脏页，开销大得多。尤其当主库并发高（比如批量导入、活动峰值），单线程 SQL 回放根本处理不过来，relay log 就开始堆积。

大事务或 DDL 操作会强制串行化
一个大事务更新跨多个表、上万行，或者一次 ALTER TABLE，主库会把它作为一个完整 event 写进 binlog。从库必须等这个事务完全执行完，才能继续下一个——期间所有后续事务都得排队。这时 Seconds_Behind_Master 可能跳涨几十分钟，不是因为慢，而是被“堵死”了。

并行能力没打开，白白浪费资源
MySQL 5.7 默认支持基于组提交的并行回放，8.0 进一步用 writeset 判断事务间是否冲突。但前提是：主库开启 binlog_transaction_dependency_tracking = WRITESET，从库设 slave_parallel_type = LOGICAL_CLOCK 或 WRITESET，并调高 slave_parallel_workers（比如 8 核设 12）。否则默认仍是单线程。

硬件与网络拖了后腿
从库磁盘还是机械盘、buffer pool 太小、内存不足导致频繁刷脏页；主从跨机房部署、RTT 超过 5ms、带宽被其他业务占满；甚至从库开着 log_slave_updates 做级联复制，额外多写一遍 binlog——这些都会让原本就吃紧的同步链路雪上加霜。

监控值容易误判，别只盯 Seconds_Behind_Master
这个值为 0 不代表没延迟：主库停写时它归零；IO 线程断连时它可能卡在 0；GTID 模式下更应看 Read_Master_Log_Pos 和 Exec_Master_Log_Pos 的差值，或用 SELECT MASTER_POS_WAIT() 实测追平点。真正要关注的是趋势——持续爬升、突增、抖动，比单个数字更有诊断价值。

发表于：数据库

2026-01-20