主从复制是 MySQL/PostgreSQL 高可用的基础,需精确配置、状态可控、切换可预期;MySQL 依赖二进制日志与 ROW 格式,PostgreSQL 依托 WAL 物理复制;二者均需位点校验、问题快速定位及叠加 MHA/Patroni 等实现自动故障转移。

Linux 环境下实现 MySQL 或 PostgreSQL 的高可用,主从复制是基础且关键的一环。它不等于全自动故障转移,但为读写分离、数据备份和后续搭建高可用集群(如 MHA、Patroni、Replication Manager)打下坚实基础。核心在于配置准确、状态可控、切换可预期。
MySQL 主从复制:从零配置到状态验证
主库需开启二进制日志并设置唯一 server-id;从库需配置指向主库的连接参数及启用中继日志。关键不是“配通”,而是确保复制链路真正生效且持续同步。
- 主库 my.cnf 中确认:log-bin=mysql-bin、server-id=1、binlog-format=ROW(推荐)
- 创建专用复制用户:CREATE USER ‘repl’@’%’ IDENTIFIED BY ‘secure_pass’; GRANT REPLICATION SLAVE ON *.* TO ‘repl’@’%’;
- 从库执行 CHANGE MASTER TO 时,MASTER_LOG_FILE 和 MASTER_LOG_POS 必须与主库 SHOW MASTER STATUS 输出严格一致
- 启动复制后,用 SHOW SLAVE STATUSG 检查:Slave_IO_Running和 Slave_SQL_Running 均为 Yes,且 Seconds_Behind_Master 稳定为 0 或极小值
PostgreSQL 流复制:物理复制更轻量、更可靠
PostgreSQL 默认使用 WAL(Write-Ahead Logging)物理复制,比逻辑复制延迟更低、一致性更强,适合高可用场景。主库归档与从库恢复配置需匹配,且需注意 pg_hba.conf 权限控制。
- 主库 postgresql.conf 中启用:wal_level = replica、max_wal_senders = 10、listen_addresses = ‘*,localhost’、wal_keep_size = 1GB(或 wal_keep_segments)
- 主库 pg_hba.conf 添加:host replication repl 192.168.1.0/24 md5(允许从库 IP 网段连接 replication 用户)
- 从库使用 pg_basebackup -h 主库 IP -D /var/lib/postgresql/data -U repl -P -R -X stream 一键拉取基础备份并生成 standby.signal
- 从库启动后,查pg_stat_replication(主库)和pg_is_in_recovery()(从库)确认复制状态
主从 常见问题 定位与修复思路
复制中断往往不是配置错误,而是数据不一致、网络抖动、磁盘满、WAL 被清理等实际运行问题。快速判断比重配更重要。
- MySQL 从库报错 Duplicate entry 或Error_code: 1062:大概率主从数据已不一致,需对比表校验(pt-table-checksum)或跳过单条事件(SET GLOBAL sql_slave_skip_counter=1)——仅限测试环境临时处理
- PostgreSQL 从库卡在startup process (PID: xxx) waiting for WAL:检查主库 WAL 是否被过早回收(增大 wal_keep_size)、网络是否丢包、归档路径是否有权限问题
- 两者共性现象:Seconds_Behind_Master 或 recovery_delay 持续增长 → 查主库写入压力、从库 I / O 负载、网络带宽占用
- 所有修复操作前,先确认主库当前位点(File/Position 或 WAL 文件名 + 偏移),避免从库回退过多导致 数据丢失
高可用不止于复制:主从只是起点
主从复制本身不具备自动故障检测与主备切换能力。生产环境必须叠加额外组件才能实现高可用闭环:
- MySQL 可选:MHA(成熟稳定)、Orchestrator(Web 界面友好)、ProxySQL+Consul(服务发现 + 读写分离)
- PostgreSQL 推荐:Patroni(基于 DCS 如 etcd/ZooKeeper,支持自动故障转移 + 标签化角色管理)、repmgr(轻量易上手,适合中小规模)
- 无论选型,都需配套健康检查脚本、告警通知(如 Prometheus+Alertmanager)、切换后应用连接池刷新机制(如 Druid 的 validConnectionChecker)






























