如何管理海量Binlog日志的存储_动态扩容与日志自动归档到OSS

19次阅读

应从生成、保留、转移三端控制 Binlog:设 binlog_expire_logs_seconds 为 2592000,max_binlog_size 为 1GB;用 mysqlbinlog+inotifywait 自动同步至 OSS,重命名含实例 ID/ 日期 / 序号 / 起止 pos,并校验 sha256sum。

如何管理海量 Binlog 日志的存储_动态扩容与日志自动归档到 OSS

Binlog 日志爆满导致磁盘写满怎么办

MySQL 的 binlog 不设限增长,是线上最常触发磁盘 100% 的元凶之一。不是靠“定期删”,而是必须从生成、保留、转移三端同时控制。

  • expire_logs_days 已被弃用(8.0.11+),必须改用 binlog_expire_logs_seconds,设为 2592000(30 天)才真正生效
  • 单纯调大过期时间没用——如果主库写入量极大,binlog 在过期前就已占满磁盘,得配合 max_binlog_size 控制单文件上限(建议 1073741824,即 1GB)
  • 删除动作本身会阻塞 DDL,用 PURGE BINARY LOGS BEFORE '2024-06-01 00:00:00' 比按天数更可控,但务必在低峰执行

怎么把 Binlog 自动同步到 OSS,不卡主库

不能用 mysqldump 或 SELECT …… INTO OUTFILE,那是全量导出;Binlog 是增量流式日志,必须靠 mysqlbinlog + 后台拉取 + 分段上传。

  • mysqlbinlog --read-from-remote-server --host=xxx --user=xxx --password=xxx --raw --stop-never --result-file=/tmp/binlog/ 拉取,注意加 --stop-never--raw,否则无法持续追加且格式错乱
  • 每生成一个 mysql-bin.0000xx 文件,就立刻用 ossutil cp /tmp/binlog/mysql-bin.0000xx oss://my-bucket/binlog/ 上传,传完立即 rm,避免本地堆积
  • 别用 Python 脚本轮询 SHOW BINARY LOGS 来判断新文件——有延迟、易漏、还增加主库压力;直接监听文件系统事件(inotifywait)更稳

OSS 上 Binlog 文件怎么命名才方便回溯

默认的 mysql-bin.000001 在 OSS 上毫无上下文,恢复时根本不知道它属于哪天、哪个实例、有没有被截断。

  • 重命名规则必须含三要素: 实例 ID_日期_序号_起始 pos_结束 pos,例如 rm-bp1abc123_20240615_000001_154_123456789
  • 起始 pos 从 mysqlbinlog -v --base64-output=DECODE-ROWS mysql-bin.000001 | head -20 里取 # at 行;结束 pos 用 mysqlbinlog -v mysql-bin.000001 | tail -20 | grep '# at' | tail -1
  • OSS 不支持原子重命名,上传后要写一个 .meta.json 文件存校验值和时间戳,否则遇到断点续传或网络抖动,无法判断文件是否完整

扩容 Binlog 存储时,为什么新加的磁盘经常不生效

MySQL 不会自动识别新挂载的磁盘路径,log_bin 路径一旦初始化就锁定,改配置重启也不行——除非重建 Binlog 索引。

  • 先停写,执行 FLUSH LOGS,确保当前 mysql-bin.0000xx 写满并滚动
  • 修改 my.cnf 中的 log_bin 指向新路径(如 /data2/mysql/binlog/mysql-bin),然后 mysqld --initialize-insecure 不适用——正确做法是:停库 → 移动旧 binlog 文件到新路径 → 修改 auto.cnfmysql-bin.index 里的路径引用 → 启动
  • 验证是否生效:看 SHOW VARIABLES LIKE 'log_bin_basename'; 返回值,以及 ls -l /proc/$(pidof mysqld)/fd/ | grep binlog 是否指向新路径

归档链路里最容易被跳过的环节,是校验 OSS 上文件和本地原始文件的 sha256sum 是否一致。只要有一次上传中断没检测,后面拿它做 PITR 就是赌运气。

text=ZqhQzanResources