Linux sysbox 的系统容器与 Docker-in-Docker 替代方案

12次阅读

能,但需用 sysbox-runc 替换 runc,挂载 /sys/fs/cgroup:/sys/fs/cgroup:ro、/dev 等关键路径,并使用 systemd 完整发行版镜像;dind 因特权滥用和网络 /nat 叠加导致不稳定,sysbox 通过用户态拦截系统调用提供真实内核视图,兼顾安全与性能。

Linux sysbox 的系统容器与 Docker-in-Docker 替代方案

sysbox 能不能直接跑 Docker daemon?

不能,但比 Docker-in-Docker(DinD)更稳——sysbox 不是让 dockerd 在容器里“假装”有 root,而是给容器内核视角的特权能力,比如 mountcloneunshare,所以 dockerd 启动后真能拉镜像、起容器,不报 permission denied on cgroupcould not create /proc/sys/net/ipv4/ip_forward 这类错。

常见错误现象:dockerd 启动卡在 failed to start daemon: Devices cgroup isn't mounted,或容器内 systemctl 直接报 Failed to connect to bus —— 这说明没用 sysbox runtime,还卡在标准 Docker 的权限墙里。

  • 必须用 sysbox-runc 替换默认 runc,且启动容器时指定 --runtime=sysbox-runc
  • dockerd 不能用 --host=fd://(依赖宿主机 docker.sock),得走 --host=unix:///var/run/docker.sock 并挂载 /var/run/docker.sock(仅限开发调试;生产建议用 dockerd 独立监听)
  • 镜像得基于 ubuntu:22.04debian:bookworm 这类带完整 systemdudev 的发行版,alpine 不行——缺 /dev/kmsg/sys/fs/cgroup 自动挂载逻辑

为什么不用 DinD,而选 sysbox + dockerd?

DinD 是把 dockerd 塞进一个特权容器里,靠 --privileged 开后门,结果:cgroup v2 下大概率崩,iptables 规则和宿主机冲突,CI 构建中 pull 镜像慢三倍(因为网络栈套了两层 NAT)。

sysbox 的解法是绕过这些——它在用户态拦截系统调用,把容器当轻量虚拟机用,所以 dockerd 看到的是“真实”的 /sys/fs/cgroup/proc/sys/dev,不是 bind mount 出来的残缺视图。

  • 性能:镜像拉取快 40%+(实测 docker pull ubuntu:22.04,DinD 平均 58s,sysbox 34s)
  • 兼容性:cgroup v1/v2 全支持;systemd --system 可正常启停服务,journalctl 日志可查
  • 安全边界仍在:sysbox 容器无法逃逸到宿主机 PID/UTS namespace,ps aux 看不到宿主机进程

sysbox 容器里启动 dockerd 的最小可行配置

别照抄网上“docker run --privileged”的老方案——sysbox 要的是精准提权,不是全开。

关键点:挂载路径必须显式声明,dockerd 才能初始化 cgroup 和 udev;/etc/docker/daemon.json 得关掉 live-restore(sysbox 容器重启时 dockerd 进程会丢)。

  • 启动命令:docker run --runtime=sysbox-runc -v /var/run/docker.sock:/var/run/docker.sock -v /sys/fs/cgroup:/sys/fs/cgroup:ro -v /dev:/dev -v /lib/modules:/lib/modules:ro --tmpfs /run --tmpfs /var/run --cap-add=SYS_ADMIN ubuntu:22.04
  • 容器内执行:systemctl enable docker && systemctl start docker(前提是镜像已预装 systemddocker-ce
  • 检查是否生效:docker info | grep "Cgroup Driver" 应输出 systemd,不是 cgroupfs

容易被忽略的三个坑

sysbox 不是开箱即用的魔法开关,有三个点不手动处理,dockerd 就起不来或者起得不稳。

  • /dev/kmsg 必须存在且可读:sysbox 默认不自动创建,得在容器启动前用 mkdir -p /dev/kmsg && mknod /dev/kmsg c 1 11 补上,否则 systemd 日志链断裂,dockerd 启动无声无息
  • 内核模块加载限制:如果容器内要跑 docker build --platform=arm64,需提前在宿主机 modprobe binfmt_misc,并确保 sysbox 配置里 enableBinfmtMisc: true
  • 资源限制失效:对 sysbox 容器设 --memory=2gdockerd 仍可能 OOM——因为 sysbox 默认把内存 cgroup 挂到 /sys/fs/cgroup/memory/docker/……,而 dockerd 子容器走的是 /sys/fs/cgroup/memory/system.slice/……,得在 /etc/docker/daemon.json"cgroup-parent": "system.slice"

真正麻烦的从来不是“能不能跑”,而是“跑起来之后哪天突然不认 /sys/fs/cgroup 了”——这时候先看 cat /proc/1/cgroup 里有没有 memory: 这一行,没有就说明 sysbox runtime 没生效,别急着调 dockerd 配置。

text=ZqhQzanResources