no space left on device 但 df -i inode 还有的 tmpfs / shm 耗尽排查

14次阅读

/dev/shm 耗尽会导致“No space left on device”错误,即使 df - h 和 df - i 显示正常,因其为 tmpfs 内存文件系统,需用 df -h /dev/shm、ipcs - m 和 lsof +D /dev/shm 定位占用进程,清理需终止进程而非仅删文件,扩容可 remount 或修改 fstab。

no space left on device 但 df -i inode 还有的 tmpfs / shm 耗尽排查

tmpfs /dev/shm 耗尽导致 no space left on device

即使 df -h 显示磁盘空间充足、df -i 显示 inode 也远未用尽,但程序仍报 No space left on device,极大概率是 /dev/shm(tmpfs 类型)被占满。它不计入根文件系统统计,df -h 默认也不显示 tmpfs 挂载点,必须显式检查。

  • df -h /dev/shmdf -h -t tmpfs 查看所有 tmpfs 使用情况
  • 默认大小通常为 64MB(部分内核版本为 1/2 内存),但可通过 mount 命令确认实际限制:mount | grep shm → 看 size= 参数
  • 常见占用者:PostgreSQL 的 shared memory segments、Java NIO 的 DirectByteBuffer(通过 /dev/shm 映射)、TensorFlow/PyTorch 的共享内存数据加载器(num_workers > 0 时)、自定义 shm_open() + mmap() 应用

定位 /dev/shm 下具体大文件或匿名段

/dev/shm 下的文件通常是命名共享内存对象(如 /dev/shm/psql-12345),但也可能是无名段(不显示为文件)。仅靠 ls -lSh /dev/shm 不够,需结合 ipcs -mlsof

  • ipcs -m -l 查看系统级共享内存限制(max number of segments, max seg size (bytes)
  • ipcs -m 列出当前所有共享内存段,关注 SEGSZ(大小)和 CPID(创建进程 PID)
  • lsof +D /dev/shm 查看哪些进程打开了 /dev/shm 下的文件或映射段(注意:部分匿名映射可能不显示)
  • 若发现可疑 PID,用 cat /proc//maps | grep shm 确认其 mmap 区域是否挂载自 shm

临时清理与永久调整方案

清理不能只删文件——rm /dev/shm/xxx 只解除名字绑定,若进程仍在使用,底层内存不会释放。必须终止对应进程,或让其主动释放。

  • 临时扩容(重启失效):sudo mount -o remount,size=2G /dev/shm
  • 永久生效(写入 /etc/fstab):none /dev/shm tmpfs defaults,size=2G 0 0,然后 sudo mount -o remount /dev/shm
  • 应用层规避:PostgreSQL 设置 shared_memory_type = mmap(绕过 shm);PyTorch DataLoader 改用 spawn 启动方式或设 num_workers=0 测试;Java 添加 -XX:+UseTransparentHugePages 减少小页映射压力
  • 监控建议:在 Prometheus 中用 node_filesystem_size_bytes{mountpoint="/dev/shm"} + node_filesystem_avail_bytes 做告警

为什么 df -i 看不出问题?

df -i 统计的是文件系统 inode 使用量,而 /dev/shm 是内存文件系统(tmpfs),其“文件”本质是内核中 struct shmid_kernelstruct file 对象,不消耗磁盘 inode。它的资源瓶颈是内存页(page)和内核共享内存对象数量,和磁盘 inode 完全无关。

真正该查的是 ipcs -l 输出里的 max number of segmentsmax total shared memory (kbytes),以及 /proc/meminfo 中的 Shmem: 行 —— 这才是 tmpfs 实际占用的内存总量。

text=ZqhQzanResources