内核 panic 生成 vmcore 后如何用 crash 提取调用栈关键信息

26次阅读

crash 提取调用栈关键信息的核心是定位崩溃上下文，需确保 vmcore 完整、vmlinux 匹配且 crash 版本兼容；通过 log/sys/mach 初步确认 panic 现场，再用 bt、reg、dis、rd 等命令结合寄存器与内存分析根因。

内核 panic 生成 vmcore 后，用 crash 提取调用栈关键信息的核心是定位崩溃时的上下文——尤其是触发 panic 的 CPU、当前进程、寄存器状态和函数调用链。只要 vmcore 和对应内核的 vmlinux（带调试符号）齐全，crash 工具能快速还原现场。

crash 无法解析 vmcore 的常见原因是缺少匹配的 vmlinux 文件（不是 /boot/vmlinuz，而是带调试信息的编译产物，通常在内核源码目录下执行 make vmlinux 生成，或从 debuginfo 包安装）。

检查 vmcore 是否完整：file vmcore 应显示“Linux kernel core dump”
验证 vmlinux 可用：crash vmlinux vmcore -h 不报错即基本可用；若提示“unrecognized file format”，说明 vmlinux 缺失调试段或版本不匹配
确保 crash 版本与内核主版本兼容（如 5.x 内核建议用 crash 7.3+）

启动 crash 后，第一件事是看 panic 日志和当前 CPU 状态：

log：查看内核环缓冲区，找“Kernel panic”、“Oops”、“BUG”或“WARNING”行，注意紧邻的调用痕迹（如“Call Trace:”后面的地址）
sys：确认崩溃时哪个 CPU 在运行（crashing_cpu 字段）、是否启用了 kdump、panic 发生时间等
mach：查看机器架构和内存布局，辅助判断地址有效性

调用栈是分析根因的主线。crash 提供多个命令还原不同视角的栈：

bt（backtrace）：显示当前上下文（通常是 panic 时正在执行的进程）的完整调用栈。加 -v 显示寄存器值，加 -a 显示所有 CPU 的栈（适合多核 panic 场景）
bt -f：强制解码栈帧，对被优化掉帧指针的内核（如 CONFIG_FRAME_POINTER=n）更可靠
ps | grep RUN：找出处于运行态的进程，再用 bt 查看其栈，常用于判断是否是某进程触发了资源耗尽或非法访问
若栈中出现大量 ??:? 或无法解析的地址，说明对应模块未加载符号（如第三方驱动），需补充该模块的 .ko 文件并用 mod -s 加载符号

调用栈只是“路径”，真正的问题常藏在寄存器值或异常内存访问中：

reg：查看崩溃 CPU 的寄存器快照，重点关注 rip（指令指针）、rsp（栈指针）、rbp（帧指针）、rax/rbx 等通用寄存器值。若 rip 指向非法地址（如 0x0000000000000000 或 0xffff88…），大概率是空指针解引用
dis -l
：反汇编指定地址附近指令，确认崩溃前执行了哪条语句（如 mov %rax,(%rbx) 且 rbx=0 即写空地址）
rd -8
：读取内存内容，验证指针指向的数据是否合理（如检查 task_struct 中的成员是否为全 0 或野值）