Python Python 虚拟机工作原理

10次阅读

python 虚拟机(pvm)是 cpython 解释器内置的运行时引擎,负责逐条解释执行字节码,基于栈式结构与帧对象模型,通过 ceval 循环调度 c 函数实现语义,受 gil 约束且不模拟硬件。

Python Python 虚拟机工作原理

Python 虚拟机 (Python Virtual Machine,PVM)不是传统意义上的硬件虚拟机,而是 CPython 解释器内部的一个运行时引擎,负责执行 Python 编译后的字节码。它的核心作用是将 .pyc 文件中的字节码逐条解释、调度并调用底层 C 函数完成实际操作。

字节码是 PVM 的“唯一语言”

Python 源代码(.py)在首次导入或运行时,会被编译成平台无关的字节码(opcode),保存为 __pycache__/xxx.cpython-3x.pyc。PVM 不读 Python 文本,只处理这些紧凑的指令序列,比如 LOAD_NAMEBINARY_ADDCALL_FUNCTION 等。

  • 每个字节码指令通常对应一个 C 函数(定义在 Python/ceval.c 中)
  • 字节码按顺序存放在 code object 的 co_code 字段中,PVM 用一个指针(next_instr)逐条取指、解码、执行
  • 你可以用 dis.dis(func) 查看任意函数的字节码,直观理解 PVM 的执行路径

栈式结构 + 基于帧的执行模型

PVM 是典型的栈式虚拟机:它维护一个求值栈(evaluation stack),用于暂存操作数和中间结果;同时为每次函数调用创建一个 PyFrameObject(帧对象),封装局部变量、代码对象、上层帧引用等上下文信息。

  • 函数调用时,新帧被压入帧栈(frame stack),PVM 切换到该帧执行
  • 局部变量通过索引访问(快于字典查找),而全局 / 内置变量仍走字典(f_globalsf_builtins
  • 异常传播、生成器挂起 / 恢复、闭包环境都依赖帧对象的状态保存与恢复

循环取指—执行(CEVAL 循环)是核心心跳

CPython 的主执行循环位于 ceval.c 中的 PyEval_EvalFrameEx()(3.11 后重构为 _PyEval_EvalFrameDefault)。它是一个巨大的 switch-case,对每个字节码做针对性处理,并更新栈、寄存器和帧状态。

立即学习 Python 免费学习笔记(深入)”;

  • 每轮循环:取一条字节码 → 解析操作数 → 执行对应逻辑 → 更新指令指针
  • 涉及 GIL(全局解释器锁):同一时刻仅一个线程执行字节码,保证内存安全但限制 CPU 密集型并发
  • 部分优化(如自适应字节码、快速路径)在较新版本中逐步加入,但整体仍是解释执行,非 JIT 编译

与真实机器的映射关系很轻量

PVM 不模拟 CPU 寄存器或内存管理单元,它完全构建在 C 运行时之上。所有对象(int、list、dict……)都是 PyObject* 指针,内存由 CPython 的私有内存分配器(pymalloc)管理;所有“指令”最终都转为 C 函数调用或内存操作。

  • 没有独立地址空间,直接复用宿主进程的堆和栈
  • 无指令缓存、无分支预测,性能瓶颈常在对象动态分发(如属性查找)和 GIL 竞争
  • 这也是为什么 Cython、Numba 或 PyPy(自带 JIT)能显著加速——它们绕开了标准 PVM 的解释开销

理解 PVM 不是为了手写字节码,而是看清 Python 动态性、作用域、GIL 和性能瓶颈的根源。它本质是 C 实现的一套精巧的、面向高级语义的指令调度器。

text=ZqhQzanResources