Python正则断言怎么用_前瞻后顾断言解析

6次阅读

断言不消耗字符,只判断位置前后条件:肯定前瞻 (?=…) 要求右侧匹配模式,否定前瞻 (?!…) 要求右侧不匹配;肯定后顾(?

Python 正则断言怎么用_前瞻后顾断言解析

Python 正则中的断言(assertions)不匹配实际字符,只判断某个位置 ** 前后是否满足条件 **,匹配成功与否取决于“环境”,而非消耗文本。它们分为前瞻(lookahead)和后顾(lookbehind)两类,又各分肯定与否定形式。用对了能精准控制匹配边界,避免误抓、多抓或漏抓。

肯定前瞻 (?=…):后面必须跟着什么

检查当前匹配位置 ** 右侧紧邻内容是否符合模式 **,但不占用字符。常用于“匹配某串,但要求它后面是特定内容”。

  • 比如提取所有后面跟 -ing 的动词原形:r"bw+(?=-ingb)" 匹配 run in run-ing,但不匹配单独的 run
  • 密码校验中要求至少含一个数字:r"^(?=.*d).{8,}$" —— (?=.*d) 确保整串里某处有数字,但不指定在哪

否定前瞻 (?!…):后面不能跟着什么

确保当前位置右侧 ** 不以指定模式开头 **。适合排除干扰项。

  • 匹配不是 http:// 开头的 URL:r"(?!http://)bw+://S+"(注意需配合更完整逻辑,此处仅示意)
  • 找单词 class,但排除 class_name 中的 class:r"bclassb(?!_)" —— (?!_) 表示后面不能是下划线

肯定后顾 (?:前面必须是啥

检查当前匹配位置 ** 左侧紧邻内容是否符合模式 **。注意:Python 要求后顾中的模式必须是 ** 定长 **(fixed-width),不能含 *+{2,} 等不定长量词。

立即学习Python 免费学习笔记(深入)”;

  • 提取 $ 后面的价格数字:r"(? 可匹配 <em>$19.99</em> 中的 <strong>19.99</strong>
  • 匹配被引号包围的字符串内容(不含引号):r"(?(简化版,实际需处理转义)

否定后顾 (?:前面不能是啥

确保当前位置左侧 ** 不以指定模式结尾 **,同样要求模式定长。

  • 匹配独立单词 cat,但排除 scatconcat 中的 cat:r"(? —— 前后都不是字母
  • 找未被注释掉的 print(即前面没有 #):r"(?(简单场景,复杂注释需更严谨)

断言本质是“零宽”——它不挪动匹配指针,也不捕获内容。写的时候别忘了加括号,也别把它当成普通分组来引用。熟练之后,很多原本要靠切片、循环或多次 re.search 解决的问题,一行正则就能干净搞定。

text=ZqhQzanResources