提取 HTML 字符串中指定关键词之间的全部内容（含标签）

28次阅读

本文介绍如何使用 r 的 stringr 包精准提取 html 文本中两个关键词（如 “regeste” 和 “sachverhalt”）之间的完整子字符串，包括中间所有 html 标签与空白符，并说明正则设计原理、大小写兼容处理及常见陷阱。

本文介绍如何使用 r 的 stringr 包精准提取 html 文本中两个关键词（如 “regeste” 和 “sachverhalt”）之间的完整子字符串，包括中间所有 html 标签与空白符，并说明正则设计原理、大小写兼容处理及常见陷阱。

在网页文本解析任务中（例如使用 rvest 抓取法律判决书 HTML），常需定位并提取某两个语义锚点（如

Regeste

与 Sachverhalt）之间的全部原始内容——不仅包含文字，还必须保留嵌套的 HTML 标签、换行符和空格。此时，简单的 str_extract(html, “Regeste.*Sachverhalt”) 会失败，因为默认的 . 不匹配换行符（），且贪婪匹配可能越界或遗漏边界。

正确解法是使用 支持跨行匹配的正则表达式 + 环视断言（lookaround），确保精确截取“起始关键词之后、终止关键词之前”的全部内容：

library(dplyr) library(stringr)  df %>%   mutate(between = str_extract(       html,       "(?<=Regeste|regeste)[sS]*(?=Sachverhalt|sachverhalt)"     )   )

✅ 关键技术点解析：

(?
[sS]*：匹配任意字符（包括换行符、空格、制表符及所有 Unicode 字符），替代不可靠的 .*；
(?=Sachverhalt|sachverhalt)：正向前瞻（positive lookahead），匹配位置后必须是 Sachverhalt 或 sachverhalt，同样不捕获边界词；
整体为非贪婪逻辑下的最大范围匹配，适用于 HTML 中多层嵌套、跨多行的结构。

⚠️ 注意事项：

立即学习 “ 前端免费学习笔记（深入）”；

若 HTML 中存在多个 Regeste/Sachverhalt，该正则默认返回 第一个匹配项（str_extract 行为）；如需全部匹配，请改用 str_extract_all() 并取首个结果；
若需严格区分大小写（如仅匹配首字母大写的 Regeste），可移除 |regeste 分支并添加 regex(…, ignore_case = FALSE)；
不建议直接用 str_replace() 删除边界词——易破坏 HTML 结构完整性；应始终以“提取中间段”为目标；
对于更复杂的 HTML 解析（如需清洗标签、提取纯文本、保留特定元素），推荐后续结合 rvest::html_nodes() 进行 DOM 导航，而非纯正则处理。

总结：在 R 中提取 HTML 片段时，[sS]* 配合环视断言是兼顾准确性、可读性与鲁棒性的首选方案。它绕开了 dotall 模式开关的复杂性，适用于 tidyverse 流水线，是数据工程师与法律文本分析者处理结构化网页内容的实用技巧。

发表于：前端开发

2026-02-16