HTML5 是标记语言标准,非可转换文件格式;导出 PDF 用浏览器打印最稳,转 Word 推荐 Pandoc,转 Markdown 宜手动重写,部署静态站需规范路径结构。

HTML5 本身不是一种可“转换格式”的文件类型,它是一种标记语言标准;你实际想做的,通常是把写好的 index.html 或其他 HTML 文件,转成 PDF、Word(.docx)、Markdown(.md)或静态站点部署格式(如 GitHub Pages 可识别的结构)。直接用浏览器“另存为”或在线工具一键转,往往丢样式、乱布局、缺交互——问题出在没区分「内容提取」和「渲染结果导出」。
导出为 PDF:用浏览器打印功能最稳
这是最可靠、兼容性最好的方式,尤其适合带 CSS 样式的页面。Chrome / Edge / Firefox 的「打印 → 保存为 PDF」会忠实还原当前渲染效果(包括 Flex/Grid 布局、字体、背景色)。
- 打开 HTML 页面后按
Ctrl+P(Windows)或Cmd+P(macOS) - 目标选择「另存为 PDF」,不是「Microsoft Print to PDF」这类虚拟打印机(它不执行 JS,也不加载 Web Fonts)
- 勾选「背景图形」才能保留
background-color和background-image - 若页面有分页需求,在 CSS 中加
@media print {.no-print { display: none;} }控制隐藏元素
转成 Word(.docx):别信在线转换站
多数在线 HTML → DOCX 工具会把整个 DOM 当纯文本塞进 Word,丢失语义(
变成普通段落)、破坏列表缩进、图片变成占位符。真要转,推荐用 Pandoc + 简单预处理:
- 先用浏览器「另存为网页,完整」得到
page.html和page_files/文件夹 - 用 Pandoc 命令行执行:
pandoc page.html -o output.docx --standalone - 如果含本地图片,确保图片路径是相对路径且在同目录下;否则 Pandoc 找不到,会留空
- Word 打开后可能需手动调整标题样式——Pandoc 默认映射
到「标题 1」,但 Word 模板可能未启用该样式
转成 Markdown(.md):只适合内容为主、无复杂布局的页面
Markdown 本质是轻量文本标记,无法表达 HTML 的盒模型、内联样式或 JS 动态内容。强行转换只会得到一堆
标签残留。立即学习 “ 前端免费学习笔记(深入)”;
- 优先手动重写:复制浏览器渲染后的纯文本(
Ctrl+Shift+C),粘贴到 Markdown 编辑器,再补上# 标题、- 列表等 - 若必须自动化,用
html2text命令行工具(Python 库):html2text page.html > output.md - 注意它默认删掉所有链接(只留文字),加
-g参数可保留:html2text -g page.html - 表格、代码块、自定义 class 名都会丢失——这不是 bug,是 Markdown 的能力边界
部署为静态网站:不是“转格式”,而是组织好文件结构
所谓“HTML5 转静态站”,其实是把多个 HTML、CSS、JS、图片归到一个目录,确保路径正确,然后扔到托管平台。最容易出错的是相对路径和资源加载顺序。
- 所有资源(
css/、js/、images/)统一放在根目录下子文件夹,避免嵌套过深 - HTML 中引用 CSS 必须用相对路径:
,不能写./css/style.css或绝对路径/css/style.css(后者在 GitHub Pages 子路径下会 404) - 检查控制台是否报
net::ERR_ABORTED—— 这说明某个或的src路径错了 - GitHub Pages 要求主页面叫
index.html,且必须放在仓库根目录或docs/目录下
真正卡住新手的,从来不是“怎么点按钮”,而是搞不清 HTML 是描述结构、CSS 控制样式、JS 处理行为——三者耦合时,随便改一个地方就可能让导出结果面目全非。动手前先问一句:我要的到底是“看起来像的副本”,还是“能继续编辑的内容源”?答案不同,方法完全不同。






























