HTML5语音识别怎么用_麦克风输入功能开启说明【教程】

2次阅读

Web Speech API 的 SpeechRecognition 在 Chrome 中无反应的根本原因是仅支持 HTTPS 或 localhost,HTTP 页面直接禁用;需用户手势触发、检测浏览器兼容性、正确配置 interimResults 和 continuous 参数。

HTML5 语音识别怎么用_麦克风输入功能开启说明【教程】

Web Speech API 的 SpeechRecognition 在 Chrome 里为什么没反应

根本原因:它只在 HTTPS 页面或 localhost 下工作,HTTP 页面直接被浏览器禁用,连 new SpeechRecognition() 都会报 ReferenceError: SpeechRecognition is not defined

实操建议:

  • 本地开发时务必用 http://localhost:3000 这类地址,别用 file://http://127.0.0.1:3000(部分旧版 Chrome 不认)
  • 上线部署必须配 HTTPS,自签名证书也不行,得是浏览器信任的 CA 签发的
  • 检查浏览器支持:Chrome 33+、Edge 79+ 支持,Firefox 和 Safari 完全不支持 SpeechRecognition 接口
  • 别依赖 window.SpeechRecognition 全局变量存在——先检测:
    const SpeechRecognition = window.SpeechRecognition || window.webkitSpeechRecognition;

    否则在 Safari 里直接崩

麦克风权限没弹出?recognition.start() 卡住不动

不是代码写错了,是调用时机不对。浏览器强制要求用户手势触发(比如点击按钮),不能在页面加载完自动 start()

常见错误现象:

立即学习 前端免费学习笔记(深入)”;

  • 页面 onload 里直接 recognition.start() → 权限静默失败,控制台报 NotAllowedError: Permission denied
  • setTimeout 延迟 1 秒再 start → 依然无效,手势上下文已丢失

正确做法:

  • 绑定到用户真实点击事件:
    button.addEventListener('click', () => recognition.start());
  • 如果要用语音唤醒,得先让用户点一次按钮授权,之后才能后台监听(但需保持页面前台活跃)
  • 启动前加状态判断:if (recognition.readyState === 'idle') recognition.start();,避免重复调用导致异常

interimResults: truecontinuous: true 怎么组合才不丢字

这两个布尔值控制识别流的行为,乱配会导致回调只触发一次、或中间结果覆盖最终结果。

使用场景与参数差异:

  • interimResults: false(默认)→ 只返回最终确认结果,适合命令式语音(如“打开设置”)
  • interimResults: true → 每次识别更新都触发 result 事件,但需要手动区分 event.results[i].isFinal
  • continuous: true + interimResults: true → 麦克风持续收音,不断吐结果,适合听写;但若不清理 event.results 索引,容易把上一轮的 isFinal=false 结果当新内容追加

关键细节:

  • 每次 result 回调里,event.results 是一个 SpeechRecognitionResultList,要遍历所有 event.results.length 项,不能只取 [0]
  • 推荐结构:
    recognition.onresult = event => {for (let i = event.resultIndex; i < event.results.length; i++) {const transcript = event.results[i][0].transcript;     if (event.results[i][0].isFinal) finalText += transcript;   } };

识别中文不准、延迟高、老是断掉

不是模型问题,是语言和配置没对齐。Web Speech API 的识别引擎完全由浏览器调用系统级服务(Chrome 走 Google 语音引擎),不走前端 JS。

性能与兼容性影响:

  • 必须显式设 recognition.lang = 'zh-CN',不设默认按浏览器 UI 语言走,英文系统跑中文识别准确率暴跌
  • 移动端 Chrome(Android)支持较好;iOS Safari 完全无解,SpeechRecognition 对象根本不存在
  • 识别过程耗电明显,长时间运行可能被系统休眠麦克风,尤其 PWA 离开前台后自动终止
  • 没有“静音检测”或“说话结束自动停”机制,continuous: true 下必须自己监听 end 事件并手动 start() 续上,否则一卡就断

容易被忽略的一点:识别质量严重依赖网络——所有音频都在上传到 Google 服务器处理,离线完全不可用。家里宽带抖动、公司防火墙拦截 https://www.google.com/speech-api 域名,都会表现为“识别中……然后没反应”。

text=ZqhQzanResources