外观
语音对话
约 810 字大约 3 分钟
2025-06-20
概述
语音配置页面用于管理和配置语音交互系统的各项参数,包括语音开关、唤醒词、睡眠词以及语音识别和合成引擎的选择。
功能模块

1. 启动语音
- 功能说明:控制语音系统的开启和关闭
- 控件类型:开关(Switch)
- 默认值:关闭(false)
- 影响范围:关闭后整个语音系统将不工作
2. 唤醒词
- 功能说明:设置用于唤醒语音系统的关键词
- 控件类型:文本输入框(Input)
- 使用场景:系统处于睡眠状态时,说出唤醒词可激活监听模式
- 注意事项:建议选择清晰、不易误触的词汇
3. 睡眠词
- 功能说明:设置用于让语音系统进入睡眠状态的关键词
- 控件类型:文本输入框(Input)
- 使用场景:系统处于监听状态时,说出睡眠词可停止监听
- 注意事项:与唤醒词应有所区分,避免混淆
4. 语音识别引擎(STT)
- 功能说明:选择语音转文字的识别引擎
- 控件类型:下拉选择框(Select)
- 可选引擎:
- 未选择
- vosk-model-small-cn-0.22(小型中文模型)
VOSK 引擎说明
特点:
- 完全离线运行,无需网络连接
- 识别准确率高,响应速度快
- 支持实时语音识别
- 轻量级,占用资源少
缺点:
- 准确率一般:相比大模型,复杂场景、口音、专业术语识别率较低
- 标点缺失:默认输出不带标点符号(需后处理添加)
- 长尾词弱:对生僻词、新词、专业词汇覆盖不足
- 不支持英文:当前模型仅支持中文识别
5. 语音合成引擎(TTS)
- 功能说明:选择文字转语音的合成引擎
- 控件类型:下拉选择框(Select)
- 可选引擎:
- 未选择
- edge_tts(Edge TTS)
- doubao-tts(豆包TTS,当前未开放)
Edge TTS 说明
特点:
- 语音质量高,自然流畅
- 支持多种音色和语言
- 响应速度快
- 免费使用
缺点:
- 需要网络连接
- 依赖微软服务稳定性
豆包TTS 说明(未开放)
特点:
- 基于大模型,语音自然度极高
- 情感表达丰富
- 支持多种风格和音色
- 中文表现优秀
缺点:
- 需要网络连接
- 可能需要API密钥
- 响应速度相对较慢
语音系统工作流程
启动语音
↓
睡眠状态
↓
检测唤醒词
↓
监听状态
↓
语音识别ASR (VOSK)
↓
检测睡眠词?
├─ 是 → 睡眠状态
└─ 否 → 继续处理
↓
LLM对话处理
↓
语音合成TTS (Edge)
↓
播放回复注意事项
- 唤醒词和睡眠词:建议选择发音清晰、不易混淆的词汇
- 引擎选择:根据网络环境和性能需求选择合适的引擎
- 离线环境:选择 VOSK(STT)
- 在线环境:可选择 Edge TTS(TTS)获得更好的语音质量
- 配置生效:修改配置后需要点击"保存配置"按钮才能生效
- 网络依赖:Edge TTS 需要网络连接才能正常工作
