语音对话

约 810 字大约 3 分钟

2025-06-20

概述

语音配置页面用于管理和配置语音交互系统的各项参数，包括语音开关、唤醒词、睡眠词以及语音识别和合成引擎的选择。

功能模块

1. 启动语音

功能说明：控制语音系统的开启和关闭
控件类型：开关（Switch）
默认值：关闭（false）
影响范围：关闭后整个语音系统将不工作

2. 唤醒词

功能说明：设置用于唤醒语音系统的关键词
控件类型：文本输入框（Input）
使用场景：系统处于睡眠状态时，说出唤醒词可激活监听模式
注意事项：建议选择清晰、不易误触的词汇

3. 睡眠词

功能说明：设置用于让语音系统进入睡眠状态的关键词
控件类型：文本输入框（Input）
使用场景：系统处于监听状态时，说出睡眠词可停止监听
注意事项：与唤醒词应有所区分，避免混淆

4. 语音识别引擎（STT）

功能说明：选择语音转文字的识别引擎
控件类型：下拉选择框（Select）
可选引擎：
- 未选择
- vosk-model-small-cn-0.22（小型中文模型）

VOSK 引擎说明

特点：

完全离线运行，无需网络连接
识别准确率高，响应速度快
支持实时语音识别
轻量级，占用资源少

缺点：

准确率一般：相比大模型，复杂场景、口音、专业术语识别率较低
标点缺失：默认输出不带标点符号（需后处理添加）
长尾词弱：对生僻词、新词、专业词汇覆盖不足
不支持英文：当前模型仅支持中文识别

5. 语音合成引擎（TTS）

功能说明：选择文字转语音的合成引擎
控件类型：下拉选择框（Select）
可选引擎：
- 未选择
- edge_tts（Edge TTS）
- doubao-tts（豆包TTS，当前未开放）

Edge TTS 说明

特点：

语音质量高，自然流畅
支持多种音色和语言
响应速度快
免费使用

缺点：

需要网络连接
依赖微软服务稳定性

豆包TTS 说明（未开放）

特点：

基于大模型，语音自然度极高
情感表达丰富
支持多种风格和音色
中文表现优秀

缺点：

需要网络连接
可能需要API密钥
响应速度相对较慢

语音系统工作流程

启动语音
    ↓
睡眠状态
    ↓
检测唤醒词
    ↓
监听状态
    ↓
语音识别ASR (VOSK)
    ↓
检测睡眠词?
    ├─ 是 → 睡眠状态
    └─ 否 → 继续处理
        ↓
LLM对话处理
    ↓
语音合成TTS (Edge)
    ↓
播放回复

注意事项

唤醒词和睡眠词：建议选择发音清晰、不易混淆的词汇
引擎选择：根据网络环境和性能需求选择合适的引擎
- 离线环境：选择 VOSK（STT）
- 在线环境：可选择 Edge TTS（TTS）获得更好的语音质量
配置生效：修改配置后需要点击"保存配置"按钮才能生效
网络依赖：Edge TTS 需要网络连接才能正常工作

公告板

2026年2月

electron迁移成tauri，新增了语音实时对话功能