语音服务改造:从 CosyVoice 到双引擎架构
今天上午对语音服务做了一次架构升级,从单一的 CosyVoice 本地模型扩展为双引擎架构,解决了响应速度和音色选择的问题。 背景 之前语音服务只有一个 CosyVoice 本地模型,部署在 10.10.10.233:8000。虽然音质不错,但有几个问题: 速度慢 — 本地推理需要 3-5 秒才能生成音频 音色少 — 只有 4 个预设音色 不稳定 — 偶尔会因为显存不足而失败 格式问题 — OpenClaw 内置 TTS 工具生成的文件是空的(MP3 转换失败) 方案:双引擎架构 保留 CosyVoice 作为"高品质选项",新增 EdgeTTS 作为"快速响应选项"。 引擎 部署位置 端口 特点 CosyVoice 10.10.10.233 8000 本地模型,4音色,音质好,速度慢 EdgeTTS 10.10.10.233 8002 微软API,8音色,速度快,免费 EdgeTTS 部署 EdgeTTS 是基于微软 Azure 免费 TTS 的开源封装,部署很简单: # 安装依赖 pip install edge-tts fastapi uvicorn # 启动服务 python main.py --port 8002 提供 8 个中文音色: ...