一个翻译器,代码含人量0%,用于桌面音频的实时识别和AI翻译
-
🎤 音频捕获
- 支持麦克风输入设备
- 支持桌面音频捕获(Loopback)
- 实时音量监测和阈值过滤
- 可配置采样率和处理间隔
-
🗣️ 语音识别
- 基于Vosk离线语音识别引擎
- 支持多种语言模型(中文、英文、日文、俄文等)
- 实时流式识别
- 支持部分结果和最终结果
-
🌐 AI翻译
- 支持多种AI API提供商(SiliconFlow等)
- 可自定义API端点
- 上下文记忆管理
- 即时翻译模式(实时显示部分识别结果)
- 可自定义提示词模板
-
🖥️ 用户界面
- 基于PyQt6的现代化GUI
- 实时显示识别文本和翻译结果
- 设备选择和配置
- 设置面板(音频、识别、翻译配置)
- 状态栏和进度显示
-
🥽 VR支持
- AI不懂事乱写的,是卫星
- OpenXR集成(可选)
- VR环境下的翻译显示
将Vosk语音识别模型放置在 models/ 目录下(可能需要新建文件夹)。
可以从 Vosk模型库 下载模型。
-
选择音频设备
- 在设置页面选择输入设备或桌面音频设备
- 可以切换设备类型(输入/桌面音频)
-
加载语音识别模型
- 在主界面选择语言模型
- 点击"加载模型"按钮
-
开启监听
- 点击"开启监听"按钮开始捕获音频
-
开启识别
- 点击"开启识别"按钮开始语音识别
-
开启翻译
- 确保已配置API密钥
- 点击"开启翻译"按钮开始翻译
- 在设置中启用"即时翻译"后,会在识别过程中实时显示部分翻译结果
- 适合需要快速看到翻译的场景(额外消耗token)
- 系统会自动保存最近N条翻译记录作为上下文
- 上下文会在翻译时提供给AI,提高翻译准确性
- 可在设置中配置记忆条数和记忆时间(消耗大量token)
- 设置音量阈值可以过滤低音量音频,减少无效识别
- 实时显示当前音量水平
- 部分软件设置在修改后需要重启才生效
提示词模板支持以下占位符:
{text}- 待翻译文本{context}- 前文参考{last}- 上一句话
[WTFPL]