工程发布于 2026-01-22·约 7 分钟阅读
TranslateFlux:构建一个私密的离线通用翻译器
关于翻译时延、质量,以及让小模型在感受上贴近大型云模型的工程技巧。
问题
云翻译很优秀、很快、免费——直到你在飞机上、在没有漫游的他国、在不允许把音频带出场地的医院,或者你只是不太想把对话流式上传给第三方。
TranslateFlux 是我们的回答:一个完全端侧的翻译器,覆盖文本、语音、图像,专攻人们真正需要的语种。
为什么小模型也够用
1–3B 参数、采用 MoE 风格或蒸馏的翻译模型,在 4-bit 量化下,对前 50 个语种对的质量上限已经惊人地接近云端在位者。剩余差距在长篇、高上下文翻译——那种需要前文 2-3 段做支撑的——我们可以用对你自己历史翻译的检索来补上大半。
两个工程技巧能让小模型"感觉很大":
- 术语注入。 每段会话里,给模型一份你之前用过的小词典——人名、缩写、专业术语——让它一致地使用。云 API 没有这个信号。
- 风格引导。 一段短小的风格前缀("正式日语,商务邮件")远比多增十亿参数便宜,效果却显著。
延迟预算
语音翻译的预算是从话音终止到响应起始 600 ms。我们的拆分:
- ASR 终结:100–200 ms(使用 WhisperFlux 的流式端口 + 置信度触发的终结)。
- 翻译预填 + 首 token:200–300 ms(小模型的 KV 缓存小,且我们把提示词压得很紧)。
- TTS 首音:100–200 ms(Kokoro / Piper / 平台 TTS)。
总和:紧,但已交互。主观上 600 ms 的间隙像一个稍有礼貌的人——云翻译加上网络之后,常常也低不到 350 ms。
首发交付
- 50 个语种,50×50 对。
- 文本、语音(按住说话与持续模式)、图像(翻译照片)。
- "实时对话"模式:两个方向并行解码上下文。
- 按联系人 / 按场景的术语、风格、语气预设。
我们坦率承认
- 对诗歌、文学、强文化绑定的翻译,前沿云模型仍更好。我们会建议你用一个(厂商任选),我们这边不会有任何路由到它。
- 对极低资源语种对,质量会下降。我们会明确说明评估过哪些语种对、BLEU/COMET 在哪个区间。
这份坦率是 TranslateFlux 想给你的感觉的一部分。