エンジニアリング2026-01-22公開·7分で読めます
TranslateFlux:プライベートでオフラインなユニバーサル翻訳機を作る
翻訳レイテンシと品質、そして小さなモデルを大きなクラウドモデルと競争力ある体験にするエンジニアリングのトリック。
課題
クラウド翻訳は優秀で速く無料だ——飛行機内、ローミングのない外国、音声の持ち出しが違反となる病院、あるいは単に会話を第三者にストリームしたくない人にとって以外は。
TranslateFluxはその答えだ:テキスト・音声・画像を、人々が実際に必要とする言語でカバーする、完全オンデバイスの翻訳機。
小さなモデルでも十分な理由
1〜3Bパラメータ、MoEスタイルあるいは蒸留した翻訳モデルを4ビット量子化で動かすと、上位50言語ペアでは品質上限がクラウド既存勢に驚くほど近い。残るギャップは長文・高文脈翻訳——前段2〜3パラグラフの支えが要るような——だが、自分の過去翻訳に対する検索で大部分は埋まる。
小モデルを「大きく感じさせる」エンジニアリング技:
- 用語注入。 会話ごとに、過去使った人名・略語・専門語の小辞書をモデルに与え、一貫して使わせる。クラウドAPIにはないシグナル。
- スタイル誘導。 短いスタイル前置き(「フォーマルな日本語、ビジネスメール」)は、十億パラメータ追加よりはるかに安くて効く。
レイテンシ予算
音声翻訳では、発話終了から応答開始まで600 msが予算。内訳:
- ASR確定:100〜200 ms(WhisperFluxのストリーミング端+信頼度トリガ確定)。
- 翻訳プリフィル+最初のトークン:200〜300 ms(小モデルはKVキャッシュも小、プロンプトをタイトに保つ)。
- TTS最初の音:100〜200 ms(Kokoro / Piper / プラットフォームTTS)。
計:タイトだがインタラクティブ。主観的に600 msの間は少し礼儀正しい人くらい——クラウド翻訳もネット込みでは350 msを下回ることは稀。
最初のリリース
- 50言語、50×50ペア。
- テキスト、音声(プッシュ・トゥ・トーク/連続)、画像(写真翻訳)。
- 「ライブ会話」モード:方向ごとに並行デコードコンテキストを2つ。
- 連絡先別/用途別の用語・スタイル・トーン プリセット。
正直に言うこと
- 詩・文学・強い文化依存の翻訳では、フロンティアのクラウドモデルがまだ上だ。あなたが選んだプロバイダを薦める。我々から何かをそこへルーティングすることはない。
- 極低リソース言語ペアでは品質が下がる。どのペアを評価し、BLEU/COMETのレンジがどこかを明示する。
その正直さも、TranslateFluxの体験の一部だ。