TranslateFlux : construire un traducteur universel privé et hors-ligne
Notes sur la latence, la qualité, et les astuces d’ingénierie qui rendent un petit modèle compétitif face à un bien plus gros modèle cloud.
Le problème
La traduction cloud est excellente, rapide et gratuite — jusqu'à ce que vous soyez en avion, à l'étranger sans roaming, à l'hôpital où sortir de l'audio est une violation, ou simplement que vous préfériez ne pas streamer vos conversations à un tiers.
TranslateFlux est notre réponse : un traducteur entièrement embarqué pour texte, voix et images, dans les langues dont les gens ont vraiment besoin.
Pourquoi un petit modèle peut suffire
Un modèle de traduction 1–3B paramètres style MoE ou distillé, en quantification 4 bits, atteint un plafond de qualité étonnamment proche des grands cloud sur les 50 paires de langues principales. L'écart restant est sur la traduction longue et à fort contexte — celle qui nécessite 2-3 paragraphes précédents — et nous pouvons combler l'essentiel avec du retrieval sur vos propres traductions passées.
Deux astuces pour qu'un petit modèle paraisse grand :
- Injection de glossaire. Par conversation, le modèle reçoit un petit dictionnaire de termes que vous avez utilisés — noms, acronymes, vocabulaire technique — et les utilise de façon cohérente. Les APIs cloud n'ont pas ce signal.
- Steering de style. Un court préambule de style (« japonais formel, e-mail professionnel ») pousse la sortie bien moins cher qu'un milliard de paramètres en plus.
Budget de latence
Pour la traduction vocale, notre budget est de 600 ms entre la fin d'énoncé et le début de réponse. Ventilation :
- Finalisation ASR : 100–200 ms (endpoint streaming de WhisperFlux + finalisation pilotée par confiance).
- Prefill de traduction + premier token : 200–300 ms (petit modèle, petit KV cache, prompts serrés).
- Premier audio TTS : 100–200 ms (Kokoro / Piper / TTS plateforme).
Total : serré mais interactif. Subjectivement, 600 ms ressemble à une personne légèrement polie — la traduction cloud, réseau inclus, descend rarement sous 350 ms.
Ce qui sort d'abord
- 50 langues, paires 50×50.
- Texte, voix (push-to-talk et continu), image (traduire la photo).
- Mode « conversation live » avec deux contextes de décodage parallèles, un par direction.
- Préréglages de glossaire, style et ton, par contact / cas d'usage.
Ce sur quoi nous sommes honnêtes
- Pour la traduction poétique, littéraire, fortement liée à la culture, un modèle cloud de frontière reste meilleur. Nous vous recommanderons d'en utiliser un (fournisseur de votre choix) — rien ne sera routé vers lui depuis nous.
- Pour les paires très peu dotées, la qualité chute. Nous serons explicites sur quelles paires nous avons évaluées et dans quelle plage BLEU/COMET.
Cette honnêteté fait partie de ce que TranslateFlux veut être.