IngénieriePublié le 2026-01-22·7 min de lecture

TranslateFlux : construire un traducteur universel privé et hors-ligne

Notes sur la latence, la qualité, et les astuces d’ingénierie qui rendent un petit modèle compétitif face à un bien plus gros modèle cloud.

Le problème

La traduction cloud est excellente, rapide et gratuite — jusqu'à ce que vous soyez en avion, à l'étranger sans roaming, à l'hôpital où sortir de l'audio est une violation, ou simplement que vous préfériez ne pas streamer vos conversations à un tiers.

TranslateFlux est notre réponse : un traducteur entièrement embarqué pour texte, voix et images, dans les langues dont les gens ont vraiment besoin.

Pourquoi un petit modèle peut suffire

Un modèle de traduction 1–3B paramètres style MoE ou distillé, en quantification 4 bits, atteint un plafond de qualité étonnamment proche des grands cloud sur les 50 paires de langues principales. L'écart restant est sur la traduction longue et à fort contexte — celle qui nécessite 2-3 paragraphes précédents — et nous pouvons combler l'essentiel avec du retrieval sur vos propres traductions passées.

Deux astuces pour qu'un petit modèle paraisse grand :

Injection de glossaire. Par conversation, le modèle reçoit un petit dictionnaire de termes que vous avez utilisés — noms, acronymes, vocabulaire technique — et les utilise de façon cohérente. Les APIs cloud n'ont pas ce signal.
Steering de style. Un court préambule de style (« japonais formel, e-mail professionnel ») pousse la sortie bien moins cher qu'un milliard de paramètres en plus.

Budget de latence

Pour la traduction vocale, notre budget est de 600 ms entre la fin d'énoncé et le début de réponse. Ventilation :

Finalisation ASR : 100–200 ms (endpoint streaming de WhisperFlux + finalisation pilotée par confiance).
Prefill de traduction + premier token : 200–300 ms (petit modèle, petit KV cache, prompts serrés).
Premier audio TTS : 100–200 ms (Kokoro / Piper / TTS plateforme).

Total : serré mais interactif. Subjectivement, 600 ms ressemble à une personne légèrement polie — la traduction cloud, réseau inclus, descend rarement sous 350 ms.

Ce qui sort d'abord

50 langues, paires 50×50.
Texte, voix (push-to-talk et continu), image (traduire la photo).
Mode « conversation live » avec deux contextes de décodage parallèles, un par direction.
Préréglages de glossaire, style et ton, par contact / cas d'usage.

Ce sur quoi nous sommes honnêtes

Pour la traduction poétique, littéraire, fortement liée à la culture, un modèle cloud de frontière reste meilleur. Nous vous recommanderons d'en utiliser un (fournisseur de votre choix) — rien ne sera routé vers lui depuis nous.
Pour les paires très peu dotées, la qualité chute. Nous serons explicites sur quelles paires nous avons évaluées et dans quelle plage BLEU/COMET.

Cette honnêteté fait partie de ce que TranslateFlux veut être.

Recevez les nouveaux articles

Nous vous préviendrons dès qu'un nouvel article paraît.

TranslateFlux : construire un traducteur universel privé et hors-ligne

Le problème

Pourquoi un petit modèle peut suffire

Budget de latence

Ce qui sort d'abord

Ce sur quoi nous sommes honnêtes

Articles liés

Pourquoi nous misons l’entreprise sur l’IA embarquée

Concevoir Flux Engine : un seul runtime pour tous les produits

WhisperFlux preview : voix, locuteurs, résumés — tout en local