IngenieríaPublicado el 2026-01-22·7 min de lectura

TranslateFlux: construir un traductor universal privado y offline

Notas sobre latencia, calidad y los trucos de ingeniería que hacen que un modelo pequeño se sienta competitivo frente a uno mucho mayor en la nube.

El problema

La traducción en la nube es excelente, rápida y gratuita — hasta que estás en un avión, en un país extranjero sin roaming, en un hospital donde sacar audio del recinto es una violación, o simplemente prefieres no transmitir tus conversaciones a un tercero.

TranslateFlux es nuestra respuesta: un traductor totalmente en el dispositivo para texto, voz e imágenes, en los idiomas que la gente realmente necesita.

Por qué un modelo pequeño puede bastar

Un modelo de traducción de 1–3B parámetros estilo MoE o destilado, en cuantización 4-bit, alcanza un techo de calidad sorprendentemente cercano al de los gigantes en la nube para los 50 pares de idiomas principales. La brecha que queda está en traducción de formato largo y alto contexto — la que necesita 2-3 párrafos previos — y podemos cerrar la mayor parte con retrieval sobre tus propias traducciones anteriores.

Dos trucos hacen que un modelo pequeño se sienta grande:

Inyección de glosario. Por conversación, se le da al modelo un pequeño diccionario de términos que has usado — nombres, siglas, vocabulario técnico — y los usa de forma consistente. Las APIs en la nube no tienen esta señal.
Steering de estilo. Un breve preámbulo de estilo ("japonés formal, correo de negocios") empuja la salida mucho más barato que añadir mil millones de parámetros.

Presupuesto de latencia

Para traducción de voz, nuestro presupuesto es de 600 ms desde el fin del enunciado al inicio de la respuesta. Lo dividimos así:

Finalización ASR: 100–200 ms (usando el endpoint streaming de WhisperFlux con finalización por confianza).
Prefill de traducción + primer token: 200–300 ms (el modelo pequeño tiene KV cache pequeña, y mantenemos prompts ajustados).
Primer audio TTS: 100–200 ms (Kokoro / Piper / TTS de plataforma).

Total: ajustado, pero interactivo. Subjetivamente, 600 ms se sienten como una persona ligeramente educada — el hueco que un traductor en la nube consigue raramente baja de 350 ms tras la red.

Lo que se envía primero

50 idiomas, pares 50×50.
Texto, voz (push-to-talk y continuo) e imagen (traduce la foto).
Modo "conversación en vivo" con dos contextos de decoding paralelos, uno por dirección.
Glosario, estilo y presets de tono por contacto / caso de uso.

En lo que somos honestos

Para traducción poética, literaria o muy ligada a la cultura, un modelo de frontera en la nube sigue siendo mejor. Te recomendaremos usar uno (proveedor a tu elección) y nada se enrutará a él desde nosotros.
Para pares con muy pocos recursos, la calidad cae. Seremos explícitos sobre qué pares hemos evaluado y en qué rango BLEU/COMET.

Esa honestidad es parte de lo que queremos que TranslateFlux se sienta.

Recibe nuevos artículos

Te avisaremos cuando publiquemos algo nuevo.

TranslateFlux: construir un traductor universal privado y offline

El problema

Por qué un modelo pequeño puede bastar

Presupuesto de latencia

Lo que se envía primero

En lo que somos honestos

Artículos relacionados

Por qué apostamos la empresa por la IA en el dispositivo

Diseñando Flux Engine: un único runtime para todos los productos

WhisperFlux preview: voz, hablantes y resúmenes — todo local