TranslateFlux: construir un traductor universal privado y offline
Notas sobre latencia, calidad y los trucos de ingeniería que hacen que un modelo pequeño se sienta competitivo frente a uno mucho mayor en la nube.
El problema
La traducción en la nube es excelente, rápida y gratuita — hasta que estás en un avión, en un país extranjero sin roaming, en un hospital donde sacar audio del recinto es una violación, o simplemente prefieres no transmitir tus conversaciones a un tercero.
TranslateFlux es nuestra respuesta: un traductor totalmente en el dispositivo para texto, voz e imágenes, en los idiomas que la gente realmente necesita.
Por qué un modelo pequeño puede bastar
Un modelo de traducción de 1–3B parámetros estilo MoE o destilado, en cuantización 4-bit, alcanza un techo de calidad sorprendentemente cercano al de los gigantes en la nube para los 50 pares de idiomas principales. La brecha que queda está en traducción de formato largo y alto contexto — la que necesita 2-3 párrafos previos — y podemos cerrar la mayor parte con retrieval sobre tus propias traducciones anteriores.
Dos trucos hacen que un modelo pequeño se sienta grande:
- Inyección de glosario. Por conversación, se le da al modelo un pequeño diccionario de términos que has usado — nombres, siglas, vocabulario técnico — y los usa de forma consistente. Las APIs en la nube no tienen esta señal.
- Steering de estilo. Un breve preámbulo de estilo ("japonés formal, correo de negocios") empuja la salida mucho más barato que añadir mil millones de parámetros.
Presupuesto de latencia
Para traducción de voz, nuestro presupuesto es de 600 ms desde el fin del enunciado al inicio de la respuesta. Lo dividimos así:
- Finalización ASR: 100–200 ms (usando el endpoint streaming de WhisperFlux con finalización por confianza).
- Prefill de traducción + primer token: 200–300 ms (el modelo pequeño tiene KV cache pequeña, y mantenemos prompts ajustados).
- Primer audio TTS: 100–200 ms (Kokoro / Piper / TTS de plataforma).
Total: ajustado, pero interactivo. Subjetivamente, 600 ms se sienten como una persona ligeramente educada — el hueco que un traductor en la nube consigue raramente baja de 350 ms tras la red.
Lo que se envía primero
- 50 idiomas, pares 50×50.
- Texto, voz (push-to-talk y continuo) e imagen (traduce la foto).
- Modo "conversación en vivo" con dos contextos de decoding paralelos, uno por dirección.
- Glosario, estilo y presets de tono por contacto / caso de uso.
En lo que somos honestos
- Para traducción poética, literaria o muy ligada a la cultura, un modelo de frontera en la nube sigue siendo mejor. Te recomendaremos usar uno (proveedor a tu elección) y nada se enrutará a él desde nosotros.
- Para pares con muy pocos recursos, la calidad cae. Seremos explícitos sobre qué pares hemos evaluado y en qué rango BLEU/COMET.
Esa honestidad es parte de lo que queremos que TranslateFlux se sienta.