TranslateFlux: construir um tradutor universal privado e offline
Notas sobre latência, qualidade e os truques de engenharia que fazem um modelo pequeno parecer competitivo com um modelo de nuvem muito maior.
O problema
Tradução em nuvem é excelente, rápida e gratuita — até você estar em um avião, num país estrangeiro sem roaming, num hospital onde tirar áudio do local é violação, ou simplesmente você preferir não transmitir conversas a terceiros.
O TranslateFlux é nossa resposta: um tradutor totalmente no dispositivo para texto, voz e imagem, nos idiomas que as pessoas de fato precisam.
Por que um modelo pequeno pode ser suficiente
Um modelo de tradução de 1–3B parâmetros estilo MoE ou destilado, em quantização 4-bit, atinge um teto de qualidade surpreendentemente próximo do dos incumbents da nuvem para os 50 principais pares de idiomas. A lacuna remanescente está em tradução longa e de alto contexto — a que precisa de 2-3 parágrafos anteriores — e podemos fechar a maior parte com retrieval sobre suas próprias traduções passadas.
Dois truques para que um modelo pequeno pareça grande:
- Injeção de glossário. Por conversa, o modelo recebe um pequeno dicionário de termos que você usou — nomes, siglas, vocabulário técnico — e os usa de forma consistente. APIs em nuvem não têm esse sinal.
- Steering de estilo. Um breve preâmbulo de estilo ("japonês formal, e-mail de negócios") empurra a saída muito mais barato que adicionar um bilhão de parâmetros.
Orçamento de latência
Para tradução de voz, nosso orçamento é de 600 ms do fim de fala ao início da resposta. Divisão:
- Finalização do ASR: 100–200 ms (endpoint streaming do WhisperFlux com finalização disparada por confiança).
- Prefill de tradução + primeiro token: 200–300 ms (modelo pequeno, KV cache pequeno, prompts apertados).
- Primeiro áudio do TTS: 100–200 ms (Kokoro / Piper / TTS da plataforma).
Total: apertado, mas interativo. Subjetivamente, 600 ms parece uma pessoa ligeiramente educada — o gap que um tradutor em nuvem alcança, com rede, raramente fica abaixo de 350 ms.
O que sai primeiro
- 50 idiomas, pares 50×50.
- Texto, voz (push-to-talk e contínuo) e imagem (traduza a foto).
- Modo "conversa ao vivo" com dois contextos de decoding paralelos, um por direção.
- Presets de glossário, estilo e tom por contato / caso de uso.
No que somos honestos
- Para tradução poética, literária ou fortemente ligada à cultura, um modelo de fronteira em nuvem ainda é melhor. Vamos recomendar usar um (provedor à sua escolha) — nada será roteado a ele a partir de nós.
- Para pares de muito poucos recursos, a qualidade cai. Seremos explícitos sobre quais pares avaliamos e em que faixa de BLEU/COMET.
Essa honestidade faz parte do que queremos que o TranslateFlux pareça.