EngenhariaPublicado em 2026-01-22·7 min de leitura

TranslateFlux: construir um tradutor universal privado e offline

Notas sobre latência, qualidade e os truques de engenharia que fazem um modelo pequeno parecer competitivo com um modelo de nuvem muito maior.

O problema

Tradução em nuvem é excelente, rápida e gratuita — até você estar em um avião, num país estrangeiro sem roaming, num hospital onde tirar áudio do local é violação, ou simplesmente você preferir não transmitir conversas a terceiros.

O TranslateFlux é nossa resposta: um tradutor totalmente no dispositivo para texto, voz e imagem, nos idiomas que as pessoas de fato precisam.

Por que um modelo pequeno pode ser suficiente

Um modelo de tradução de 1–3B parâmetros estilo MoE ou destilado, em quantização 4-bit, atinge um teto de qualidade surpreendentemente próximo do dos incumbents da nuvem para os 50 principais pares de idiomas. A lacuna remanescente está em tradução longa e de alto contexto — a que precisa de 2-3 parágrafos anteriores — e podemos fechar a maior parte com retrieval sobre suas próprias traduções passadas.

Dois truques para que um modelo pequeno pareça grande:

Injeção de glossário. Por conversa, o modelo recebe um pequeno dicionário de termos que você usou — nomes, siglas, vocabulário técnico — e os usa de forma consistente. APIs em nuvem não têm esse sinal.
Steering de estilo. Um breve preâmbulo de estilo ("japonês formal, e-mail de negócios") empurra a saída muito mais barato que adicionar um bilhão de parâmetros.

Orçamento de latência

Para tradução de voz, nosso orçamento é de 600 ms do fim de fala ao início da resposta. Divisão:

Finalização do ASR: 100–200 ms (endpoint streaming do WhisperFlux com finalização disparada por confiança).
Prefill de tradução + primeiro token: 200–300 ms (modelo pequeno, KV cache pequeno, prompts apertados).
Primeiro áudio do TTS: 100–200 ms (Kokoro / Piper / TTS da plataforma).

Total: apertado, mas interativo. Subjetivamente, 600 ms parece uma pessoa ligeiramente educada — o gap que um tradutor em nuvem alcança, com rede, raramente fica abaixo de 350 ms.

O que sai primeiro

50 idiomas, pares 50×50.
Texto, voz (push-to-talk e contínuo) e imagem (traduza a foto).
Modo "conversa ao vivo" com dois contextos de decoding paralelos, um por direção.
Presets de glossário, estilo e tom por contato / caso de uso.

No que somos honestos

Para tradução poética, literária ou fortemente ligada à cultura, um modelo de fronteira em nuvem ainda é melhor. Vamos recomendar usar um (provedor à sua escolha) — nada será roteado a ele a partir de nós.
Para pares de muito poucos recursos, a qualidade cai. Seremos explícitos sobre quais pares avaliamos e em que faixa de BLEU/COMET.

Essa honestidade faz parte do que queremos que o TranslateFlux pareça.

Receba novos artigos

Avisaremos quando publicarmos algo novo.

Inscrever

TranslateFlux: construir um tradutor universal privado e offline

O problema

Por que um modelo pequeno pode ser suficiente

Orçamento de latência

O que sai primeiro

No que somos honestos

Artigos relacionados

Por que apostamos a empresa na IA no dispositivo

Projetando o Flux Engine: um runtime para todo produto

WhisperFlux preview: fala, falantes e resumos — tudo local