Diário
ProdutoPublicado em 2026-03-25·7 min de leitura

WhisperFlux preview: fala, falantes e resumos — tudo local

Nosso carro-chefe entra em beta interna. Um passeio pela pipeline em streaming e o que aprendemos colocando ASR em telefones reais.

Dois meses em campo

Estamos testando o WhisperFlux internamente há dois meses, em silêncio. Este post é o primeiro olhar público sobre como ele funciona — e por que funciona desse jeito.

A parte difícil não é a transcrição

O verdadeiro desafio da transcrição no dispositivo não é a transcrição em si. Modelos da família Whisper treinados em corpora multilíngues entregam WER competitivo com o da nuvem na maioria dos idiomas de consumo. A parte difícil é a diarização: descobrir quem disse o quê em tempo real, sem ajuda da nuvem e com um envelope de 4 W.

Chegamos a uma abordagem de clustering em streaming com três propriedades:

  • Latência ponta a ponta abaixo de 1,2 s em NPUs flagship (abaixo de 2 s em médio)
  • Robusto a sobreposição quando vários falantes falam ao mesmo tempo
  • Refina rótulos passados à medida que chega áudio novo, sem cintilar a UI

Um modelo de embedding de 12 MB produz um vetor de falante de 192 dimensões por segmento vocalizado; um clusterizador aglomerativo online com janela de atualização de 6 s atribui os rótulos. Rótulos passados podem ser mesclados ou divididos conforme evidência se acumula, e a visão do transcript anima a mudança em vez de pular.

Resumos que sobrevivem ao contexto

Reuniões longas estouram o contexto do modelo. WhisperFlux resume em pedaços de cerca de 3 minutos com uma memória rolante: cada pedaço produz um registro estruturado de "o que aconteceu" (decisões, ações, perguntas em aberto) que o próximo pedaço lê. Os resumos finais são montados a partir desses registros, nunca empilhando o transcript inteiro no prompt. É a diferença entre um briefing coerente de fim de reunião e um parágrafo alucinado.

Uma UI calma para um momento paranoico

Um gravador que respeita privacidade deve transmitir calma, não clínica. Obcecamos com o estado de gravação — o pulso do ponto, o envelope da onda, a tipografia do cronômetro — até a app fisicamente tranquilizar o usuário sem se exibir. O único elemento brilhante é o ícone de avião no topo: nada está sendo enviado.

O que vem a seguir

Rótulos de falante renomeáveis. Atribuição de ações por falante. Exportação para o seu app de notas favorito — por arquivo, nunca por API.

Receba novos artigos

Avisaremos quando publicarmos algo novo.

Inscrever