WhisperFlux preview: fala, falantes e resumos — tudo local
Nosso carro-chefe entra em beta interna. Um passeio pela pipeline em streaming e o que aprendemos colocando ASR em telefones reais.
Dois meses em campo
Estamos testando o WhisperFlux internamente há dois meses, em silêncio. Este post é o primeiro olhar público sobre como ele funciona — e por que funciona desse jeito.
A parte difícil não é a transcrição
O verdadeiro desafio da transcrição no dispositivo não é a transcrição em si. Modelos da família Whisper treinados em corpora multilíngues entregam WER competitivo com o da nuvem na maioria dos idiomas de consumo. A parte difícil é a diarização: descobrir quem disse o quê em tempo real, sem ajuda da nuvem e com um envelope de 4 W.
Chegamos a uma abordagem de clustering em streaming com três propriedades:
- Latência ponta a ponta abaixo de 1,2 s em NPUs flagship (abaixo de 2 s em médio)
- Robusto a sobreposição quando vários falantes falam ao mesmo tempo
- Refina rótulos passados à medida que chega áudio novo, sem cintilar a UI
Um modelo de embedding de 12 MB produz um vetor de falante de 192 dimensões por segmento vocalizado; um clusterizador aglomerativo online com janela de atualização de 6 s atribui os rótulos. Rótulos passados podem ser mesclados ou divididos conforme evidência se acumula, e a visão do transcript anima a mudança em vez de pular.
Resumos que sobrevivem ao contexto
Reuniões longas estouram o contexto do modelo. WhisperFlux resume em pedaços de cerca de 3 minutos com uma memória rolante: cada pedaço produz um registro estruturado de "o que aconteceu" (decisões, ações, perguntas em aberto) que o próximo pedaço lê. Os resumos finais são montados a partir desses registros, nunca empilhando o transcript inteiro no prompt. É a diferença entre um briefing coerente de fim de reunião e um parágrafo alucinado.
Uma UI calma para um momento paranoico
Um gravador que respeita privacidade deve transmitir calma, não clínica. Obcecamos com o estado de gravação — o pulso do ponto, o envelope da onda, a tipografia do cronômetro — até a app fisicamente tranquilizar o usuário sem se exibir. O único elemento brilhante é o ícone de avião no topo: nada está sendo enviado.
O que vem a seguir
Rótulos de falante renomeáveis. Atribuição de ações por falante. Exportação para o seu app de notas favorito — por arquivo, nunca por API.