WhisperFlux preview: voz, hablantes y resúmenes — todo local
Nuestro buque insignia entra en beta interna. Un recorrido por la pipeline en streaming y lo aprendido al desplegar ASR en teléfonos reales.
Dos meses en campo
Hemos probado WhisperFlux internamente durante dos meses, en silencio. Este post es la primera mirada pública a cómo funciona — y por qué funciona así.
Lo difícil no es la transcripción
El verdadero reto de la transcripción en el dispositivo no es la transcripción en sí. Los modelos tipo Whisper entrenados en corpus multilingües ofrecen tasas de error de palabra (WER) competitivas con la nube en la mayoría de idiomas de consumo. Lo difícil es la diarización: averiguar quién dijo qué, en tiempo real, sin ayuda de la nube y con un presupuesto de 4 W.
Aterrizamos en un enfoque de clustering en streaming con tres propiedades:
- Latencia end-to-end por debajo de 1.2 s en NPU flagship (menos de 2 s en gama media)
- Robusto al solapamiento cuando varios hablantes hablan a la vez
- Refina las etiquetas pasadas con audio nuevo, sin parpadear la UI
Un modelo de embedding de 12 MB produce un vector de hablante de 192 dimensiones por segmento de voz; un agrupador aglomerativo en línea con ventana de actualización de 6 s asigna etiquetas. Las etiquetas pasadas pueden fusionarse o dividirse a medida que llega evidencia, y la vista del transcript anima el cambio en vez de saltar.
Resúmenes que sobreviven al contexto
Las reuniones largas desbordan el contexto del modelo. WhisperFlux resume en trozos de ~3 minutos con una memoria rodante: cada trozo produce un registro estructurado de "qué pasó" (decisiones, acciones, preguntas abiertas) que el siguiente trozo lee. Los resúmenes finales se ensamblan a partir de esos registros, nunca metiendo el transcript completo en el prompt. Esa es la diferencia entre un briefing coherente y un párrafo alucinado.
Una UI tranquila para un momento paranoico
Una grabadora respetuosa con la privacidad debe sentirse tranquila, no clínica. Cuidamos el estado de grabación — el ritmo del pulso, la envolvente de la onda, la tipografía del cronómetro — hasta que la app, físicamente, tranquiliza al usuario sin presumir. El único elemento brillante es el icono de avión arriba: nada se está subiendo.
Lo siguiente
Etiquetas de hablante renombrables. Asignación de acciones por hablante. Exportación a tu app de notas favorita — por archivo, nunca por API.