ProductoPublicado el 2026-03-25·7 min de lectura

WhisperFlux preview: voz, hablantes y resúmenes — todo local

Nuestro buque insignia entra en beta interna. Un recorrido por la pipeline en streaming y lo aprendido al desplegar ASR en teléfonos reales.

Dos meses en campo

Hemos probado WhisperFlux internamente durante dos meses, en silencio. Este post es la primera mirada pública a cómo funciona — y por qué funciona así.

Lo difícil no es la transcripción

El verdadero reto de la transcripción en el dispositivo no es la transcripción en sí. Los modelos tipo Whisper entrenados en corpus multilingües ofrecen tasas de error de palabra (WER) competitivas con la nube en la mayoría de idiomas de consumo. Lo difícil es la diarización: averiguar quién dijo qué, en tiempo real, sin ayuda de la nube y con un presupuesto de 4 W.

Aterrizamos en un enfoque de clustering en streaming con tres propiedades:

Latencia end-to-end por debajo de 1.2 s en NPU flagship (menos de 2 s en gama media)
Robusto al solapamiento cuando varios hablantes hablan a la vez
Refina las etiquetas pasadas con audio nuevo, sin parpadear la UI

Un modelo de embedding de 12 MB produce un vector de hablante de 192 dimensiones por segmento de voz; un agrupador aglomerativo en línea con ventana de actualización de 6 s asigna etiquetas. Las etiquetas pasadas pueden fusionarse o dividirse a medida que llega evidencia, y la vista del transcript anima el cambio en vez de saltar.

Resúmenes que sobreviven al contexto

Las reuniones largas desbordan el contexto del modelo. WhisperFlux resume en trozos de ~3 minutos con una memoria rodante: cada trozo produce un registro estructurado de "qué pasó" (decisiones, acciones, preguntas abiertas) que el siguiente trozo lee. Los resúmenes finales se ensamblan a partir de esos registros, nunca metiendo el transcript completo en el prompt. Esa es la diferencia entre un briefing coherente y un párrafo alucinado.

Una UI tranquila para un momento paranoico

Una grabadora respetuosa con la privacidad debe sentirse tranquila, no clínica. Cuidamos el estado de grabación — el ritmo del pulso, la envolvente de la onda, la tipografía del cronómetro — hasta que la app, físicamente, tranquiliza al usuario sin presumir. El único elemento brillante es el icono de avión arriba: nada se está subiendo.

Lo siguiente

Etiquetas de hablante renombrables. Asignación de acciones por hablante. Exportación a tu app de notas favorita — por archivo, nunca por API.

Recibe nuevos artículos

Te avisaremos cuando publiquemos algo nuevo.

WhisperFlux preview: voz, hablantes y resúmenes — todo local

Dos meses en campo

Lo difícil no es la transcripción

Resúmenes que sobreviven al contexto

Una UI tranquila para un momento paranoico

Lo siguiente

Artículos relacionados

Por qué apostamos la empresa por la IA en el dispositivo

Diseñando Flux Engine: un único runtime para todos los productos

Meter un modelo de 7B en tu teléfono: guía de campo de cuantización