Journal
ProduitPublié le 2026-03-25·7 min de lecture

WhisperFlux preview : voix, locuteurs, résumés — tout en local

Notre produit phare entre en bêta interne. Une visite de la pipeline en streaming et ce qu'on a appris en livrant de l'ASR sur de vrais téléphones.

Deux mois sur le terrain

Nous testons WhisperFlux en interne, en silence, depuis deux mois. Ce billet est le premier regard public sur son fonctionnement — et sur les raisons de ce fonctionnement.

Le difficile, ce n'est pas la transcription

Le vrai défi de la transcription embarquée n'est pas la transcription elle-même. Les modèles de la famille Whisper entraînés sur des corpus multilingues affichent des taux d'erreur de mot compétitifs face au cloud sur la plupart des langues grand public. Le difficile, c'est la diarisation : savoir qui a dit quoi, en temps réel, sans cloud, avec un budget de 4 watts.

Nous avons opté pour une approche de clustering en streaming avec trois propriétés :

  • Latence bout-en-bout sous 1,2 s sur NPU flagship (sous 2 s en milieu de gamme)
  • Robuste aux chevauchements lorsque plusieurs locuteurs parlent en même temps
  • Affine les étiquettes passées à mesure que l'audio arrive, sans faire vaciller l'UI

Un modèle d'embedding de 12 Mo produit un vecteur locuteur 192-d par segment voisé ; un clusterer agglomératif en ligne avec une fenêtre de mise à jour de 6 s attribue les étiquettes. Les étiquettes passées peuvent fusionner ou se scinder au fur et à mesure des preuves, et la vue transcription anime le changement au lieu de le faire sauter.

Des résumés qui survivent à la fenêtre de contexte

Les longues réunions débordent du contexte du modèle. WhisperFlux résume par tranches d'environ 3 minutes avec une mémoire roulante : chaque tranche produit un enregistrement structuré « ce qui s'est passé » (décisions, actions, questions ouvertes) que la tranche suivante lit. Les résumés finaux s'assemblent à partir de ces enregistrements, jamais en empilant la transcription complète dans le prompt. C'est la différence entre un débrief cohérent et un paragraphe halluciné.

Une UI calme pour un moment paranoïaque

Un enregistreur respectueux de la vie privée doit se sentir calme, pas clinique. Nous avons obsédé sur l'état d'enregistrement — la cadence du point, l'enveloppe de l'onde, la typographie du minuteur — jusqu'à ce que l'app rassure physiquement l'utilisateur sans faire son cinéma. Le seul élément brillant est l'icône avion en haut : rien n'est en train d'être téléversé.

La suite

Étiquettes de locuteur renommables. Attribution d'actions par locuteur. Export vers votre application de notes — par fichier, jamais par API.

Recevez les nouveaux articles

Nous vous préviendrons dès qu'un nouvel article paraît.

S'abonner