Journal
ProduktVeröffentlicht am 2026-03-25·7 Min. Lesezeit

WhisperFlux Preview: Sprache, Sprecher, Zusammenfassungen — alles lokal

Unser Flaggschiff geht in die interne Beta. Ein Rundgang durch die Streaming-Pipeline und was wir beim Ausliefern von ASR auf echten Telefonen gelernt haben.

Zwei Monate im Feld

Wir testen WhisperFlux seit zwei Monaten still und leise intern. Dieser Beitrag ist der erste öffentliche Blick darauf, wie es funktioniert — und warum es so funktioniert.

Das Schwere ist nicht die Transkription

Die wahre Herausforderung der On-Device-Transkription ist nicht die Transkription selbst. Modelle vom Whisper-Typ, auf mehrsprachigen Korpora trainiert, liefern für die meisten Verbrauchersprachen Wortfehlerraten, die mit Cloud-Diensten konkurrieren. Das Schwere ist die Diarization: in Echtzeit, ohne Cloud, mit 4 Watt herauszufinden, wer was wann gesagt hat.

Wir landeten bei einem Streaming-Clustering-Ansatz mit drei Eigenschaften:

  • End-to-End-Latenz unter 1,2 s auf Flagship-NPUs (unter 2 s in der Mittelklasse)
  • Robust gegen Überlappung, wenn mehrere Sprecher gleichzeitig reden
  • Verfeinert vergangene Labels, sobald neues Audio eintrifft, ohne dass die UI flackert

Ein 12 MB großes Embedding-Modell erzeugt pro Sprachsegment einen 192-dimensionalen Sprechervektor; ein Online-agglomeratives Clustering mit 6-Sekunden-Update-Fenster vergibt Labels. Vergangene Labels können bei wachsender Evidenz verschmolzen oder geteilt werden; die Transkriptansicht animiert die Änderung, statt sie aufzupoppen.

Zusammenfassungen, die die Kontextlänge überleben

Lange Meetings sprengen den Kontext des Modells. WhisperFlux fasst in Abschnitten von ca. 3 Minuten zusammen, mit einem rollenden Gedächtnis: jeder Abschnitt erzeugt einen strukturierten "was passiert ist"-Datensatz (Entscheidungen, Action Items, offene Fragen), den der nächste Abschnitt liest. Endzusammenfassungen werden aus diesen Datensätzen montiert, nie indem das ganze Transkript in den Prompt gestopft wird. Das ist der Unterschied zwischen einem kohärenten Schluss-Briefing und einem halluzinierten Absatz.

Eine ruhige UI für einen paranoiden Moment

Ein datenschutzfreundlicher Recorder sollte sich ruhig anfühlen, nicht klinisch. Wir haben uns am Aufnahmezustand festgebissen — Pulsfrequenz des Punkts, Wellenhüllkurve, Timer-Typografie — bis die App den Nutzer physisch beruhigt, ohne sich aufzuspielen. Das einzige helle Element ist das Flugzeug-Icon oben: nichts wird hochgeladen.

Was als Nächstes kommt

Umbenennbare Sprecher-Labels. Action-Items pro Sprecher. Export in deine bestehende Notiz-App — per Datei, nie per API.

Neue Artikel abonnieren

Wir benachrichtigen dich, sobald wir veröffentlichen.

Abonnieren