EngineeringVeröffentlicht am 2026-01-22·7 Min. Lesezeit

TranslateFlux: einen privaten, offline-fähigen Universalübersetzer bauen

Notizen zu Übersetzungslatenz, Qualität und den Engineering-Tricks, die ein kleines Modell gegen ein viel größeres Cloud-Modell wettbewerbsfähig wirken lassen.

Das Problem

Cloud-Übersetzung ist exzellent, schnell und kostenlos — bis du im Flugzeug bist, im Ausland ohne Roaming, im Krankenhaus, wo Audio nach außen zu bringen einen Verstoß darstellt, oder du einfach Gespräche nicht zu Dritten streamen möchtest.

TranslateFlux ist unsere Antwort: ein vollständig on-device laufender Übersetzer für Text, Sprache und Bild — in den Sprachen, die Menschen wirklich brauchen.

Warum ein kleines Modell genügen kann

Ein 1–3B-Parameter-Übersetzungsmodell im MoE-Stil oder destilliert, in 4-Bit quantisiert, trifft eine Qualitätsobergrenze, die für die Top-50-Sprachpaare schockierend nahe an die Cloud-Platzhirsche herankommt. Die verbleibende Lücke liegt bei langer, kontextstarker Übersetzung — der Art, die 2–3 vorausgehende Absätze braucht — und sie lässt sich größtenteils per Retrieval über deine eigenen vergangenen Übersetzungen schließen.

Zwei Tricks lassen ein kleines Modell groß wirken:

Glossar-Injektion. Pro Gespräch bekommt das Modell ein kleines Wörterbuch der von dir genutzten Begriffe — Namen, Abkürzungen, Fachvokabular — und verwendet sie konsistent. Cloud-APIs haben dieses Signal nicht.
Stil-Steering. Eine kurze Stilpräambel ("formelles Japanisch, Geschäftsmail") schiebt den Output viel billiger als eine Milliarde zusätzlicher Parameter.

Latenzbudget

Für Sprachübersetzung ist unser Budget 600 ms vom Sprechende bis zum Antwortanfang. Aufteilung:

ASR-Finalisierung: 100–200 ms (WhisperFlux-Streaming + konfidenzgetriggerte Finalisierung).
Übersetzungs-Prefill + erstes Token: 200–300 ms (kleines Modell, kleiner KV-Cache, knappe Prompts).
Erstes TTS-Audio: 100–200 ms (Kokoro / Piper / Plattform-TTS).

Summe: knapp, aber interaktiv. Subjektiv fühlen sich 600 ms wie eine leicht höfliche Person an — die Lücke, die ein Cloud-Übersetzer inklusive Netz erreicht, liegt selten unter 350 ms.

Was zuerst ausgeliefert wird

50 Sprachen, 50×50 Paare.
Text, Sprache (Push-to-talk und kontinuierlich), Bild (Foto übersetzen).
"Live-Conversation"-Modus mit zwei parallelen Dekodierkontexten, einer pro Richtung.
Glossar-, Stil- und Ton-Presets pro Kontakt / pro Use-Case.

Worüber wir ehrlich sind

Für poetische, literarische oder stark kulturgebundene Übersetzung ist ein Frontier-Cloud-Modell weiter besser. Wir werden dir empfehlen, eines zu nutzen (Anbieter deine Wahl) — von uns wird nichts dahin geroutet.
Bei sehr ressourcenarmen Sprachpaaren sinkt die Qualität. Wir werden explizit machen, welche Paare wir evaluiert haben und in welchem BLEU/COMET-Bereich.

Diese Ehrlichkeit ist Teil dessen, wie sich TranslateFlux anfühlen soll.

Neue Artikel abonnieren

Wir benachrichtigen dich, sobald wir veröffentlichen.

TranslateFlux: einen privaten, offline-fähigen Universalübersetzer bauen

Das Problem

Warum ein kleines Modell genügen kann

Latenzbudget

Was zuerst ausgeliefert wird

Worüber wir ehrlich sind

Verwandte Artikel

Warum wir das Unternehmen auf On-Device-KI setzen

Flux Engine bauen: eine Runtime für jedes Produkt

WhisperFlux Preview: Sprache, Sprecher, Zusammenfassungen — alles lokal