Warum wir das Unternehmen auf On-Device-KI setzen
Cloud-KI ist eine Übergangsarchitektur. Die nächste Dekade nützlicher KI lebt in deiner Hosentasche — und genau das prägt die Produkte, die wir bauen.
Eine einzige, kompromisslose Wette
Als wir OmniFlux AI gegründet haben, haben wir eine Wette abgeschlossen, die jede weitere Entscheidung trägt: Die KI, die für Menschen wirklich wichtig ist, soll auf der Hardware laufen, die diese Menschen schon besitzen.
Nicht in einer Region. Nicht hinter einem Login. Nicht von einem Token-Zähler vermessen. Auf dem Gerät — dem Telefon in der Tasche, dem Laptop auf dem Tisch, der Uhr am Handgelenk.
Die Cloud-KI-Architektur, die diesen Moment definiert, ist brillant, und sie ist vorübergehend. Sie ist ein Umweg um die Tatsache, dass die heutigen Frontier-Modelle zu groß sind, um irgendwo anders Platz zu finden. Wenn das Silizium aufholt, wird aus dem Umweg eine Steuer — gezahlt in Latenz, Bandbreite, Geld und vor allem Privatsphäre.
Drei Trends, die den Cloud-Aufschlag wegbrechen
- Modelle schrumpfen. Quantisierung (Q4_K_M, AWQ-int4, GPTQ), strukturierte Sparsity, Distillation und LoRA-Adapter komprimieren Frontier-Modelle routinemäßig um den Faktor 4–8, bei vernachlässigbarem Qualitätsverlust für Produktlasten. Ein Modell, das vor 18 Monaten eine A100 brauchte, läuft heute auf einem Telefon.
- NPUs sind in der Masse. Jedes Flagship trägt einen dedizierten neuronalen Beschleuniger im zweistelligen TOPS-Bereich. Mittelklasse folgt in 18 Monaten. Apple Neural Engine, Qualcomm Hexagon, MediaTek APU und Google Tensor TPU sind keine Forschungsprojekte mehr, sondern Commodity.
- Das Energiebudget sinkt. Eine Last, die vor zwei Jahren eine Desktop-GPU verlangte, passt heute in ein nachhaltiges mobiles Budget von 3–5 W. Die Wärmeschwelle "nützlicher KI" ist unter den Boden des "immer eingeschalteten Endgeräts" gerutscht.
Was das für Produktdesign bedeutet
Wenn die Inferenz lokal ist, ändern sich drei Dinge gleichzeitig:
- Latenz wird zum Designwerkzeug. 60 ms First Token sind kein Netzwerkaufruf, sondern UI-Textur. Aus "schick es zum Server" wird "passiert, während du tippst".
- Privatsphäre wird zur Tatsache, nicht zum Versprechen. "Die Daten verlassen das Gerät nicht" lässt sich mit
tcpdumpprüfen, nicht mit einer Policy-Seite. - Die Laufzeitkosten eines Features fallen auf null. Keine Token-Abrechnung, kein Rate-Limit, kein Modell, das dir ein Anbieter per Roadmap wegnimmt.
Zusammen kippen diese Kräfte "lokale KI" von einer exotischen Beschränkung in den Standardbetriebsmodus. Produkte, die von Tag eins darauf ausgelegt waren, werden sich unausweichlich anfühlen. Die anderen wie eine Modem-Verbindung.
Was wir nicht behaupten
Wir behaupten nicht, dass On-Device die Cloud bei jeder Aufgabe schlägt. Ein 405B-Modell mit Browsing, Tools und 1M-Kontext wird ein lokales 7B-Modell bei den schwersten Reasoning-Benchmarks noch jahrelang ausstechen. In Ordnung.
Wir behaupten etwas anderes: Der Median nützlicher KI-Last ist nicht der schwerste Reasoning-Benchmark. Er ist "fass dieses Meeting zusammen", "übersetz diese Speisekarte", "transkribiere diese Sprachnotiz", "entwirf diese Commit-Nachricht". Diese Lasten gehören einem Modell, das bereits neben den Daten wohnt — nicht einem, das die Daten zu sich fliegen lassen muss.
Die Welt, für die wir bauen
Das ist die Welt, die wir leise bauen — ein fokussiertes Produkt nach dem anderen. WhisperFlux für Sprache. VisionFlux für Kamera. TranslateFlux für Konversation. NoteFlux für Capture. CodeFlux für Menschen, die Code schreiben.
Darunter eine einzige Runtime — Flux Engine — die Arbeit auf das Gerät plant, das dir gehört, nie auf einen Zähler auf der Rechnung von jemand anderem.
Das ist die Wette. Die einzige, die wir abschließen.