VisionFlux: eine Roadmap für lokales visuelles Verständnis
Unser zweites Produkt nimmt Gestalt an. Was lokale VLMs heute können — und wohin wir wetten, dass sie als Nächstes gehen.
Heutige lokale VLMs sind echt
Vor einem Jahr war "Vision-Language-Modell auf dem Telefon" ein Forschungsstrang. Heute ist es eine Produktoberfläche. Quantisierte 2–4B-Parameter-VLMs (Qwen-VL, MiniCPM-V, Idefics, MLX-Portierungen von Llama-3.2-Vision) beantworten echte Fragen zu echten Bildern mit interaktiver Latenz auf Flagship-NPUs.
Die Fähigkeitsfront hat die Konsumentenproduktlinie überschritten: OCR mit Reasoning, Dokument-Q&A, Szenenbeschreibung, Screen-Verständnis und visuelles Grounding passen alle bei sorgfältiger Quantisierung in das Speicherbudget eines Telefons.
Was VisionFlux zuerst ausliefert
- Dokument-Q&A. Auf eine Seite zielen, alles fragen. Layout-bewusst, tabellenbewusst, zweisprachig.
- Die Welt übersetzen. Menüs, Schilder, Verpackungen — Übersetzung in Place überlagert, on-device, null Roundtrip zum Server.
- Barrierefreie Szenenbeschreibung. Eine Szene für sehbehinderte Nutzer:innen beschreiben, mit einstellbarer Ausführlichkeit, kontrollierbarer Refresh-Rate und einem Datenschutz, den kein Cloud-Narration-Produkt erreicht.
- Belege und Formulare. Beleg fotografieren, strukturierte Felder bekommen, lokal ablegen — ohne Drittanbieter-SaaS.
Wohin wir gehen
- Opt-in lokales Gedächtnis der Dinge, die du angesehen hast, indexiert von einem kleinen Embedding-Modell, sodass du fragen kannst "wo habe ich das gesehen?".
- Szenen-Modus — fortlaufende Narration einer sich verändernden Umgebung, gedrosselt nach Bewegung und Akku.
- Multimodale Notizen — einen Gedanken als Foto + Sprachclip festhalten und das Modell ins richtige Projekt mit den richtigen Tags ablegen lassen.
- AR-Overlays, wo die Plattform es erlaubt — Übersetzung, Barrierefreiheit, Kontexthilfe, alles lokal gerendert.
Was wir nicht bauen
Wir bauen keinen Konkurrenten zur Cloud-Vision-API. Die Front "wie viel man aus einem Bild mit unbegrenztem Compute herausholt" ist nicht, wo On-Device gewinnt. Wir gewinnen bei "wie viel man aus der Kamera in deiner Tasche, jetzt, ohne Netz, herausholt".
Das ist ein anderes Produkt — und genau das, das wir ausliefern wollen.