Journal
ProduktVeröffentlicht am 2026-01-29·7 Min. Lesezeit

VisionFlux: eine Roadmap für lokales visuelles Verständnis

Unser zweites Produkt nimmt Gestalt an. Was lokale VLMs heute können — und wohin wir wetten, dass sie als Nächstes gehen.

Heutige lokale VLMs sind echt

Vor einem Jahr war "Vision-Language-Modell auf dem Telefon" ein Forschungsstrang. Heute ist es eine Produktoberfläche. Quantisierte 2–4B-Parameter-VLMs (Qwen-VL, MiniCPM-V, Idefics, MLX-Portierungen von Llama-3.2-Vision) beantworten echte Fragen zu echten Bildern mit interaktiver Latenz auf Flagship-NPUs.

Die Fähigkeitsfront hat die Konsumentenproduktlinie überschritten: OCR mit Reasoning, Dokument-Q&A, Szenenbeschreibung, Screen-Verständnis und visuelles Grounding passen alle bei sorgfältiger Quantisierung in das Speicherbudget eines Telefons.

Was VisionFlux zuerst ausliefert

  • Dokument-Q&A. Auf eine Seite zielen, alles fragen. Layout-bewusst, tabellenbewusst, zweisprachig.
  • Die Welt übersetzen. Menüs, Schilder, Verpackungen — Übersetzung in Place überlagert, on-device, null Roundtrip zum Server.
  • Barrierefreie Szenenbeschreibung. Eine Szene für sehbehinderte Nutzer:innen beschreiben, mit einstellbarer Ausführlichkeit, kontrollierbarer Refresh-Rate und einem Datenschutz, den kein Cloud-Narration-Produkt erreicht.
  • Belege und Formulare. Beleg fotografieren, strukturierte Felder bekommen, lokal ablegen — ohne Drittanbieter-SaaS.

Wohin wir gehen

  • Opt-in lokales Gedächtnis der Dinge, die du angesehen hast, indexiert von einem kleinen Embedding-Modell, sodass du fragen kannst "wo habe ich das gesehen?".
  • Szenen-Modus — fortlaufende Narration einer sich verändernden Umgebung, gedrosselt nach Bewegung und Akku.
  • Multimodale Notizen — einen Gedanken als Foto + Sprachclip festhalten und das Modell ins richtige Projekt mit den richtigen Tags ablegen lassen.
  • AR-Overlays, wo die Plattform es erlaubt — Übersetzung, Barrierefreiheit, Kontexthilfe, alles lokal gerendert.

Was wir nicht bauen

Wir bauen keinen Konkurrenten zur Cloud-Vision-API. Die Front "wie viel man aus einem Bild mit unbegrenztem Compute herausholt" ist nicht, wo On-Device gewinnt. Wir gewinnen bei "wie viel man aus der Kamera in deiner Tasche, jetzt, ohne Netz, herausholt".

Das ist ein anderes Produkt — und genau das, das wir ausliefern wollen.

Neue Artikel abonnieren

Wir benachrichtigen dich, sobald wir veröffentlichen.

Abonnieren