VisionFlux : une feuille de route pour la compréhension visuelle locale
Notre deuxième produit prend forme. Ce que les VLM locaux savent faire aujourd’hui — et là où nous parions qu’ils vont.
Les VLM locaux d'aujourd'hui sont réels
Il y a un an, « modèle vision-langage sur téléphone » était un sujet de recherche. Aujourd'hui c'est une surface produit. Des VLM 2–4B paramètres quantifiés (Qwen-VL, MiniCPM-V, Idefics, portages MLX de Llama-3.2-Vision) répondent à de vraies questions sur de vraies images avec une latence interactive sur NPU flagship.
La frontière de capacité a franchi la ligne du produit grand public : OCR avec raisonnement, Q&A documentaire, description de scène, compréhension d'écran et grounding visuel tiennent tous dans l'enveloppe mémoire d'un téléphone, avec une quantification soignée.
Ce que VisionFlux livrera en premier
- Q&A documentaire. Visez une page, posez n'importe quelle question. Conscient du layout, des tableaux, bilingue.
- Traduire le monde. Menus, panneaux, emballages — surimpression de traduction sur place, embarquée, zéro aller-retour serveur.
- Narration accessible. Décrire une scène à une personne malvoyante, verbosité réglable, fréquence contrôlable, garantie de confidentialité hors de portée d'un produit cloud.
- Saisie de tickets et formulaires. Photographiez une dépense, obtenez des champs structurés, classez-la localement — sans SaaS tiers.
Là où nous allons
- Mémoire locale opt-in des choses que vous avez regardées, indexée par un petit modèle d'embedding pour pouvoir demander « où ai-je vu ça ? ».
- Mode scène — narration continue d'un environnement qui change, throttlée par le mouvement et la batterie.
- Notes multimodales — capturez une pensée en photo + clip vocal et laissez le modèle la ranger dans le bon projet, avec les bons tags.
- Overlays AR quand la plateforme le permet — traduction, accessibilité, aide contextuelle, tout rendu en local.
Ce que nous ne construisons pas
Nous ne construisons pas un concurrent d'API vision cloud. La frontière du « combien tirer d'une seule image avec compute illimité » n'est pas l'endroit où l'embarqué gagne. Là où nous gagnons : « combien tirer de l'appareil photo dans votre poche, maintenant, sans réseau ».
C'est un autre produit, et c'est celui-ci que nous voulons livrer.