Journal
ProduitPublié le 2026-01-29·7 min de lecture

VisionFlux : une feuille de route pour la compréhension visuelle locale

Notre deuxième produit prend forme. Ce que les VLM locaux savent faire aujourd’hui — et là où nous parions qu’ils vont.

Les VLM locaux d'aujourd'hui sont réels

Il y a un an, « modèle vision-langage sur téléphone » était un sujet de recherche. Aujourd'hui c'est une surface produit. Des VLM 2–4B paramètres quantifiés (Qwen-VL, MiniCPM-V, Idefics, portages MLX de Llama-3.2-Vision) répondent à de vraies questions sur de vraies images avec une latence interactive sur NPU flagship.

La frontière de capacité a franchi la ligne du produit grand public : OCR avec raisonnement, Q&A documentaire, description de scène, compréhension d'écran et grounding visuel tiennent tous dans l'enveloppe mémoire d'un téléphone, avec une quantification soignée.

Ce que VisionFlux livrera en premier

  • Q&A documentaire. Visez une page, posez n'importe quelle question. Conscient du layout, des tableaux, bilingue.
  • Traduire le monde. Menus, panneaux, emballages — surimpression de traduction sur place, embarquée, zéro aller-retour serveur.
  • Narration accessible. Décrire une scène à une personne malvoyante, verbosité réglable, fréquence contrôlable, garantie de confidentialité hors de portée d'un produit cloud.
  • Saisie de tickets et formulaires. Photographiez une dépense, obtenez des champs structurés, classez-la localement — sans SaaS tiers.

Là où nous allons

  • Mémoire locale opt-in des choses que vous avez regardées, indexée par un petit modèle d'embedding pour pouvoir demander « où ai-je vu ça ? ».
  • Mode scène — narration continue d'un environnement qui change, throttlée par le mouvement et la batterie.
  • Notes multimodales — capturez une pensée en photo + clip vocal et laissez le modèle la ranger dans le bon projet, avec les bons tags.
  • Overlays AR quand la plateforme le permet — traduction, accessibilité, aide contextuelle, tout rendu en local.

Ce que nous ne construisons pas

Nous ne construisons pas un concurrent d'API vision cloud. La frontière du « combien tirer d'une seule image avec compute illimité » n'est pas l'endroit où l'embarqué gagne. Là où nous gagnons : « combien tirer de l'appareil photo dans votre poche, maintenant, sans réseau ».

C'est un autre produit, et c'est celui-ci que nous voulons livrer.

Recevez les nouveaux articles

Nous vous préviendrons dès qu'un nouvel article paraît.

S'abonner