ProduitPublié le 2026-01-29·7 min de lecture

VisionFlux : une feuille de route pour la compréhension visuelle locale

Notre deuxième produit prend forme. Ce que les VLM locaux savent faire aujourd’hui — et là où nous parions qu’ils vont.

Les VLM locaux d'aujourd'hui sont réels

Il y a un an, « modèle vision-langage sur téléphone » était un sujet de recherche. Aujourd'hui c'est une surface produit. Des VLM 2–4B paramètres quantifiés (Qwen-VL, MiniCPM-V, Idefics, portages MLX de Llama-3.2-Vision) répondent à de vraies questions sur de vraies images avec une latence interactive sur NPU flagship.

La frontière de capacité a franchi la ligne du produit grand public : OCR avec raisonnement, Q&A documentaire, description de scène, compréhension d'écran et grounding visuel tiennent tous dans l'enveloppe mémoire d'un téléphone, avec une quantification soignée.

Ce que VisionFlux livrera en premier

Q&A documentaire. Visez une page, posez n'importe quelle question. Conscient du layout, des tableaux, bilingue.
Traduire le monde. Menus, panneaux, emballages — surimpression de traduction sur place, embarquée, zéro aller-retour serveur.
Narration accessible. Décrire une scène à une personne malvoyante, verbosité réglable, fréquence contrôlable, garantie de confidentialité hors de portée d'un produit cloud.
Saisie de tickets et formulaires. Photographiez une dépense, obtenez des champs structurés, classez-la localement — sans SaaS tiers.

Là où nous allons

Mémoire locale opt-in des choses que vous avez regardées, indexée par un petit modèle d'embedding pour pouvoir demander « où ai-je vu ça ? ».
Mode scène — narration continue d'un environnement qui change, throttlée par le mouvement et la batterie.
Notes multimodales — capturez une pensée en photo + clip vocal et laissez le modèle la ranger dans le bon projet, avec les bons tags.
Overlays AR quand la plateforme le permet — traduction, accessibilité, aide contextuelle, tout rendu en local.

Ce que nous ne construisons pas

Nous ne construisons pas un concurrent d'API vision cloud. La frontière du « combien tirer d'une seule image avec compute illimité » n'est pas l'endroit où l'embarqué gagne. Là où nous gagnons : « combien tirer de l'appareil photo dans votre poche, maintenant, sans réseau ».

C'est un autre produit, et c'est celui-ci que nous voulons livrer.

Recevez les nouveaux articles

Nous vous préviendrons dès qu'un nouvel article paraît.

VisionFlux : une feuille de route pour la compréhension visuelle locale

Les VLM locaux d'aujourd'hui sont réels

Ce que VisionFlux livrera en premier

Là où nous allons

Ce que nous ne construisons pas

Articles liés

Pourquoi nous misons l’entreprise sur l’IA embarquée

Concevoir Flux Engine : un seul runtime pour tous les produits

WhisperFlux preview : voix, locuteurs, résumés — tout en local