Pourquoi nous misons l’entreprise sur l’IA embarquée
L'IA dans le cloud est une architecture de transition. Nous pensons que la prochaine décennie d'IA réellement utile tient dans votre poche — et cela dessine les produits que nous construisons.
Un seul pari, sans nuance
Quand nous avons fondé OmniFlux AI, nous avons fait un pari qui supporte toutes les décisions suivantes : l'IA qui compte le plus pour les gens doit tourner sur le matériel qu'ils possèdent déjà.
Pas dans une région. Pas derrière un identifiant. Pas mesurée par un compteur de tokens. Sur l'appareil — le téléphone dans la poche, l'ordinateur sur le bureau, la montre au poignet.
L'architecture cloud-AI qui définit ce moment est brillante, et elle est transitoire. C'est un contournement face au fait que les modèles frontières d'aujourd'hui sont trop gros pour tenir ailleurs. Quand le silicium les rattrape, ce contournement devient un impôt — payé en latence, en bande passante, en argent et, surtout, en vie privée.
Trois tendances qui font tomber la prime du cloud
- Les modèles compressent. Quantification (Q4_K_M, AWQ-int4, GPTQ), sparsité structurée, distillation et adaptateurs LoRA réduisent désormais les modèles frontières d'un facteur 4 à 8 avec une perte de qualité négligeable pour les charges produit. Un modèle qui exigeait une A100 il y a 18 mois tourne aujourd'hui sur un téléphone.
- Les NPU arrivent à grande échelle. Tous les flagships embarquent un accélérateur neuronal dédié, chiffré en dizaines de TOPS. Le milieu de gamme suit en 18 mois. Apple Neural Engine, Qualcomm Hexagon, MediaTek APU et Google Tensor TPU ne sont plus des projets de recherche : ce sont des commodités.
- Le budget énergétique chute. Une charge qui demandait une GPU de bureau il y a deux ans tient désormais dans une enveloppe mobile soutenable de 3–5 W. Le plancher thermique de "l'IA utile" est passé sous celui de "l'appareil grand public toujours allumé".
Ce que cela change pour le design produit
Quand l'inférence est locale, trois choses changent en même temps :
- La latence devient un outil de design. 60 ms pour le premier token, ce n'est plus un appel réseau, c'est une texture d'UI. "Envoyer au serveur" devient "se produit pendant que vous tapez".
- La vie privée devient un fait, pas une promesse. "Les données ne quittent pas l'appareil" se vérifie au
tcpdump, pas sur une page de politique. - Le coût d'exécution d'une fonction tombe à zéro. Pas de facturation au token, pas de rate limit, pas de modèle qu'un fournisseur retire selon sa feuille de route.
Mises bout à bout, ces forces basculent l'IA locale d'une contrainte exotique à un mode de fonctionnement par défaut. Les produits pensés ainsi dès le premier jour paraîtront inévitables. Les autres paraîtront comme une connexion à modem.
Ce que nous ne prétendons pas
Nous ne prétendons pas que l'embarqué bat le cloud sur toutes les tâches. Un modèle 405B avec navigation, outils et 1M de contexte battra un 7B local sur les benchmarks de raisonnement les plus durs pendant encore longtemps. Très bien.
Nous prétendons autre chose : la médiane des charges utiles d'IA, ce n'est pas le benchmark le plus difficile. C'est "résume cette réunion", "traduis ce menu", "transcris ce mémo vocal", "rédige ce message de commit". Ces charges-là appartiennent à un modèle qui vit déjà à côté des données — pas à un qui exige que les données s'envolent jusqu'à lui.
Le monde pour lequel nous construisons
C'est le monde que nous bâtissons en silence, un produit ciblé à la fois. WhisperFlux pour la voix. VisionFlux pour la caméra. TranslateFlux pour la conversation. NoteFlux pour la capture. CodeFlux pour celles et ceux qui écrivent du code.
En dessous, un seul runtime — Flux Engine — qui ordonnance le travail sur l'appareil que vous possédez déjà, jamais sur un compteur figurant sur la facture de quelqu'un d'autre.
C'est notre pari. Le seul que nous fassions.