Por qué apostamos la empresa por la IA en el dispositivo
La IA en la nube es una arquitectura de transición. Creemos que la próxima década de IA realmente útil vive en tu bolsillo — y eso define los productos que estamos construyendo.
Una sola apuesta, sin matices
Cuando empezamos OmniFlux AI hicimos una apuesta que sostiene todas las demás decisiones: la IA que más le importa a la gente debe correr sobre el hardware que esa gente ya tiene.
No en una región. No detrás de un inicio de sesión. No medida por un contador de tokens. En el dispositivo — el teléfono en el bolsillo, el portátil en la mesa, el reloj en la muñeca.
La arquitectura de IA en la nube que define este momento es brillante, y es transitoria. Es un parche frente al hecho de que los modelos frontera de hoy son demasiado grandes para caber en otro sitio. Cuando el silicio les alcance, ese parche se vuelve un impuesto — pagado en latencia, ancho de banda, dinero y, sobre todo, privacidad.
Tres tendencias que derriban la prima de la nube
- Los modelos se comprimen. Cuantización (Q4_K_M, AWQ-int4, GPTQ), sparsity estructurada, destilación y adaptadores tipo LoRA reducen rutinariamente los modelos frontera entre 4 y 8 veces, con pérdida de calidad despreciable para cargas de producto. Un modelo que necesitaba una A100 hace 18 meses corre hoy en un teléfono.
- Las NPU llegan a escala. Todos los buques insignia llevan ya un acelerador neuronal dedicado medido en decenas de TOPS. La gama media los tendrá en 18 meses. Apple Neural Engine, Qualcomm Hexagon, MediaTek APU y Google Tensor TPU dejaron de ser proyectos de investigación: son commodity.
- El presupuesto de potencia baja. Lo que hace dos años requería una GPU de escritorio cabe ahora en una envolvente móvil sostenible de 3–5 W. El umbral térmico de "IA útil" cayó por debajo del piso de "dispositivo de consumo siempre encendido".
Lo que esto significa para el diseño de producto
Cuando la inferencia es local, tres cosas cambian al mismo tiempo:
- La latencia se vuelve herramienta de diseño. 60 ms al primer token no es una llamada de red: es una textura de UI. Lo que era "mandar al servidor" se vuelve "ocurre mientras escribes".
- La privacidad se vuelve hecho, no promesa. "Tus datos no salen del dispositivo" se verifica con
tcpdump, no con una página de políticas. - El coste de runtime de cada función baja a cero. Sin facturación por token, sin límite de tasa, sin un modelo que un proveedor te jubila por hoja de ruta.
Juntas, estas fuerzas dan la vuelta a la "IA local": de restricción exótica pasa a modo de operación por defecto. Los productos diseñados así desde el día uno se sentirán inevitables. El resto se sentirá como conexión por módem.
Lo que no estamos afirmando
No afirmamos que el dispositivo gane a la nube en cada tarea. Un modelo de 405B parámetros con browsing, herramientas y 1M de contexto seguirá superando a un 7B local en los benchmarks de razonamiento más duros durante años. Está bien.
Afirmamos algo distinto: la mediana de las cargas útiles de IA no es el benchmark más difícil. Es "resume esta reunión", "traduce este menú", "transcribe este audio", "redacta este commit". Esas cargas pertenecen a un modelo que ya vive junto a los datos — no a uno que exige que los datos vuelen hacia él.
El mundo para el que estamos construyendo
Es el mundo que estamos construyendo en silencio, un producto enfocado a la vez. WhisperFlux para voz. VisionFlux para cámara. TranslateFlux para conversación. NoteFlux para captura. CodeFlux para personas que escriben código.
Debajo, un único runtime — Flux Engine — que programa el trabajo contra el dispositivo que ya tienes, nunca contra un contador en la factura de otro.
Esa es la apuesta. Es la única que hacemos.