Diario
ProductoPublicado el 2026-01-29·7 min de lectura

VisionFlux: una hoja de ruta para la comprensión visual local

Nuestro segundo producto toma forma. Lo que pueden hacer hoy los VLM locales — y a dónde apostamos que van a ir.

Los VLM locales de hoy son reales

Hace un año, "modelo visión-lenguaje en un teléfono" era una línea de investigación. Hoy es una superficie de producto. VLMs de 2–4B parámetros cuantizados (Qwen-VL, MiniCPM-V, Idefics, ports MLX de Llama-3.2-Vision) responden preguntas reales sobre imágenes reales con latencia interactiva en NPU flagship.

La frontera de capacidad ha cruzado la línea del producto de consumo: OCR con razonamiento, Q&A de documentos, descripción de escenas, comprensión de pantallas y visual grounding caben todos en el presupuesto de memoria de un móvil con cuantización cuidadosa.

Lo que VisionFlux enviará primero

  • Q&A de documentos. Apunta a una página, pregunta lo que sea. Consciente del layout, de las tablas, bilingüe.
  • Traducir el mundo. Menús, carteles, envases — overlay de traducción in situ, en el dispositivo, con cero ida y vuelta a un servidor.
  • Narración accesible. Describe una escena a una persona con baja visión, con verbosidad ajustable, refresco controlable y una garantía de privacidad que ningún producto de narración en la nube puede igualar.
  • Captura de tickets y formularios. Fotografía un gasto, obtén campos estructurados, archívalo localmente — sin SaaS de terceros.

A dónde vamos

  • Memoria local opt-in de las cosas que has mirado, indexada por un pequeño modelo de embedding para preguntar "¿dónde vi eso?".
  • Modo escena — narración continua de un entorno cambiante, con throttling por movimiento y batería.
  • Notas multimodales — captura un pensamiento como foto + clip de voz y deja que el modelo lo archive en el proyecto correcto, con las etiquetas correctas.
  • Overlays de AR cuando la plataforma lo permita — traducción, accesibilidad, ayuda contextual, todo renderizado en local.

Lo que no estamos construyendo

No estamos construyendo un competidor de la API de visión en la nube. La frontera de "cuánto puedes sacar de una sola imagen con cómputo ilimitado" no es donde gana el dispositivo. Donde ganamos nosotros es "cuánto puedes sacar de la cámara que llevas en el bolsillo, ahora mismo, sin red".

Es otro producto, y es el que queremos enviar.

Recibe nuevos artículos

Te avisaremos cuando publiquemos algo nuevo.

Suscribirse