ProdutoPublicado em 2026-01-29·7 min de leitura

VisionFlux: um roteiro para a compreensão visual local

Nosso segundo produto começa a tomar forma. O que VLMs locais conseguem fazer hoje — e para onde apostamos que eles vão.

Os VLMs locais de hoje são reais

Há um ano, "modelo visão-linguagem em um telefone" era uma linha de pesquisa. Hoje é uma superfície de produto. VLMs de 2–4B parâmetros quantizados (Qwen-VL, MiniCPM-V, Idefics, ports MLX de Llama-3.2-Vision) respondem perguntas reais sobre imagens reais com latência interativa em NPUs flagship.

A fronteira de capacidade cruzou a linha do produto de consumo: OCR com raciocínio, Q&A de documentos, descrição de cena, compreensão de tela e grounding visual cabem todos no orçamento de memória de um telefone, com quantização cuidadosa.

O que o VisionFlux entrega primeiro

Q&A de documentos. Aponte para uma página, pergunte qualquer coisa. Ciente de layout, tabelas, bilíngue.
Traduzir o mundo. Cardápios, placas, embalagens — overlay de tradução no lugar, no dispositivo, com zero ida-e-volta a servidor.
Narração de acessibilidade. Descreva uma cena para uma pessoa de baixa visão, com verbosidade ajustável, taxa de atualização controlável e uma garantia de privacidade inalcançável por produtos de narração em nuvem.
Captura de recibos e formulários. Fotografe uma despesa, receba campos estruturados, arquive local — sem SaaS de terceiros.

Para onde estamos indo

Memória local opt-in das coisas que você olhou, indexada por um pequeno modelo de embedding para perguntar "onde foi que eu vi isso?".
Modo cena — narração contínua de um ambiente em mudança, com throttling por movimento e bateria.
Notas multimodais — capture um pensamento como foto + clipe de voz e deixe o modelo arquivar no projeto certo, com as tags certas.
Overlays de AR quando a plataforma permitir — tradução, acessibilidade, ajuda contextual, tudo renderizado localmente.

O que não estamos construindo

Não estamos construindo um competidor da API de visão na nuvem. A fronteira de "quanto se extrai de uma única imagem com compute ilimitado" não é onde o on-device vence. Vencemos em "quanto se extrai da câmera no seu bolso, agora, sem rede".

É outro produto — e é esse que queremos lançar.

Receba novos artigos

Avisaremos quando publicarmos algo novo.

Inscrever

VisionFlux: um roteiro para a compreensão visual local

Os VLMs locais de hoje são reais

O que o VisionFlux entrega primeiro

Para onde estamos indo

O que não estamos construindo

Artigos relacionados

Por que apostamos a empresa na IA no dispositivo

Projetando o Flux Engine: um runtime para todo produto

WhisperFlux preview: fala, falantes e resumos — tudo local