VisionFlux: um roteiro para a compreensão visual local
Nosso segundo produto começa a tomar forma. O que VLMs locais conseguem fazer hoje — e para onde apostamos que eles vão.
Os VLMs locais de hoje são reais
Há um ano, "modelo visão-linguagem em um telefone" era uma linha de pesquisa. Hoje é uma superfície de produto. VLMs de 2–4B parâmetros quantizados (Qwen-VL, MiniCPM-V, Idefics, ports MLX de Llama-3.2-Vision) respondem perguntas reais sobre imagens reais com latência interativa em NPUs flagship.
A fronteira de capacidade cruzou a linha do produto de consumo: OCR com raciocínio, Q&A de documentos, descrição de cena, compreensão de tela e grounding visual cabem todos no orçamento de memória de um telefone, com quantização cuidadosa.
O que o VisionFlux entrega primeiro
- Q&A de documentos. Aponte para uma página, pergunte qualquer coisa. Ciente de layout, tabelas, bilíngue.
- Traduzir o mundo. Cardápios, placas, embalagens — overlay de tradução no lugar, no dispositivo, com zero ida-e-volta a servidor.
- Narração de acessibilidade. Descreva uma cena para uma pessoa de baixa visão, com verbosidade ajustável, taxa de atualização controlável e uma garantia de privacidade inalcançável por produtos de narração em nuvem.
- Captura de recibos e formulários. Fotografe uma despesa, receba campos estruturados, arquive local — sem SaaS de terceiros.
Para onde estamos indo
- Memória local opt-in das coisas que você olhou, indexada por um pequeno modelo de embedding para perguntar "onde foi que eu vi isso?".
- Modo cena — narração contínua de um ambiente em mudança, com throttling por movimento e bateria.
- Notas multimodais — capture um pensamento como foto + clipe de voz e deixe o modelo arquivar no projeto certo, com as tags certas.
- Overlays de AR quando a plataforma permitir — tradução, acessibilidade, ajuda contextual, tudo renderizado localmente.
O que não estamos construindo
Não estamos construindo um competidor da API de visão na nuvem. A fronteira de "quanto se extrai de uma única imagem com compute ilimitado" não é onde o on-device vence. Vencemos em "quanto se extrai da câmera no seu bolso, agora, sem rede".
É outro produto — e é esse que queremos lançar.