Por que apostamos a empresa na IA no dispositivo
A IA na nuvem é uma arquitetura de transição. Acreditamos que a próxima década de IA realmente útil vive no seu bolso — e isso define os produtos que estamos construindo.
Uma aposta só, sem meio-termo
Quando começamos a OmniFlux AI fizemos uma aposta que sustenta todas as outras decisões: a IA que mais importa para as pessoas deve rodar no hardware que essas pessoas já têm.
Não em uma região. Não por trás de um login. Não medida por um contador de tokens. No dispositivo — no telefone do bolso, no notebook em cima da mesa, no relógio no pulso.
A arquitetura de IA na nuvem que define este momento é brilhante, e é transitória. É um contorno para o fato de que os modelos de fronteira de hoje são grandes demais para caber em qualquer outro lugar. Quando o silício alcança, esse contorno vira imposto — pago em latência, banda, dinheiro e, sobretudo, privacidade.
Três tendências que derrubam o prêmio da nuvem
- Os modelos comprimem. Quantização (Q4_K_M, AWQ-int4, GPTQ), sparsity estruturada, destilação e adaptadores no estilo LoRA reduzem rotineiramente os modelos de fronteira em 4 a 8 vezes, com perda de qualidade desprezível para cargas de produto. Um modelo que precisava de uma A100 há 18 meses roda hoje em um telefone.
- NPUs chegam em escala. Todos os flagships já trazem um acelerador neural dedicado medido em dezenas de TOPS. A faixa média segue em 18 meses. Apple Neural Engine, Qualcomm Hexagon, MediaTek APU e Google Tensor TPU não são mais projetos de pesquisa: são commodity.
- O orçamento de energia cai. Uma carga que exigia GPU desktop há dois anos cabe agora em um envelope móvel sustentável de 3 a 5 W. O piso térmico de "IA útil" caiu abaixo do piso de "dispositivo de consumo sempre ligado".
O que isso significa para design de produto
Quando a inferência é local, três coisas mudam ao mesmo tempo:
- A latência vira ferramenta de design. 60 ms até o primeiro token não é mais chamada de rede: é textura de UI. "Mandar para o servidor" vira "acontece enquanto você digita".
- A privacidade vira fato, não promessa. "Os dados não saem do dispositivo" se verifica com
tcpdump, não com uma página de política. - O custo em runtime de uma funcionalidade cai a zero. Sem cobrança por token, sem rate limit, sem modelo aposentado pelo roadmap do fornecedor.
Juntas, essas forças invertem a "IA local" de restrição exótica para modo padrão de operação. Produtos pensados assim desde o primeiro dia parecerão inevitáveis. Os outros parecerão modem discado.
O que não estamos afirmando
Não afirmamos que o dispositivo bate a nuvem em todas as tarefas. Um modelo de 405B parâmetros com browsing, ferramentas e 1M de contexto vai superar um 7B local nos benchmarks de raciocínio mais difíceis por mais alguns anos. Tudo bem.
Afirmamos outra coisa: a mediana das cargas úteis de IA não é o benchmark mais difícil. É "resuma esta reunião", "traduza este cardápio", "transcreva este áudio", "rascunhe esta mensagem de commit". Essas cargas pertencem a um modelo que já mora ao lado dos dados — não a um que exige que os dados voem até ele.
O mundo para o qual estamos construindo
É o mundo que estamos construindo em silêncio, um produto focado por vez. WhisperFlux para voz. VisionFlux para câmera. TranslateFlux para conversa. NoteFlux para captura. CodeFlux para quem escreve código.
Por baixo, um único runtime — Flux Engine — que escala o trabalho no dispositivo que você já tem, nunca em um medidor na fatura de outra pessoa.
É essa a aposta. A única que estamos fazendo.