우리가 회사를 온디바이스 AI에 걸기로 한 이유
클라우드 AI는 과도기 아키텍처다. 앞으로 10년의 쓸모 있는 AI는 당신의 주머니 안에 산다고 우리는 믿는다 — 그리고 그것이 우리가 만드는 제품의 모양을 결정한다.
단 하나의, 양보할 수 없는 베팅
OmniFlux AI를 시작했을 때 우리는 이후의 모든 결정을 떠받치는 단 하나의 베팅을 했다. 사람들에게 가장 중요한 AI는, 그 사람이 이미 가진 하드웨어 위에서 돌아가야 한다.
특정 리전 안이 아니라, 로그인 뒤편이 아니라, 토큰 미터로 재지지 않고 — 디바이스 위에서. 주머니 속 전화, 책상 위 노트북, 손목 위 시계 위에서.
지금 이 순간을 정의하는 클라우드 AI 아키텍처는 훌륭하지만 일시적이다. 그것은 "오늘의 최신 모델이 너무 커서 다른 어떤 곳에도 들어가지 않는다"는 사실에 대한 우회로일 뿐이다. 실리콘이 따라잡고 나면, 그 우회로는 세금으로 바뀐다 — 지연, 대역, 비용, 그리고 무엇보다 프라이버시로 내는 세금.
클라우드 프리미엄을 무너뜨리는 세 가지 흐름
- 모델은 줄어든다. 양자화(Q4_K_M, AWQ-int4, GPTQ), 구조적 희소화, 디스틸레이션, LoRA 계열 어댑터는 최신 모델을 제품 워크로드에서 품질 손실 없이 4~8배 줄여낸다. 18개월 전 A100이 필요했던 모델이 오늘 스마트폰에서 돈다.
- NPU가 대량으로 깔린다. 모든 주요 플래그십에 수십 TOPS 단위의 전용 뉴럴 가속기가 들어 있다. 중급기도 18개월 안에 따라온다. Apple Neural Engine, Qualcomm Hexagon, MediaTek APU, Google Tensor TPU는 더 이상 연구 과제가 아니라 일상품이다.
- 전력 예산은 내려간다. 2년 전 데스크탑 GPU가 필요했던 워크로드가 이제 3~5W의 지속 가능한 모바일 범위 안에 들어간다. "쓸모 있는 AI"의 발열 바닥이 "항상 켜진 소비자 기기"의 바닥 아래로 떨어졌다.
이것이 제품 설계에 의미하는 것
추론이 로컬해지면 세 가지가 동시에 바뀐다:
- 지연은 설계 언어가 된다. 60ms 첫 토큰은 네트워크 호출이 아니라 UI 감각이다. "서버로 보낸다"가 "타이핑하는 동안에 일어난다"로 바뀐다.
- 프라이버시는 약속이 아니라 사실이 된다. "데이터는 기기를 떠나지 않는다"는 정책 페이지가 아니라
tcpdump로 검증할 수 있다. - 기능의 런타임 비용은 0으로 떨어진다. 토큰 과금도, 레이트 리밋도, 벤더 로드맵에 의해 강제 종료되는 모델도 없다.
세 가지가 합쳐지면, "로컬 AI"는 신기한 제약에서 기본 동작 모드로 뒤집힌다. 처음부터 그것을 전제로 만들어진 제품은 필연처럼 느껴지고, 그렇지 않은 제품은 다이얼업처럼 느껴진다.
우리가 주장하지 않는 것
우리는 온디바이스가 모든 과제에서 클라우드를 이긴다고 주장하지 않는다. 브라우징, 툴, 100만 토큰 컨텍스트를 갖춘 4050억 파라미터 모델은 가장 어려운 추론 벤치마크에서 로컬 7B 모델을 앞으로도 한참 동안 앞설 것이다. 괜찮다.
우리가 주장하는 것은 다른 것이다. 쓸모 있는 AI 워크로드의 중앙값은, 가장 어려운 추론 벤치마크가 아니다. 그것은 "이 회의를 요약해줘", "이 메뉴를 번역해줘", "이 음성 메모를 옮겨 적어줘", "이 커밋 메시지를 초안 잡아줘"이다. 그것들은 데이터 옆에 이미 살고 있는 모델에게 맡겨야지, 데이터가 그쪽으로 날아가야 하는 모델에게 맡길 일이 아니다.
우리가 만들고 있는 세계
그것이 우리가 조용히 짓고 있는 세계다 — 집중력 있는 제품 하나씩. 음성은 WhisperFlux, 카메라는 VisionFlux, 대화는 TranslateFlux, 캡처는 NoteFlux, 엔지니어는 CodeFlux.
그 아래에는 하나의 런타임 Flux Engine이 있다. 사용자가 이미 가진 디바이스에 작업을 스케줄링하지, 다른 누군가의 청구서 미터에 스케줄링하지 않는다.
이것이 우리의 베팅이다. 우리가 걸고 있는 유일한 베팅.