제품2026-01-29 게시·7분 읽기
VisionFlux: 로컬 시각 이해의 로드맵
두 번째 제품이 형태를 갖춰가고 있다. 오늘의 로컬 VLM이 할 수 있는 것, 그리고 다음에 어디로 갈지에 대한 우리의 베팅.
오늘의 로컬 VLM은 실재한다
1년 전 "폰에서 도는 비전-언어 모델"은 연구 스레드였다. 오늘 그것은 제품 표면이다. 양자화된 2~4B 파라미터 VLM(Qwen-VL, MiniCPM-V, Idefics, Llama-3.2-Vision의 MLX 포팅)은 플래그십 NPU에서 실제 이미지에 대한 실제 질문에 인터랙티브 지연으로 답한다.
능력 프런티어는 소비자 제품선을 넘어섰다: 추론 포함 OCR, 문서 Q&A, 장면 설명, 화면 이해, 시각적 그라운딩 — 모두 신중히 양자화하면 폰 사이즈 메모리 예산에 들어간다.
VisionFlux가 처음 내놓을 것
- 문서 Q&A. 페이지에 향하고 무엇이든 묻는다. 레이아웃·표 인식, 이중 언어.
- 세상을 번역. 메뉴, 표지판, 포장재 — 그 자리에 오버레이 번역, 온디바이스, 서버 왕복 0회.
- 접근성 내레이션. 저시력 사용자에게 장면 설명, 풍부도 조절, 리프레시율 제어, 클라우드 내레이션 제품이 맞출 수 없는 프라이버시 보장.
- 영수증·폼 인입. 경비를 찍으면 구조화 필드, 로컬 보관 — 서드파티 SaaS 없음.
우리가 향하는 곳
- 옵트인 로컬 기억. 본 것들을 작은 임베딩 모델로 색인해 "그거 어디서 봤지?"에 답할 수 있게.
- 장면 모드 — 변화하는 환경에 대한 지속적 내레이션, 움직임과 배터리에 따라 throttling.
- 멀티모달 노트 — 사진+음성 클립으로 생각을 캡처하면 모델이 올바른 프로젝트·태그에 정리.
- AR 오버레이 — 플랫폼이 허용하는 한 번역, 접근성, 맥락 도움말 모두 로컬 렌더링.
우리가 만들지 않을 것
클라우드 비전 API 경쟁자를 만들지 않는다. "무제한 컴퓨트로 한 장에서 최대치를 뽑아낸다"는 프런티어는 온디바이스가 이길 곳이 아니다. 우리가 이길 곳은 "주머니 속 카메라로, 지금, 네트워크 없이, 무엇을 뽑아낼 수 있는가"다.
그건 다른 제품이고, 우리가 내놓고 싶은 건 바로 그쪽이다.