저널
제품2026-01-29 게시·7분 읽기

VisionFlux: 로컬 시각 이해의 로드맵

두 번째 제품이 형태를 갖춰가고 있다. 오늘의 로컬 VLM이 할 수 있는 것, 그리고 다음에 어디로 갈지에 대한 우리의 베팅.

오늘의 로컬 VLM은 실재한다

1년 전 "폰에서 도는 비전-언어 모델"은 연구 스레드였다. 오늘 그것은 제품 표면이다. 양자화된 2~4B 파라미터 VLM(Qwen-VL, MiniCPM-V, Idefics, Llama-3.2-Vision의 MLX 포팅)은 플래그십 NPU에서 실제 이미지에 대한 실제 질문에 인터랙티브 지연으로 답한다.

능력 프런티어는 소비자 제품선을 넘어섰다: 추론 포함 OCR, 문서 Q&A, 장면 설명, 화면 이해, 시각적 그라운딩 — 모두 신중히 양자화하면 폰 사이즈 메모리 예산에 들어간다.

VisionFlux가 처음 내놓을 것

  • 문서 Q&A. 페이지에 향하고 무엇이든 묻는다. 레이아웃·표 인식, 이중 언어.
  • 세상을 번역. 메뉴, 표지판, 포장재 — 그 자리에 오버레이 번역, 온디바이스, 서버 왕복 0회.
  • 접근성 내레이션. 저시력 사용자에게 장면 설명, 풍부도 조절, 리프레시율 제어, 클라우드 내레이션 제품이 맞출 수 없는 프라이버시 보장.
  • 영수증·폼 인입. 경비를 찍으면 구조화 필드, 로컬 보관 — 서드파티 SaaS 없음.

우리가 향하는 곳

  • 옵트인 로컬 기억. 본 것들을 작은 임베딩 모델로 색인해 "그거 어디서 봤지?"에 답할 수 있게.
  • 장면 모드 — 변화하는 환경에 대한 지속적 내레이션, 움직임과 배터리에 따라 throttling.
  • 멀티모달 노트 — 사진+음성 클립으로 생각을 캡처하면 모델이 올바른 프로젝트·태그에 정리.
  • AR 오버레이 — 플랫폼이 허용하는 한 번역, 접근성, 맥락 도움말 모두 로컬 렌더링.

우리가 만들지 않을 것

클라우드 비전 API 경쟁자를 만들지 않는다. "무제한 컴퓨트로 한 장에서 최대치를 뽑아낸다"는 프런티어는 온디바이스가 이길 곳이 아니다. 우리가 이길 곳은 "주머니 속 카메라로, 지금, 네트워크 없이, 무엇을 뽑아낼 수 있는가"다.

그건 다른 제품이고, 우리가 내놓고 싶은 건 바로 그쪽이다.

최신 소식 받아보기

새 글이 게시되면 알림을 보내드립니다.

구독