WhisperFlux 미리보기: 음성·화자·요약, 전부 로컬에서
플래그십이 내부 베타에 들어갔다. 스트리밍 파이프라인을 한 바퀴 돌며 실기기에 ASR을 올리며 배운 것들을 공유한다.
두 달간의 현장 테스트
우리는 두 달간 WhisperFlux를 사내에서 조용히 시험해 왔다. 이번 글은 그것이 어떻게 동작하는지, 왜 그런 방식인지에 대한 첫 공개 설명이다.
어려운 부분은 전사가 아니다
온디바이스 전사의 진짜 어려움은 전사 자체가 아니다. 다국어 코퍼스로 학습된 Whisper 계열 모델은 대부분의 소비자 언어에서 클라우드 수준의 WER에 근접한다. 어려운 건 다이어라이제이션 — 클라우드 도움 없이, 4와트 전력 예산 안에서, 누가 무엇을 언제 말했는지 실시간으로 가려내는 일이다.
우리가 도달한 건 세 가지 성질을 가진 스트리밍 클러스터링이다:
- 플래그십 NPU에서 엔드투엔드 지연 1.2초 미만 (중급에서도 2초 미만)
- 다수 화자가 겹쳐 말해도 견고
- 새 오디오가 들어오면 과거 라벨을 정제하되, UI는 깜빡이지 않음
12MB 임베딩 모델이 음성 구간마다 192차원 화자 벡터를 만든다. 6초 업데이트 창을 가진 온라인 응집형 군집화가 라벨을 부여한다. 증거가 쌓이면 과거 라벨이 합쳐지거나 나뉠 수 있고, 전사 뷰는 그 변화를 점프시키지 않고 애니메이션으로 보여준다.
컨텍스트 길이를 넘어 살아남는 요약
긴 회의는 모델의 컨텍스트를 넘쳐버린다. WhisperFlux는 약 3분 단위 청크로 요약하며 롤링 메모리를 함께 굴린다. 각 청크는 구조화된 "무엇이 일어났는가"(결정, 액션 아이템, 미해결 질문)를 만들어 다음 청크가 읽는다. 최종 요약은 이 기록들을 모아 만든다 — 전체 전사를 프롬프트에 우겨넣지 않는다. 이게 "정돈된 종료 브리핑"과 "환각 문단"을 가른다.
예민한 순간을 위한, 차분한 UI
프라이버시를 지키는 녹음기는 임상적이 아니라 차분하게 느껴져야 한다. 녹음 상태 — 점의 맥박, 파형 엔벨로프, 타이머 타이포그래피 — 를 자랑스럽지 않으면서도 동작 중임을 물리적으로 안심시키는 수준까지 다듬었다. 화면에서 유일하게 두드러지는 요소는 상단의 비행기 아이콘 — 아무것도 업로드되고 있지 않다는 신호다.
다음에 올 것
이름 바꿀 수 있는 화자 라벨, 화자별 액션 아이템 지정, 기존 메모 앱으로의 내보내기 — API가 아니라 파일로.