엔지니어링2026-01-22 게시·7분 읽기

TranslateFlux: 비공개·오프라인 범용 번역기 만들기

번역 지연과 품질, 그리고 작은 모델을 훨씬 큰 클라우드 모델만큼 느껴지게 하는 엔지니어링 트릭들.

문제

클라우드 번역은 훌륭하고 빠르며 무료다 — 비행 중이거나, 로밍이 없는 외국에 있거나, 오디오 반출이 위반인 병원에 있거나, 단순히 대화를 제3자에게 스트리밍하기 싫은 사람을 제외하면.

TranslateFlux는 그 답이다: 사람들이 실제로 필요로 하는 언어로, 텍스트·음성·이미지를 커버하는 완전 온디바이스 번역기.

작은 모델이 충분한 이유

4비트 양자화한 1~3B 파라미터 MoE 스타일 또는 distill된 번역 모델은 상위 50개 언어쌍에서 클라우드 강자들과 놀라울 정도로 가까운 품질 상한을 친다. 남는 격차는 장문·고맥락 번역에 있고 — 앞 2~3문단 맥락이 필요한 — 그 대부분은 당신 자신의 과거 번역에 대한 retrieval로 메울 수 있다.

작은 모델을 "크게 느껴지게" 하는 두 가지 트릭:

용어 주입. 대화별로, 사용했던 이름·약어·전문 용어의 작은 사전을 모델에 주고 일관되게 쓰게 한다. 클라우드 API에는 없는 시그널이다.
스타일 유도. 짧은 스타일 프리앰블("격식 있는 일본어, 비즈니스 이메일")은 10억 파라미터 추가보다 훨씬 싸고 효과가 좋다.

지연 예산

음성 번역의 예산은 발화 종료부터 응답 시작까지 600 ms. 우리 분할:

ASR 확정: 100~200 ms (WhisperFlux의 스트리밍 엔드포인트 + 신뢰도 트리거 확정).
번역 prefill + 첫 토큰: 200~300 ms (작은 모델은 KV 캐시도 작고, 프롬프트는 타이트하게).
TTS 첫 오디오: 100~200 ms (Kokoro / Piper / 플랫폼 TTS).

합: 타이트하지만 인터랙티브. 주관적으로 600 ms는 약간 예의 바른 사람의 텀 — 클라우드 번역도 네트워크 포함시 350 ms 아래로 내려가는 일은 드물다.

첫 출시

50개 언어, 50×50 쌍.
텍스트, 음성(푸시-투-토크 / 연속), 이미지(사진 번역).
"라이브 대화" 모드: 방향별 병렬 디코딩 컨텍스트 2개.
연락처별/유스케이스별 용어·스타일·톤 프리셋.

솔직히 인정하는 것

시적·문학적·문화 의존 번역은 프런티어 클라우드 모델이 아직 낫다. 당신이 고른 제공자를 추천한다 — 우리에게서 그쪽으로 라우팅되는 건 없다.
극저자원 언어쌍은 품질이 떨어진다. 어떤 쌍을 평가했고 BLEU/COMET이 어느 범위인지 명시한다.

그 솔직함도 TranslateFlux가 주고 싶은 느낌의 일부다.

최신 소식 받아보기

새 글이 게시되면 알림을 보내드립니다.

TranslateFlux: 비공개·오프라인 범용 번역기 만들기

문제

작은 모델이 충분한 이유

지연 예산

첫 출시

솔직히 인정하는 것

관련 기사

우리가 회사를 온디바이스 AI에 걸기로 한 이유

Flux Engine 설계 노트: 모든 제품을 위한 하나의 런타임

WhisperFlux 미리보기: 음성·화자·요약, 전부 로컬에서