저널
엔지니어링2026-01-22 게시·7분 읽기

TranslateFlux: 비공개·오프라인 범용 번역기 만들기

번역 지연과 품질, 그리고 작은 모델을 훨씬 큰 클라우드 모델만큼 느껴지게 하는 엔지니어링 트릭들.

문제

클라우드 번역은 훌륭하고 빠르며 무료다 — 비행 중이거나, 로밍이 없는 외국에 있거나, 오디오 반출이 위반인 병원에 있거나, 단순히 대화를 제3자에게 스트리밍하기 싫은 사람을 제외하면.

TranslateFlux는 그 답이다: 사람들이 실제로 필요로 하는 언어로, 텍스트·음성·이미지를 커버하는 완전 온디바이스 번역기.

작은 모델이 충분한 이유

4비트 양자화한 1~3B 파라미터 MoE 스타일 또는 distill된 번역 모델은 상위 50개 언어쌍에서 클라우드 강자들과 놀라울 정도로 가까운 품질 상한을 친다. 남는 격차는 장문·고맥락 번역에 있고 — 앞 2~3문단 맥락이 필요한 — 그 대부분은 당신 자신의 과거 번역에 대한 retrieval로 메울 수 있다.

작은 모델을 "크게 느껴지게" 하는 두 가지 트릭:

  • 용어 주입. 대화별로, 사용했던 이름·약어·전문 용어의 작은 사전을 모델에 주고 일관되게 쓰게 한다. 클라우드 API에는 없는 시그널이다.
  • 스타일 유도. 짧은 스타일 프리앰블("격식 있는 일본어, 비즈니스 이메일")은 10억 파라미터 추가보다 훨씬 싸고 효과가 좋다.

지연 예산

음성 번역의 예산은 발화 종료부터 응답 시작까지 600 ms. 우리 분할:

  • ASR 확정: 100~200 ms (WhisperFlux의 스트리밍 엔드포인트 + 신뢰도 트리거 확정).
  • 번역 prefill + 첫 토큰: 200~300 ms (작은 모델은 KV 캐시도 작고, 프롬프트는 타이트하게).
  • TTS 첫 오디오: 100~200 ms (Kokoro / Piper / 플랫폼 TTS).

합: 타이트하지만 인터랙티브. 주관적으로 600 ms는 약간 예의 바른 사람의 텀 — 클라우드 번역도 네트워크 포함시 350 ms 아래로 내려가는 일은 드물다.

첫 출시

  • 50개 언어, 50×50 쌍.
  • 텍스트, 음성(푸시-투-토크 / 연속), 이미지(사진 번역).
  • "라이브 대화" 모드: 방향별 병렬 디코딩 컨텍스트 2개.
  • 연락처별/유스케이스별 용어·스타일·톤 프리셋.

솔직히 인정하는 것

  • 시적·문학적·문화 의존 번역은 프런티어 클라우드 모델이 아직 낫다. 당신이 고른 제공자를 추천한다 — 우리에게서 그쪽으로 라우팅되는 건 없다.
  • 극저자원 언어쌍은 품질이 떨어진다. 어떤 쌍을 평가했고 BLEU/COMET이 어느 범위인지 명시한다.

그 솔직함도 TranslateFlux가 주고 싶은 느낌의 일부다.

최신 소식 받아보기

새 글이 게시되면 알림을 보내드립니다.

구독