エンジニアリング2026-02-12公開·11分で読めます

スマホで話者ダイアライゼーション：ディープダイブ

4ワットの電力枠で、音声を一秒もアップロードせず、リアルタイムにエンドツーエンドの話者ダイアライゼーションをどう動かしているか。

問題

ダイアライゼーションは「誰がいつ話したか」に答える。それは「文字の壁」と「会話」を分けるものだ。ダイアライゼーションがなければ「出しちゃおう」は誰のものでもないが、あれば固有の名前に着地し、アクションアイテムになる。

VAD（音声区間検出） —— 後段すべてのゲート。実音声があるときだけサイクルを使う。私たちのVADはlog-mel特徴上を10msごとに回る200KBのCNN。
話者埋め込み —— 有声区間ごとに固定長192次元ベクトルを抽出。ECAPA-TDNN系を12MB int8まで蒸留したモデル。
オンラインクラスタリング —— 修正付き凝集型。新しい証拠で過去ラベルを更新する。
スムージング —— 400ms未満の短い切替は併合し、UIのちらつきを防ぐ。

12MBの埋め込みモデル、6秒更新窓のストリーミングクラスタリング、ラベル変更をジャンプではなくアニメーションで見せる転写ビュー。iPhone 15 Proで初ラベル中央値950ms、Pixel 8aで1.6s。

このような更新をメールで受け取りたいですか？

ニュースレターサービスもトラッキングもありません。リリースごとに 1 通だけお届けします。