ジャーナル
プロダクト2026-03-25公開·7分で読めます

WhisperFlux プレビュー:音声・話者・要約をすべてローカルで

フラッグシップが社内ベータに入った。ストリーミングパイプラインを一巡し、実機にASRを載せて学んだことを共有する。

現場で2か月

WhisperFluxを2か月間、社内で静かにテストしてきた。これは初めての公開的な解説——どう動いているか、なぜそう作っているかを書く。

難しいのは文字起こしではない

オンデバイス文字起こしの本当の難しさは文字起こしそのものではない。多言語コーパスで学習されたWhisper系モデルは、ほとんどの消費者向け言語でクラウド級のWERに肉薄する。難しいのはダイアライゼーションだ。クラウドの助けなしに、4ワットの電力枠の中で、誰がいつ話したかをリアルタイムに割り当てる。

私たちが落ち着いたのはストリーミングクラスタリングで、性質は3つ:

  • フラッグシップNPUでエンドツーエンド遅延1.2秒未満(ミドルでも2秒未満)
  • 複数話者が重なってもロバスト
  • 新しい音声が来ると過去ラベルを更新するが、UIはちらつかない

12MBの埋め込みモデルが、有声区間ごとに192次元の話者ベクトルを出す。6秒更新窓のオンラインの凝集クラスタリングがラベルを割り当てる。証拠が積もると過去ラベルは結合・分割されうるが、トランスクリプト画面はその変化をアニメーションで見せる。

コンテキスト長を超えても保つ要約

長い会議はモデルのコンテキストを溢れさせる。WhisperFluxは3分前後のチャンクで要約し、ローリングメモリを併走させる。各チャンクは構造化された「何が起きたか」(決定事項・アクションアイテム・未解決課題)を出し、次のチャンクがそれを読む。最終要約はこの記録から組み立てられ、全文をプロンプトに詰め込んだりはしない。これが「整った終了時ブリーフ」と「幻覚段落」の分かれ目になる。

神経質な瞬間のための、落ち着いたUI

プライバシーを守るレコーダーは、冷たくではなく、落ち着いて感じられるべきだ。録音中の状態——点の脈拍、波形のエンベロープ、タイマーのタイポグラフィ——を、見せびらかさずに「動いているよ」と物理的に伝えるまで磨いた。画面上で唯一目立つのは、上部の飛行機アイコン。何もアップロードしていないという合図だ。

次にくるもの

リネーム可能な話者ラベル、話者ごとに割り当てるアクションアイテム、既存のメモアプリへの書き出し——APIではなくファイルで。

このような更新をメールで受け取りたいですか?

ニュースレターサービスもトラッキングもありません。リリースごとに 1 通だけお届けします。

登録する