なぜ私たちは会社をオンデバイスAIに賭けたのか
クラウドAIは過渡期のアーキテクチャだ。これからの10年、本当に役立つAIはあなたのポケットの中で動くと私たちは考えている――そしてそれが、私たちが作っているプロダクトの形を決めている。
たった一つ、譲れない賭け
OmniFlux AI を立ち上げたとき、私たちは一つの賭けをした。その後のすべての判断はこの一点にぶら下がっている。人々にとって本当に大事なAIは、その人がすでに持っているハードウェアの上で動くべきだ。
どこかのリージョンの中ではなく、ログインの向こうではなく、トークンメーターで測られるのでもなく――デバイスの上で。ポケットの中の電話、机の上のラップトップ、手首の時計。
今この瞬間を定義しているクラウドAIアーキテクチャは見事だが、一時的なものだ。これは「現在のフロンティアモデルが大きすぎて、ほかのどこにも入らない」という事実への回避策にすぎない。シリコンが追いついてくれば、その回避策は税金に変わる――レイテンシ、帯域、そして何よりプライバシーで支払う税金に。
クラウドプレミアムを崩す3つのトレンド
- モデルは縮む。 量子化(Q4_K_M、AWQ-int4、GPTQ)、構造化スパース化、蒸留、LoRA系アダプタによって、フロンティアモデルは4〜8倍小さくなりながら、プロダクト負荷では品質損失をほぼ感じさせない。18か月前にA100が必要だったモデルが、今日はスマホで動く。
- NPUが量産で配られる。 主要なフラッグシップ機はすべて専用ニューラルアクセラレータを搭載し、その性能は数十TOPSで測られる。ミドルレンジは18か月で追いつく。Apple Neural Engine、Qualcomm Hexagon、MediaTek APU、Google Tensor TPUはもう研究テーマではなく、コモディティだ。
- 電力予算は下がる。 2年前にデスクトップGPUを要した負荷が、今では3〜5Wというモバイルの持続可能な範囲に収まる。「役に立つAI」の熱しきい値が、「常時稼働の消費者デバイス」の床を下回った。
これがプロダクト設計に意味すること
推論がローカルになると、3つのことが同時に起きる:
- レイテンシは設計言語になる。 60ミリ秒のファーストトークンはもはやネットワーク呼び出しではなく、UIの手触りだ。「サーバーへ送る」が「タイプしている最中に起きる」に変わる。
- プライバシーは約束ではなく事実になる。 「データは端末から出ない」は、ポリシーページではなく
tcpdumpで検証できる。 - 機能のランタイムコストはゼロになる。 トークン課金もレートリミットも、ベンダーのロードマップ都合で消されるモデルもない。
これらが重なって、「ローカルAI」は珍しい制約から既定の動作モードへと裏返る。最初からそれを前提に作られたプロダクトは必然のように感じられ、そうでないものはダイヤルアップのように感じられる。
主張しないこと
私たちは、すべてのタスクでオンデバイスがクラウドに勝つとは主張しない。ブラウジング、ツール、100万トークンの文脈窓を備えた4050億パラメータモデルは、最も難しい推論ベンチマークでローカル7Bモデルを当面圧倒するだろう。それでいい。
私たちが主張するのは別のことだ。有用なAI負荷の中央値は、もっとも難しい推論ベンチマークではない。 それは「この会議をまとめて」「このメニューを訳して」「このボイスメモを起こして」「このコミットメッセージを下書きして」だ。それらは、データのすぐ隣に住んでいるモデルに任せるべきであって、データをそこまで飛ばす必要があるモデルに任せるべきではない。
私たちが作ろうとしている世界
それが、私たちが静かに作り続けている世界だ――フォーカスのきいたプロダクトを一つずつ。音声はWhisperFlux。カメラはVisionFlux。会話はTranslateFlux。捕捉はNoteFlux。エンジニアにはCodeFlux。
その下にはひとつのランタイム、Flux Engine。タスクを、ユーザがすでに持っているデバイスにスケジュールする――誰か他人の請求書のメーターにではなく。
それが賭けだ。私たちが張っている唯一の賭けだ。