プロダクト2026-01-29公開·7分で読めます

VisionFlux：ローカル視覚理解のロードマップ

2つ目のプロダクトが形になってきた。ローカルVLMが今できること、そしてそれが次にどこへ行くと我々が賭けているか。

今日のローカルVLMは本物だ

1年前、「スマホ上のビジョン言語モデル」は研究テーマだった。今日それはプロダクト面になった。量子化された2〜4BパラメータのVLM（Qwen-VL、MiniCPM-V、Idefics、Llama-3.2-VisionのMLX移植）は、フラッグシップNPU上で実画像への実問いに対話的レイテンシで答える。

能力フロンティアは消費者プロダクト線を越えた：推論付きOCR、文書Q&A、シーン記述、画面理解、視覚的グラウンディングのすべてが、丁寧に量子化すればスマホサイズのメモリ予算に収まる。

VisionFluxが最初に出すもの

文書Q&A。 ページに向けて、何でも訊く。レイアウト・表対応、二言語対応。
世界を翻訳する。 メニュー、看板、パッケージ——その場にオーバーレイ翻訳、オンデバイス、サーバ往復ゼロ。
アクセシビリティ解説。 低視力ユーザにシーンを記述、冗長度調節可、リフレッシュ率制御可、クラウド解説プロダクトでは到達できないプライバシー保証付き。
領収書・フォーム取り込み。 経費を撮るだけで構造化フィールド化し、ローカルで保管——サードパーティSaaSなし。

我々が向かう先

オプトインのローカルメモリ。 見たものを小さな埋め込みモデルでインデックス化し、「あれ、どこで見たっけ？」に答えられるようにする。
シーンモード —— 変化する環境を継続的に解説し、動きと電池でスロットルする。
マルチモーダルノート —— 写真と音声クリップで思考をキャプチャし、モデルが正しいプロジェクトとタグに整理する。
ARオーバーレイ —— プラットフォームが許す範囲で、翻訳・アクセシビリティ・文脈ヘルプ、すべてローカルでレンダリング。

我々が作らないもの

クラウド視覚APIの対抗品は作らない。「無制限の計算で1枚から最大限を引き出す」というフロンティアは、オンデバイスが勝てる場所ではない。私たちが勝てるのは「ポケットの中のカメラで、今、ネットなしで、何が引き出せるか」だ。

それは別のプロダクトだし、私たちが出したいのはそっちだ。

このような更新をメールで受け取りたいですか？

ニュースレターサービスもトラッキングもありません。リリースごとに 1 通だけお届けします。

登録する

VisionFlux：ローカル視覚理解のロードマップ

今日のローカルVLMは本物だ

VisionFluxが最初に出すもの

我々が向かう先

我々が作らないもの

続きを読む

なぜ私たちは会社をオンデバイスAIに賭けたのか

Flux Engine 設計ノート：すべてのプロダクトに、ひとつのランタイム

WhisperFlux プレビュー：音声・話者・要約をすべてローカルで