プロダクト2026-01-29公開·7分で読めます
VisionFlux:ローカル視覚理解のロードマップ
2つ目のプロダクトが形になってきた。ローカルVLMが今できること、そしてそれが次にどこへ行くと我々が賭けているか。
今日のローカルVLMは本物だ
1年前、「スマホ上のビジョン言語モデル」は研究テーマだった。今日それはプロダクト面になった。量子化された2〜4BパラメータのVLM(Qwen-VL、MiniCPM-V、Idefics、Llama-3.2-VisionのMLX移植)は、フラッグシップNPU上で実画像への実問いに対話的レイテンシで答える。
能力フロンティアは消費者プロダクト線を越えた:推論付きOCR、文書Q&A、シーン記述、画面理解、視覚的グラウンディングのすべてが、丁寧に量子化すればスマホサイズのメモリ予算に収まる。
VisionFluxが最初に出すもの
- 文書Q&A。 ページに向けて、何でも訊く。レイアウト・表対応、二言語対応。
- 世界を翻訳する。 メニュー、看板、パッケージ——その場にオーバーレイ翻訳、オンデバイス、サーバ往復ゼロ。
- アクセシビリティ解説。 低視力ユーザにシーンを記述、冗長度調節可、リフレッシュ率制御可、クラウド解説プロダクトでは到達できないプライバシー保証付き。
- 領収書・フォーム取り込み。 経費を撮るだけで構造化フィールド化し、ローカルで保管——サードパーティSaaSなし。
我々が向かう先
- オプトインのローカルメモリ。 見たものを小さな埋め込みモデルでインデックス化し、「あれ、どこで見たっけ?」に答えられるようにする。
- シーンモード —— 変化する環境を継続的に解説し、動きと電池でスロットルする。
- マルチモーダルノート —— 写真と音声クリップで思考をキャプチャし、モデルが正しいプロジェクトとタグに整理する。
- ARオーバーレイ —— プラットフォームが許す範囲で、翻訳・アクセシビリティ・文脈ヘルプ、すべてローカルでレンダリング。
我々が作らないもの
クラウド視覚APIの対抗品は作らない。「無制限の計算で1枚から最大限を引き出す」というフロンティアは、オンデバイスが勝てる場所ではない。私たちが勝てるのは「ポケットの中のカメラで、今、ネットなしで、何が引き出せるか」だ。
それは別のプロダクトだし、私たちが出したいのはそっちだ。