ジャーナル
プロダクト2026-01-29公開·7分で読めます

VisionFlux:ローカル視覚理解のロードマップ

2つ目のプロダクトが形になってきた。ローカルVLMが今できること、そしてそれが次にどこへ行くと我々が賭けているか。

今日のローカルVLMは本物だ

1年前、「スマホ上のビジョン言語モデル」は研究テーマだった。今日それはプロダクト面になった。量子化された2〜4BパラメータのVLM(Qwen-VL、MiniCPM-V、Idefics、Llama-3.2-VisionのMLX移植)は、フラッグシップNPU上で実画像への実問いに対話的レイテンシで答える。

能力フロンティアは消費者プロダクト線を越えた:推論付きOCR、文書Q&A、シーン記述、画面理解、視覚的グラウンディングのすべてが、丁寧に量子化すればスマホサイズのメモリ予算に収まる。

VisionFluxが最初に出すもの

  • 文書Q&A。 ページに向けて、何でも訊く。レイアウト・表対応、二言語対応。
  • 世界を翻訳する。 メニュー、看板、パッケージ——その場にオーバーレイ翻訳、オンデバイス、サーバ往復ゼロ。
  • アクセシビリティ解説。 低視力ユーザにシーンを記述、冗長度調節可、リフレッシュ率制御可、クラウド解説プロダクトでは到達できないプライバシー保証付き。
  • 領収書・フォーム取り込み。 経費を撮るだけで構造化フィールド化し、ローカルで保管——サードパーティSaaSなし。

我々が向かう先

  • オプトインのローカルメモリ。 見たものを小さな埋め込みモデルでインデックス化し、「あれ、どこで見たっけ?」に答えられるようにする。
  • シーンモード —— 変化する環境を継続的に解説し、動きと電池でスロットルする。
  • マルチモーダルノート —— 写真と音声クリップで思考をキャプチャし、モデルが正しいプロジェクトとタグに整理する。
  • ARオーバーレイ —— プラットフォームが許す範囲で、翻訳・アクセシビリティ・文脈ヘルプ、すべてローカルでレンダリング。

我々が作らないもの

クラウド視覚APIの対抗品は作らない。「無制限の計算で1枚から最大限を引き出す」というフロンティアは、オンデバイスが勝てる場所ではない。私たちが勝てるのは「ポケットの中のカメラで、今、ネットなしで、何が引き出せるか」だ。

それは別のプロダクトだし、私たちが出したいのはそっちだ。

このような更新をメールで受け取りたいですか?

ニュースレターサービスもトラッキングもありません。リリースごとに 1 通だけお届けします。

登録する