产品发布于 2026-01-29·约 7 分钟阅读
VisionFlux:本地视觉理解的产品路线图
我们的第二款产品正在成形。本地视觉-语言模型今天能做到什么,我们押注它们下一步去哪儿。
今天的本地 VLM 是真的
一年前,"在手机上跑视觉-语言模型"还是一个研究方向。今天它已是产品面。量化后的 2–4B 参数 VLM(Qwen-VL、MiniCPM-V、Idefics、Llama-3.2-Vision 的 MLX 移植)已经能在旗舰 NPU 上以交互延迟回答关于真实图像的真实问题。
能力边界穿过了消费产品线:带推理的 OCR、文档问答、场景描述、屏幕理解、视觉定位,现在都能在认真量化后塞进一台手机的内存预算里。
VisionFlux 首发会做什么
- 文档问答。 对准一页,提任何问题。版面感知、表格感知、双语。
- 翻译世界。 菜单、路牌、包装——原位覆盖翻译,端侧完成,零次回服务器。
- 无障碍解说。 给低视力用户描述场景,话量可调、刷新速率可控,并附一份云端解说产品无法企及的隐私保证。
- 收据与表单录入。 拍一张报销,得到结构化字段,本地归档——绝不经过第三方 SaaS。
我们要去的地方
- 可选开启的本地记忆:你看过的东西用一个小嵌入模型索引,让你能问"那东西我在哪儿见过?"。
- 场景模式 —— 对持续变化的环境做不间断解说,由运动量和电量来限速。
- 多模态笔记 —— 把一个念头拍成"照片 + 一段语音",让模型把它归到正确的项目和标签下。
- AR 叠加 —— 当平台允许,翻译、无障碍、上下文帮助,全部本地渲染。
我们不会做什么
我们不会做云端视觉 API 的对手。"用无限算力从一张图片里榨出最多东西"这条边界,不是端侧能赢的地方。我们能赢的是"你口袋里这台相机,此刻、没网时,能给你最多的东西"。
那是另一种产品,也正是我们想做的那种。