产品发布于 2026-01-29·约 7 分钟阅读

VisionFlux：本地视觉理解的产品路线图

我们的第二款产品正在成形。本地视觉-语言模型今天能做到什么，我们押注它们下一步去哪儿。

今天的本地 VLM 是真的

一年前，"在手机上跑视觉-语言模型"还是一个研究方向。今天它已是产品面。量化后的 2–4B 参数 VLM（Qwen-VL、MiniCPM-V、Idefics、Llama-3.2-Vision 的 MLX 移植）已经能在旗舰 NPU 上以交互延迟回答关于真实图像的真实问题。

能力边界穿过了消费产品线：带推理的 OCR、文档问答、场景描述、屏幕理解、视觉定位，现在都能在认真量化后塞进一台手机的内存预算里。

VisionFlux 首发会做什么

文档问答。 对准一页，提任何问题。版面感知、表格感知、双语。
翻译世界。 菜单、路牌、包装——原位覆盖翻译，端侧完成，零次回服务器。
无障碍解说。 给低视力用户描述场景，话量可调、刷新速率可控，并附一份云端解说产品无法企及的隐私保证。
收据与表单录入。 拍一张报销，得到结构化字段，本地归档——绝不经过第三方 SaaS。

我们要去的地方

可选开启的本地记忆：你看过的东西用一个小嵌入模型索引，让你能问"那东西我在哪儿见过？"。
场景模式 —— 对持续变化的环境做不间断解说，由运动量和电量来限速。
多模态笔记 —— 把一个念头拍成"照片 + 一段语音"，让模型把它归到正确的项目和标签下。
AR 叠加 —— 当平台允许，翻译、无障碍、上下文帮助，全部本地渲染。

我们不会做什么

我们不会做云端视觉 API 的对手。"用无限算力从一张图片里榨出最多东西"这条边界，不是端侧能赢的地方。我们能赢的是"你口袋里这台相机，此刻、没网时，能给你最多的东西"。

那是另一种产品，也正是我们想做的那种。

想第一时间收到这样的更新？

没有邮件平台，没有追踪。每次产品发布，我们只发一封邮件。

继续阅读

我们为什么把公司压在端侧 AI 上

云端 AI 是一种过渡架构。我们认为，未来十年真正有用的 AI 将运行在你的口袋里——这也决定了我们正在构建的产品形态。

Flux Engine 设计笔记：为所有产品打造统一运行时

揭秘我们端侧推理运行时背后的架构选择，以及那些塑造它的工程约束。

WhisperFlux 抢先看：语音、说话人、摘要——全部本地

我们的旗舰应用进入内测。带你走一遍流式管线，并讲讲我们在真机上交付 ASR 学到的事。