札记
愿景发布于 2026-04-22·约 8 分钟阅读

我们为什么把公司压在端侧 AI 上

云端 AI 是一种过渡架构。我们认为,未来十年真正有用的 AI 将运行在你的口袋里——这也决定了我们正在构建的产品形态。

一个不容妥协的赌注

OmniFlux AI 创立之初,我们就下了一个赌注,它决定了之后的每一个决定:对人最重要的 AI,应该跑在他们已经拥有的硬件上。

不在某个区域。不躲在登录后面。不被 token 计费器丈量。就在设备上——口袋里的手机、桌上的笔电、手腕上的表。

定义今天这一刻的云端 AI 架构非常出色,但它是暂时的。它只是一个权宜之计——因为当下的前沿模型太大,放不进别的地方。等到硅片追上来,这个权宜之计就会变成税:以延迟、带宽、金钱,以及最重要的隐私来支付。

让云端溢价崩塌的三股趋势

  • 模型在压缩。 量化(Q4_K_M、AWQ-int4、GPTQ)、结构化稀疏、蒸馏与 LoRA 适配器,已经能把前沿模型压到 1/4 到 1/8,而在产品场景下质量损失可以忽略。18 个月前要 A100 的模型,今天在手机上就能跑。
  • NPU 大规模出货。 每一款主流旗舰手机都自带专用神经加速器,算力以数十 TOPS 计;中端机型 18 个月内跟进。Apple Neural Engine、高通 Hexagon、联发科 APU、谷歌 Tensor TPU 不再是研究项目,而是普及商品。
  • 功耗预算下探。 两年前需要桌面 GPU 的负载,今天在 3–5 瓦的可持续移动功耗里就能跑完。"有用的 AI"已经掉进"常开消费设备"的热预算之下。

这对产品设计意味着什么

当推理变成本地,三件事同时发生:

  1. 延迟变成设计语言。 60 毫秒的首 token 不再是网络调用,而是 UI 响应。"发到服务器"变成"边输入边发生"。
  2. 隐私变成事实,而非承诺。 "数据从不离开设备"可以用 tcpdump 验证,而不是用一份政策页背书。
  3. 功能的运行时成本归零。 没有按 token 计费、没有限流、没有被供应商路线图强制下架的模型。

它们合在一起,把"本地 AI"从猎奇约束翻成默认模式。从第一天就为它设计的产品会显得理所当然;不是的,那种像拨号上网。

我们不打算声称的东西

我们不声称端侧在每一项任务上都赢过云端。一台带浏览、工具和 100 万 token 上下文的 4050 亿参数模型,会在最难的推理 benchmark 上压制本地 7B 模型很多年。这没问题。

我们在声称另一件事:绝大多数有用的 AI 负载,并不是最难的推理 benchmark。 它是"总结这场会议"、"翻译这份菜单"、"把这段语音转写出来"、"帮我起草这条 commit"。这些负载,应该归给一个已经住在数据旁边的模型,而不是要求数据飞过去找它的模型。

我们要建造的世界

这就是我们安安静静在建造的世界,一次一个聚焦的产品:WhisperFlux 管语音,VisionFlux 管摄像头,TranslateFlux 管对话,NoteFlux 管捕捉,CodeFlux 管工程师。

它们之下是同一套运行时——Flux Engine——把任务调度到用户已经拥有的设备上,而不是别人发票上的计量表。

这就是我们的赌注,也是唯一的一个。

想第一时间收到这样的更新?

没有邮件平台,没有追踪。每次产品发布,我们只发一封邮件。

订阅