我们为什么把公司压在端侧 AI 上
云端 AI 是一种过渡架构。我们认为,未来十年真正有用的 AI 将运行在你的口袋里——这也决定了我们正在构建的产品形态。
一个不容妥协的赌注
OmniFlux AI 创立之初,我们就下了一个赌注,它决定了之后的每一个决定:对人最重要的 AI,应该跑在他们已经拥有的硬件上。
不在某个区域。不躲在登录后面。不被 token 计费器丈量。就在设备上——口袋里的手机、桌上的笔电、手腕上的表。
定义今天这一刻的云端 AI 架构非常出色,但它是暂时的。它只是一个权宜之计——因为当下的前沿模型太大,放不进别的地方。等到硅片追上来,这个权宜之计就会变成税:以延迟、带宽、金钱,以及最重要的隐私来支付。
让云端溢价崩塌的三股趋势
- 模型在压缩。 量化(Q4_K_M、AWQ-int4、GPTQ)、结构化稀疏、蒸馏与 LoRA 适配器,已经能把前沿模型压到 1/4 到 1/8,而在产品场景下质量损失可以忽略。18 个月前要 A100 的模型,今天在手机上就能跑。
- NPU 大规模出货。 每一款主流旗舰手机都自带专用神经加速器,算力以数十 TOPS 计;中端机型 18 个月内跟进。Apple Neural Engine、高通 Hexagon、联发科 APU、谷歌 Tensor TPU 不再是研究项目,而是普及商品。
- 功耗预算下探。 两年前需要桌面 GPU 的负载,今天在 3–5 瓦的可持续移动功耗里就能跑完。"有用的 AI"已经掉进"常开消费设备"的热预算之下。
这对产品设计意味着什么
当推理变成本地,三件事同时发生:
- 延迟变成设计语言。 60 毫秒的首 token 不再是网络调用,而是 UI 响应。"发到服务器"变成"边输入边发生"。
- 隐私变成事实,而非承诺。 "数据从不离开设备"可以用
tcpdump验证,而不是用一份政策页背书。 - 功能的运行时成本归零。 没有按 token 计费、没有限流、没有被供应商路线图强制下架的模型。
它们合在一起,把"本地 AI"从猎奇约束翻成默认模式。从第一天就为它设计的产品会显得理所当然;不是的,那种像拨号上网。
我们不打算声称的东西
我们不声称端侧在每一项任务上都赢过云端。一台带浏览、工具和 100 万 token 上下文的 4050 亿参数模型,会在最难的推理 benchmark 上压制本地 7B 模型很多年。这没问题。
我们在声称另一件事:绝大多数有用的 AI 负载,并不是最难的推理 benchmark。 它是"总结这场会议"、"翻译这份菜单"、"把这段语音转写出来"、"帮我起草这条 commit"。这些负载,应该归给一个已经住在数据旁边的模型,而不是要求数据飞过去找它的模型。
我们要建造的世界
这就是我们安安静静在建造的世界,一次一个聚焦的产品:WhisperFlux 管语音,VisionFlux 管摄像头,TranslateFlux 管对话,NoteFlux 管捕捉,CodeFlux 管工程师。
它们之下是同一套运行时——Flux Engine——把任务调度到用户已经拥有的设备上,而不是别人发票上的计量表。
这就是我们的赌注,也是唯一的一个。