愿景发布于 2026-04-22·约 8 分钟阅读

我们为什么把公司压在端侧 AI 上

云端 AI 是一种过渡架构。我们认为，未来十年真正有用的 AI 将运行在你的口袋里——这也决定了我们正在构建的产品形态。

一个不容妥协的赌注

OmniFlux AI 创立之初，我们就下了一个赌注，它决定了之后的每一个决定：对人最重要的 AI，应该跑在他们已经拥有的硬件上。

不在某个区域。不躲在登录后面。不被 token 计费器丈量。就在设备上——口袋里的手机、桌上的笔电、手腕上的表。

定义今天这一刻的云端 AI 架构非常出色，但它是暂时的。它只是一个权宜之计——因为当下的前沿模型太大，放不进别的地方。等到硅片追上来，这个权宜之计就会变成税：以延迟、带宽、金钱，以及最重要的隐私来支付。

模型在压缩。 量化（Q4_K_M、AWQ-int4、GPTQ）、结构化稀疏、蒸馏与 LoRA 适配器，已经能把前沿模型压到 1/4 到 1/8，而在产品场景下质量损失可以忽略。18 个月前要 A100 的模型，今天在手机上就能跑。
NPU 大规模出货。 每一款主流旗舰手机都自带专用神经加速器，算力以数十 TOPS 计；中端机型 18 个月内跟进。Apple Neural Engine、高通 Hexagon、联发科 APU、谷歌 Tensor TPU 不再是研究项目，而是普及商品。
功耗预算下探。 两年前需要桌面 GPU 的负载，今天在 3–5 瓦的可持续移动功耗里就能跑完。"有用的 AI"已经掉进"常开消费设备"的热预算之下。

当推理变成本地，三件事同时发生：

它们合在一起，把"本地 AI"从猎奇约束翻成默认模式。从第一天就为它设计的产品会显得理所当然；不是的，那种像拨号上网。

我们不声称端侧在每一项任务上都赢过云端。一台带浏览、工具和 100 万 token 上下文的 4050 亿参数模型，会在最难的推理 benchmark 上压制本地 7B 模型很多年。这没问题。

我们在声称另一件事：绝大多数有用的 AI 负载，并不是最难的推理 benchmark。 它是"总结这场会议"、"翻译这份菜单"、"把这段语音转写出来"、"帮我起草这条 commit"。这些负载，应该归给一个已经住在数据旁边的模型，而不是要求数据飞过去找它的模型。

这就是我们安安静静在建造的世界，一次一个聚焦的产品：WhisperFlux 管语音，VisionFlux 管摄像头，TranslateFlux 管对话，NoteFlux 管捕捉，CodeFlux 管工程师。

它们之下是同一套运行时——Flux Engine——把任务调度到用户已经拥有的设备上，而不是别人发票上的计量表。

这就是我们的赌注，也是唯一的一个。

想第一时间收到这样的更新？

没有邮件平台，没有追踪。每次产品发布，我们只发一封邮件。