产品发布于 2026-03-25·约 7 分钟阅读

WhisperFlux 抢先看：语音、说话人、摘要——全部本地

我们的旗舰应用进入内测。带你走一遍流式管线，并讲讲我们在真机上交付 ASR 学到的事。

内测两个月

我们已经在内部安静地试用 WhisperFlux 两个月。这是第一次公开讲它是怎么做的、为什么这样做。

端侧转写真正难的不是转写本身。基于 Whisper 系列、在多语种语料上训练的模型，对大部分消费级语言已经有了和云服务竞争的字错率。难的是说话人分离：在没有云端协助、4 瓦功耗预算下，实时判断谁说了什么。

我们最后采用一种流式聚类方案，具备三个性质：

一个 12 MB 的嵌入模型为每段有声片段产出 192 维说话人向量；带 6 秒更新窗口的在线层次聚类来分配标签。随着证据累积，旧标签可以被合并或拆分，转写视图用动画切换而不是粗暴跳变。

长会议会撑爆模型上下文。WhisperFlux 按约 3 分钟一段做摘要，并配一段滚动记忆：每段产出结构化的"发生了什么"记录（决议、行动项、未决问题），下一段读取它。最终摘要由这些记录拼成，绝不把完整转写塞进 prompt。这是"会后简报通顺一致"和"段落幻觉"的分水岭。

注重隐私的录音工具该让人感到从容，而不是冷峻。我们死磕录音态——圆点呼吸频率、波形包络、计时器字体——直到应用本身物理性地让用户安心，而不必招摇。屏幕顶部唯一刺眼的元素，是那枚飞行模式图标，告诉你"什么都没在上传"。

可以改名的说话人标签、按人指派的行动项、按文件导出到你已有的笔记应用——靠文件，永远不靠 API。

想第一时间收到这样的更新？

没有邮件平台，没有追踪。每次产品发布，我们只发一封邮件。