札记
产品发布于 2026-03-25·约 7 分钟阅读

WhisperFlux 抢先看:语音、说话人、摘要——全部本地

我们的旗舰应用进入内测。带你走一遍流式管线,并讲讲我们在真机上交付 ASR 学到的事。

内测两个月

我们已经在内部安静地试用 WhisperFlux 两个月。这是第一次公开讲它是怎么做的、为什么这样做。

难的不是转写

端侧转写真正难的不是转写本身。基于 Whisper 系列、在多语种语料上训练的模型,对大部分消费级语言已经有了和云服务竞争的字错率。难的是说话人分离:在没有云端协助、4 瓦功耗预算下,实时判断谁说了什么。

我们最后采用一种流式聚类方案,具备三个性质:

  • 旗舰 NPU 端到端延迟低于 1.2 秒(中端低于 2 秒)
  • 多人同时说话时,依然鲁棒
  • 新音频到达时会回头修正旧标签,UI 不闪

一个 12 MB 的嵌入模型为每段有声片段产出 192 维说话人向量;带 6 秒更新窗口的在线层次聚类来分配标签。随着证据累积,旧标签可以被合并或拆分,转写视图用动画切换而不是粗暴跳变。

在上下文长度之上的摘要

长会议会撑爆模型上下文。WhisperFlux 按约 3 分钟一段做摘要,并配一段滚动记忆:每段产出结构化的"发生了什么"记录(决议、行动项、未决问题),下一段读取它。最终摘要由这些记录拼成,绝不把完整转写塞进 prompt。这是"会后简报通顺一致"和"段落幻觉"的分水岭。

偏执时刻里的从容 UI

注重隐私的录音工具该让人感到从容,而不是冷峻。我们死磕录音态——圆点呼吸频率、波形包络、计时器字体——直到应用本身物理性地让用户安心,而不必招摇。屏幕顶部唯一刺眼的元素,是那枚飞行模式图标,告诉你"什么都没在上传"。

接下来

可以改名的说话人标签、按人指派的行动项、按文件导出到你已有的笔记应用——靠文件,永远不靠 API。

想第一时间收到这样的更新?

没有邮件平台,没有追踪。每次产品发布,我们只发一封邮件。

订阅