WhisperFlux 抢先看:语音、说话人、摘要——全部本地
我们的旗舰应用进入内测。带你走一遍流式管线,并讲讲我们在真机上交付 ASR 学到的事。
内测两个月
我们已经在内部安静地试用 WhisperFlux 两个月。这是第一次公开讲它是怎么做的、为什么这样做。
难的不是转写
端侧转写真正难的不是转写本身。基于 Whisper 系列、在多语种语料上训练的模型,对大部分消费级语言已经有了和云服务竞争的字错率。难的是说话人分离:在没有云端协助、4 瓦功耗预算下,实时判断谁说了什么。
我们最后采用一种流式聚类方案,具备三个性质:
- 旗舰 NPU 端到端延迟低于 1.2 秒(中端低于 2 秒)
- 多人同时说话时,依然鲁棒
- 新音频到达时会回头修正旧标签,UI 不闪
一个 12 MB 的嵌入模型为每段有声片段产出 192 维说话人向量;带 6 秒更新窗口的在线层次聚类来分配标签。随着证据累积,旧标签可以被合并或拆分,转写视图用动画切换而不是粗暴跳变。
在上下文长度之上的摘要
长会议会撑爆模型上下文。WhisperFlux 按约 3 分钟一段做摘要,并配一段滚动记忆:每段产出结构化的"发生了什么"记录(决议、行动项、未决问题),下一段读取它。最终摘要由这些记录拼成,绝不把完整转写塞进 prompt。这是"会后简报通顺一致"和"段落幻觉"的分水岭。
偏执时刻里的从容 UI
注重隐私的录音工具该让人感到从容,而不是冷峻。我们死磕录音态——圆点呼吸频率、波形包络、计时器字体——直到应用本身物理性地让用户安心,而不必招摇。屏幕顶部唯一刺眼的元素,是那枚飞行模式图标,告诉你"什么都没在上传"。
接下来
可以改名的说话人标签、按人指派的行动项、按文件导出到你已有的笔记应用——靠文件,永远不靠 API。