工程发布于 2026-02-12·约 11 分钟阅读

在手机上做说话人分离：深度复盘

我们如何在 4 瓦功耗预算下实时端到端做说话人分离——并且不上传一帧音频。

问题

说话人分离回答的是"谁在什么时候说话"。它把一堵文字墙变成一段对话。没有分离，"那就发吧"无名无姓；有分离，它落到一个具体的名字头上，变成一项行动项。

VAD（语音活动检测） —— 给后面所有环节把门。只在真有语音时花算力。我们的 VAD 是一个 200 KB 的 CNN，作用于 log-mel 特征，每 10 毫秒跑一次。
说话人嵌入 —— 每段有声片段提取一个 192 维定长向量。我们用蒸馏到 12 MB int8 的 ECAPA-TDNN 系模型。
在线聚类 —— 带回归修正的层次聚类。新证据会更新旧标签。
平滑 —— 400 毫秒以内的短切换会被合并，防止 UI 闪烁。

12 MB 嵌入模型，6 秒更新窗口的流式聚类算法，以及一个用动画切换标签、不再跳变的转写视图。在 iPhone 15 Pro 上端到端首标签延迟中位数 950 ms，Pixel 8a 上 1.6 s。

想第一时间收到这样的更新？

没有邮件平台，没有追踪。每次产品发布，我们只发一封邮件。