评估说话人去识别系统中的身份泄漏
Seungmin Seo,Oleg Aulov,Afzal Godil,Kevin Mangold
国家标准与技术研究所,美国马里兰州盖瑟斯堡
摘要
说话人去识别旨在隐藏说话人的身份,同时保持底层语
音的可理解性。我们引入了一个基准,它用三个互补的
错误率来量化剩余身份泄漏年龄:等错误率、累积匹配
特征命中率和通过典型相关分析和 Procrustes 分析测
量的嵌入空间相似性。评估结果显示,所有最先进的说
话人去识别系统都会泄漏身份信息。在我们的评估中,
性能最高的系统的表现仅略好于随机猜测,而性能最低
的系统在基于 CMC 的前 50 名候选中实现了 45%的命中
率。这些发现强调了当前说话人去识别技术中持续存在
的隐私风险。
索引术语-说话人去识别、语音隐私、身份泄露
1. 介绍
我们通过视频会议平台、语音助手和呼叫中心记录器传
输的语音传达的远不止词汇内容:它嵌入了可以挑出个
人的生物特征。最近的隐私法规——最突出的是欧盟的
通用数据保护条例(GDPR)和加州的消费者隐私法案
(CCPA) — — 明确将这 些 签 名归 类 为 个人身份 信 息
【1,2】。
因 此 , 在 现 场 自 发 语 音 上 操 作 的 说 话 人 去 识 别
(SDID)系统已经成为研究的重点。与离线语音转换或
文本到语音管道不同,实时 SDID 必须满足毫秒级的延
迟预算,保持可理解性和自然性,同时承受来自最先进
的说话人识别模型的攻击[3]。
单个组件-例如。解开说话者——内容表示学习[4]和
神经音频编解码器[5]——已经显示出希望,但该领域仍
然缺乏一个核心问题的严格答案:有多少身份信息通过今
天的端到端 SDID 管道“泄露”?
先前的研究很难比较[6,7,8,9,10,11,
除了这种分散的情况,我们还引入了一个多视图身份泄
露评估套件,该套件集成了 EER、累积匹配特征(CMC)
分析和嵌入空间相似性,通过典型相关分析(CCA)测
量,然后是 Procrustes 比对【13】。
每个视角都暴露了剩余说话 者信息的一个 不同方
面:EER 量化了二进制验证风险,CMC 反映了搜索等级
泄漏,嵌入分析定位了表征在潜在空间中收敛的位置。
每个 SDID 系统都需要满足实时处理预算,由其他测试
和评估机构独立评估;本文主要研究隐私度量。在这个
协议下,每个系统都会泄露身份:实现的最佳性能仅略
微超过随机猜测,但仍然显著超过随机猜测,而在 CMC
的前 50 个候选中,最弱的系统达到 45%的命中率。这些
发现强调了稳健的、保护隐私的说话人去识别的持续挑
战。
2. 说话人去识别系统
本研究中的五个 SDID 系统提交给 NIST 进行评估——全
部是在 IARPA ARTS 计划 1 下开发的——包括四个表演者
系统和一个由测试和评估合作伙伴构建的基线。请注
意,在撰写本文时,还没有公开的系统描述,因此参考
文献反映了同一研究人员的相关工作。[14,15,16,17]
每个系统将流式语音段作为输入,并输出旨在隐藏
说话者身份的流式修改版本。主要目标是(1)防止说
话人识别模型链接原始片段和去识别片段,以及( 2)
确保为同一说话人生成的去识别片段(在相同或不同的
匿名化简档下)是一致的或适当的。
3. 评价
3.1. 数据
评估集来源于 Mixer 3 语料库[18]。我们只保留了以美
国英语为母语的人
12];大多数依赖于单个说话人识别后端,并且
一个单独的度量,如等错误率(EER)。前进
1www.iarpa.gov/research-programs/arts