说话人识别

Spoken Language Identification with Pre-trained Models and Margin Loss

📄 Spoken Language Identification with Pre-trained Models and Margin Loss #说话人识别 #预训练 #迁移学习 #多语言 ✅ 7.5/10 | 前25% | #说话人识别 | #预训练 | #迁移学习 #多语言 | arxiv 学术质量 5.5/7 | 选题价值 1.3/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zhihua Fang (新疆大学计算机科学与技术学院) 通讯作者：Liang He (清华大学电子工程系，根据论文中“∗Corresponding author”标注判断) 作者列表：Zhihua Fang (新疆大学计算机科学与技术学院)、Liang He (清华大学电子工程系)、Weiwu Jiang (AGIBOT中央研发部) 💡 毒舌点评本文在特定挑战赛场景下（说话人控制的语言识别）系统性地验证了预训练ECAPA-TDNN模型与不同边界损失函数的组合效果，实验设计严谨、数据翔实，显著超越了官方基线。但核心创新更多在于方法组合与应用验证，而非提出全新的模型架构或损失设计；此外，论文承认对更具挑战性的“未见语言识别”任务探索不足，研究的深度和广度仍有提升空间。 🔗 开源详情代码：https://github.com/PunkMale/TidyLang2026 模型权重：https://huggingface.co/speechbrain/lang-id-voxlingua107-ecapa 数据集： Tidy-X 数据集：论文中未提及直接下载链接，但注明其由 Mozilla Common Voice 组织而来，评估基于此数据集。 Mozilla Common Voice：https://datacollective.mozillafoundation.org/datasets/cmihtsewu023so207xot1iqqw Demo：论文中未提及复现材料：论文中提及了详细的训练配置（如优化器、学习率、批大小、数据增强策略等）和评估协议，但未提供独立的训练配置文件、检查点或附录的下载链接。论文中引用的开源项目： TidyLang Challenge 2026 基线系统：https://github.com/areffarhadi/TidyLang2026-baseline XLS-R 预训练模型：https://huggingface.co/facebook/wav2vec2-xls-r-300m MUSAN 数据集：（用于数据增强，论文中未提供具体链接） RIRS 数据集：（用于数据增强，论文中未提供具体链接） 📌 核心摘要这篇论文旨在解决TidyLang Challenge 2026中提出的“说话人控制”的语音语言识别（SLID）问题。传统任务常将说话人视为干扰因素，而新挑战强调需从语音中解耦语言与说话人信息，并评估模型对未见语言的泛化能力。方法的核心是采用在VoxLingua107数据集上预训练的ECAPA-TDNN作为特征编码器，并引入基于边界的损失函数（AAM-Softmax和RAM-Softmax）来增强语言表示的判别力。与仅使用Wav2Vec2基线模型相比，该方法在Tidy-X数据集上实现了宏观准确率45.7%的提升（从40.25%到85.95%）和等错误率（EER）约50.8%的降低（从34.70%到17.08%）。该工作证明了任务相关预训练模型与边界损失的有效组合，为解决说话人无关的语言识别问题提供了实践方案。主要局限性在于：1）对更开放的未见语言验证任务（Task 2）的系统设计与优化尚不充分；2）自监督预训练模型（如XLS-R）的潜力未被完全挖掘；3）未探索模型融合等更复杂的策略。 ...

Beyond Decodability: Reconstructing Language Model Representations with an Encoding Probe

📄 Beyond Decodability: Reconstructing Language Model Representations with an Encoding Probe #模型评估 #回归分析 #说话人识别 #特征分析 ✅ 7.5/10 | 前25% | #模型评估 | #回归分析 | #说话人识别 #特征分析 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Gaofei Shen (Tilburg University) 通讯作者：未明确说明（论文提供了所有作者邮箱，但未指定通讯作者。根据惯例，Grzegorz Chrupała 可能为责任作者，但需标注为“未说明”）作者列表： Gaofei Shen (Tilburg University) Martijn Bentum (Radboud University) Tom Lentz (Tilburg University) Afra Alishahi (Tilburg University) Grzegorz Chrupała (Tilburg University) 💡 毒舌点评亮点：这篇论文最大的价值在于提供了一个清晰、易用且有统计学支撑的“反向”分析框架（编码探针），巧妙地将特征贡献量化和相关性控制这两个难题捆绑解决，比传统解码探针更能揭示模型内部的“表征预算分配”。短板：线性回归的假设可能过于简单，难以捕捉Transformer内部复杂的非线性关系，且结论高度依赖于预先定义好的特征集，如果特征集设计有偏，整个分析可能“瞎子摸象”。 ...

A Personalized Real-Time Proactive Voice Memory Assistant

📄 A Personalized Real-Time Proactive Voice Memory Assistant #实时处理 #语音识别 #大语言模型 #说话人识别 #可穿戴设备 ✅ 7.0/10 | 前50% | #实时处理 | #大语言模型 | #语音识别 #说话人识别学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -1.0 | 置信度高 👥 作者与机构第一作者：Hao Zhou (Samsung Research America, The Pennsylvania State University) - 根据作者列表顺序和标注“†”判断。通讯作者：论文中未明确标注通讯作者。作者列表：Hao Zhou¹²†, Md Mahbubur Rahman¹, Simon A. Lee¹³†, Baiying Lu¹⁴†, Juhyeon Lee¹⁵†, Cyrus Tanade¹, Megha Thukral¹⁶†, Md. Sazzad Hissain Khan⁷, Samsad Ul Islam⁷, Subramaniam Venkatraman¹, Sharanya Arcot Desai¹。机构信息：¹Samsung Research America, ²The Pennsylvania State University, ³University of California, Los Angeles, ⁴Dartmouth, ⁵University of Massachusetts Amherst, ⁶Georgia Institute of Technology, ⁷Samsung Research Bangladesh。标注“†”表示工作在三星研究美国实习期间完成。 💡 毒舌点评亮点：论文清晰地定义了“主人意识（owner-awareness）”和“最小干预”两个核心设计要求，并用一个优雅的“前导序列”初始化方法低成本地实现了前者，有效解决了记忆助手的隐私痛点。短板：系统号称面向记忆障碍人群，但所有实验均在健康人群和脚本对话上完成，缺乏真实目标用户和自由对话场景的验证，使得其宣称的“潜力”仍停留在假设阶段。 ...

Assessing the Impact of Speaker Identity in Speech Spoofing Detection

📄 Assessing the Impact of Speaker Identity in Speech Spoofing Detection #音频深度伪造检测 #多任务学习 #自监督学习 #说话人识别 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #多任务学习 | #自监督学习 #说话人识别学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Anh-Tuan DAO（法国阿维尼翁大学计算机实验室， Laboratoire d’informatique d’Avignon）通讯作者：未说明（论文未明确标注，但联系邮箱来自Nicholas Evans）作者列表：Anh-Tuan DAO（法国阿维尼翁大学计算机实验室）、Driss Matrouf（法国阿维尼翁大学计算机实验室）、Nicholas Evans（法国EURECOM， Sophia Antipolis） 💡 毒舌点评这篇论文的亮点在于它设计了一个巧妙的“可开关”框架（SInMT），能统一评估两种关于说话人信息的对立假设，并且实验设计扎实，在四个数据集上验证了“去除说话人信息”对检测特定高级伪造攻击（A11）的显著效果。然而，其短板在于整体创新属于对现有SSL+多任务框架的特定应用组合优化，且论文未探讨将两种模式（aware/invariant）动态融合的潜力，结论部分稍显仓促。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用的是公开的ASVspoof 5， ASVspoof 2021， ITW和MUSAN数据集，论文中未提供新的或私有数据集。 Demo：未提及。复现材料：论文给出了详细的训练细节、配置（如优化器、学习率、Batch Size、Epochs、硬件）和关键超参数（α, λ），以及数据增强流程，为复现实验提供了必要信息。论文中引用的开源项目：引用了XLSR预训练模型（[10]）。 📌 核心摘要要解决什么问题：研究在基于自监督学习（SSL）的语音伪造检测系统中，说话人身份信息究竟是应该被利用还是被抑制，以及这种信息对模型性能有何具体影响。方法核心是什么：提出一个名为说话人不变多任务（SInMT）的统一框架。该框架使用预训练的XLSR作为特征提取器，后接两个结构相同的MHFA分类头。核心创新在于通过控制一个梯度反转层（GRL）的开启/关闭，使模型能在“说话人感知（MHFA-spk）”和“说话人不变（MHFA-IVspk）”两种模式间灵活切换。与已有方法相比新在哪里：以往工作多单独评估多任务学习或不变性学习，SInMT框架首次在单一SSL骨干网络中实现了二者的统一与直接对比。它允许研究者系统评估在相同数据和特征基础上，引入或抑制说话人信息带来的不同效果。主要实验结果如何：在四个评估集（ITW， ASVspoof 5 评估集， ASVspoof 2021 LA和DF隐藏子集）上，说话人不变模式（MHFA-IVspk）取得了最佳的整体性能。与基线MHFA模型相比，其平均EER（等错误率）降低了17.2%（从7.41%降至6.13%）。对于最具挑战性的攻击类型A11，MHFA-IVspk实现了48%的相对EER降低（从17.02%降至8.76%）。说话人感知模式（MHFA-spk）也优于基线。主要实验结果表格（论文中Table 1）：模型 ITW EER(%) ASV5 eval EER(%) ASV21LA EER(%) ASV21DF EER(%) 平均EER(%) AASIST 7.03 5.54 13.66 9.60 8.95 Conformer 5.69 3.85 12.49 10.40 8.10 MHFA 4.31 4.64 12.14 8.58 7.41 MHFA-spk 3.76 5.29 8.67 8.41 6.53 MHFA-IVspk 3.58 4.98 8.41 7.57 6.13 实际意义是什么：为设计更鲁棒的语音伪造检测系统提供了新的思路和实证依据。研究表明，在SSL特征基础上，主动抑制说话人特定信息可能使模型更专注于伪造痕迹本身，从而提升对高级、高仿真伪造攻击的检测能力，尤其是在跨数据集、跨说话人的场景下。主要局限性是什么：论文指出，虽然MHFA-IVspk整体更优，但其在“见过说话人”的闭集场景下可能不如MHFA-spk，这一点因评估集均为开集（说话人与训练集不重叠）而未能验证。此外，框架的通用性受限于其特定的特征提取器（XLSR）和后端分类器（MHFA）。 🏗️ 模型架构 SInMT框架的整体架构如下： ...

Auden-Voice: General-Purpose Voice Encoder for Speech and Language Understanding

📄 Auden-Voice: General-Purpose Voice Encoder for Speech and Language Understanding #语音编码器 #说话人识别 #副语言理解 #多任务学习 #语音大模型 ✅ 7.5/10 | 前25% | #语音编码器 | #多任务学习 | #说话人识别 #副语言理解学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Mingyue Huo（University of Illinois Urbana-Champaign）通讯作者：未说明（论文作者列表为三位，未明确标注通讯作者）作者列表：Mingyue Huo（University of Illinois Urbana-Champaign）、Wei-Cheng Tseng（University of Texas at Austin）、Yiwen Shao（Tencent AI Lab, USA）、Hao Zhang（Tencent AI Lab, USA）、Dong Yu（Tencent AI Lab, USA） 💡 毒舌点评这篇论文的亮点在于其系统性的消融研究，像做实验一样把ASR初始化、单任务监督、多任务学习、CLAP微调挨个试了一遍，用翔实的数据揭示了“多任务学习在平衡性上优于CLAP”这一实用结论，为后续设计指明了方向。但其短板也明显：多任务学习与CLAP的简单叠加（Enc 2.4）在多数任务上性能反而下降，说明二者存在冲突或优化目标不兼容，论文对此的分析和解决方案略显不足；此外，在LLM-QA上的验证较为初级，未能充分展现该编码器在驱动复杂推理方面的潜力。 ...

Does the Pre-Training of an Embedding Influence its Encoding of Age?

📄 Does the Pre-Training of an Embedding Influence its Encoding of Age? #语音生物标志物 #说话人识别 #预训练 #模型比较 ✅ 7.0/10 | 前50% | #语音生物标志物 | #预训练 | #说话人识别 #模型比较学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Carole Millot（Inria Paris）通讯作者：未说明作者列表：Carole Millot（Inria Paris）、Clara Ponchard（Inria Paris）、Jean-François Bonastre（AMIAD，邮箱域名(polytechnique.edu)提示可能与巴黎综合理工学院相关，但论文中机构仅写为AMIAD）、Cédric Gendrot（LPP, Sorbonne Nouvelle, CNRS） 💡 毒舌点评亮点在于将心理物理学中的感知实验范式引入语音年龄检测模型的评估，为人机对齐提供了新颖的视角。短板是下游年龄检测模型过于简单（一个三层MLP），且对不同嵌入的分析更多停留在性能比较层面，缺乏对其内部年龄信息编码机制的更深层探究。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及提供训练好的年龄检测模型或使用的嵌入提取器的特定权重。所使用的嵌入提取器（WeSpeaker, MMS LID, wavLM, BA-LR）本身是已发表的开源项目。数据集：使用的是VoxCeleb2语料库，这是一个公开数据集。论文中提及了带有年龄标注的增强版本，但未说明如何获取该特定版本。 Demo：未提及。复现材料：论文给出了下游MLP的详细超参数（学习率、批大小、优化器）和训练流程，但未提供配置文件或检查点。论文中引用的开源项目：WeSpeaker toolkit, PraatSauce, PsyToolKit, lmerTest package (R语言)。 📌 核心摘要这篇论文研究了语音自监督学习（SSL）嵌入提取器的预训练策略如何影响其对说话人年龄信息的编码。为解决两个问题：1. 如何用人类感知验证自动年龄检测系统的性能；2. 不同预训练目标的嵌入是否在年龄检测上表现不同，作者进行了两项工作。首先，他们建立了一个基于WeSpeaker嵌入和简单MLP的年龄检测系统，并在VoxCeleb2-age数据集上实现了6.8年的平均绝对误差（MAE）。然后，他们设计了一个感知实验，让人类听者判断语音对中说话人的年龄差异。实验发现，人类准确度与系统MAE显著相关，即系统判断困难的语音对，人类也更难判断。其次，他们比较了四个不同嵌入提取器（WeSpeaker、MMS LID、wavLM base+、BA-LR）在相同年龄检测任务上的性能。结果显示，为说话人识别设计的WeSpeaker表现最佳（MAE 6.8），而为语言识别优化的MMS LID表现最差（MAE 9.1）。这支持了他们的假设：预训练目标（如追求说话人独立性的语言识别）会削弱嵌入中的年龄相关信息。主要局限性包括：仅在一个数据集和下游任务上验证，且未深入探究嵌入内部的年龄编码机制。 ...

DPO-Regularized Regression for Age Prediction

📄 DPO-Regularized Regression for Age Prediction #说话人识别 #回归模型 #偏好学习 #DPO #多任务学习 ✅ 7.5/10 | 前25% | #说话人识别 | #回归模型 | #偏好学习 #DPO 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Mahsa Zamani（卡内基梅隆大学语言技术研究所）通讯作者：Bhiksha Raj（卡内基梅隆大学语言技术研究所）作者列表：Mahsa Zamani（卡内基梅隆大学语言技术研究所）、Rita Singh（卡内基梅隆大学语言技术研究所）、Bhiksha Raj（卡内基梅隆大学语言技术研究所） 💡 毒舌点评亮点：将偏好优化（DPO）从语言模型对齐巧妙迁移到连续值回归问题，作为序数损失的监督信号，思路新颖且理论上有说服力，为传统MSE回归提供了有价值的补充。短板：实验仅在TIMIT（630人，20-58岁）这一个相对较小且年龄范围受限的数据集上验证，说服力有限；且未开源代码和模型，对于声称的“state-of-the-art”缺乏与同期最先进方法的直接横向对比。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。论文使用了预训练的TitaNet-Large，但未提供针对此任务微调后的模型权重。数据集：使用的是公开的TIMIT数据集，但未在论文中给出具体的获取链接或预处理脚本。 Demo：未提及。复现材料：论文提供了较为详细的训练配置（如图1、算法1、第4节实验设置），包括超参数（学习率、批量大小、训练轮数、MLP结构、损失权重、桶数、偏好对数量等），但未提供完整的训练脚本、数据划分或检查点。论文中引用的开源项目：明确依赖并使用了TitaNet-Large [27]作为特征提取器。 📌 核心摘要本文针对说话人年龄估计这一回归任务中，均方误差（MSE）损失无法有效建模年龄序数关系的问题，提出了一种结合MSE与直接偏好优化（DPO）的混合训练方法。方法的核心是将连续年龄目标离散化为分位数桶，并为每个样本构建偏好对（预测更接近真实年龄的桶为“偏好”，更远的为“非偏好”），通过DPO损失鼓励模型学习这种序数偏好。这不同于传统MSE对误差分布的假设，也不同于简单的分类方法。主要实验在TIMIT数据集上进行，结果表明，结合MSE和DPO的回归+DPO（RD）配置，使用12个桶和30个偏好对时，取得了最佳的平均绝对误差（MAE）3.98，优于仅使用MSE的基线（4.05）和纯分类方法，并接近该数据集上报告的最优水平（3.97）。该方法的意义在于首次将DPO应用于非分类的回归任务，为需要利用序数信息的连续值预测问题提供了一种新思路。主要局限性是实验数据集规模较小、年龄范围不包含青少年和老年，且未与更多现代方法进行对比验证。表1：不同损失配置在TIMIT数据集上的MAE对比（关键结果）损失配置 MAE 桶数量偏好对数量 RO (仅回归/MSE) 4.0543 - - RD (回归+DPO) 4.0737 6 6 RD (回归+DPO) 4.0454 8 8 RD (回归+DPO) 3.9801 12 30 RD (回归+DPO) 4.0892 12 40 RCD (回归+分类+DPO) 4.0326 8 30 🏗️ 模型架构本文提出的模型架构旨在同时进行连续值回归和离散类别分类（用于DPO监督），并在推理时丢弃分类头。整体流程如下： ...

Erasing Your Voice Before it’s Heard: Training-Free Speaker Unlearning for Zero-Shot Text-to-Speech

📄 Erasing Your Voice Before it’s Heard: Training-Free Speaker Unlearning for Zero-Shot Text-to-Speech #语音合成 #说话人识别 #流匹配 #音频安全 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #说话人识别 #音频安全学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Myungjin Lee (梨花女子大学 AI与软件学院) 通讯作者：Jiyoung Lee (梨花女子大学 AI与软件学院) 作者列表：Myungjin Lee (梨花女子大学 AI与软件学院), Eunji Shin (梨花女子大学 AI与软件学院), Jiyoung Lee† (梨花女子大学 AI与软件学院) （* 标记为共同第一作者，† 标记为通讯作者） 💡 毒舌点评这篇论文巧妙地将大语言模型中的“激活转向”思想移植到零样本TTS的安全场景，提供了一种“即插即忘”的优雅解决方案，免去了昂贵的重新训练，这是其最大的工程和实用价值。然而，方法的理论基石略显单薄——其核心假设“身份信息主要编码在FFN层”依赖于一篇同期引用的、尚未完全验证的分析，使得整个转向机制的普适性打上问号；此外，实验仅在F5-TTS上完成，对于其他TTS架构是否同样有效，仍是未知数。 🔗 开源详情代码：论文提供了代码和演示页面的链接：http://mmai.ewha.ac.kr/trus。是。模型权重：论文中未提及是否公开F5-TTS的预训练权重或TruS干预后的任何权重（因为TruS无需权重）。数据集：论文使用了公开数据集（Emilia的英文子集、LibriSpeech、CREMA-D），但未提及TruS评估所用的特定子集（如opt-out说话人列表）的获取方式。 Demo：论文提到“The demo and code are available on http://mmai.ewha.ac.kr/trus”，因此提供在线演示。是。复现材料：论文给出了部分超参数（如α=1.2, N=30），并进行了相关消融实验，但缺少详细的推理脚本、环境依赖（如F5-TTS的具体版本）、以及构建ID原型的具体操作脚本等复现材料。论文中引用的开源项目：主要依赖F5-TTS（[5]）作为基座模型。评估中使用了ECAPA-TDNN（[31]）计算SIM，Whisper large-V3（[32]）计算WER，emotion2vec（[33]）计算SIM-Emo。 📌 核心摘要要解决的问题：零样本文本到语音（TTS）模型能高度逼真地模仿任意说话人的声音，这带来了严重的隐私和安全风险，可能导致未授权的语音生成。现有应对方案如水印（事后追溯）、语音匿名化（身份替换）和基于训练的遗忘（成本高、无法处理未见说话人）均存在不足。本文旨在提出一种高效、可扩展的“拒绝生成”机制。方法核心：提出TruS，一个免训练的、在推理时进行干预的说话人遗忘框架。其核心思想是：在TTS模型内部，通过一组已知“保留”说话人的语料构建一个代表“正常”说话人身份的ID原型嵌入。当遇到请求“退出”（opt-out）的未知说话人时，计算其激活与ID原型的差异，得到一个身份特定的转向向量。在生成过程中，动态选择那些身份信号显著的层和时间步，将当前激活在转向向量方向上的投影分量减去，从而抑制该目标身份信息的输出，同时保留语言内容和韵律情感。与已有方法相比新在哪里：范式转变：从数据删除（重训练）转向推理时控制。免训练与即插即用：无需任何重训练或微调，可直接应用于现有TTS模型，极大降低了部署成本和时间。处理未见说话人：首次在零样本TTS遗忘任务中，能够有效处理训练集中未出现过的、来自外部的opt-out说话人请求，更具现实意义。动态与自适应：通过动态阈值（基于层间相似度统计）自动选择干预点，比固定规则的转向（如EmoSteer）更精细，避免了对生成质量的过度破坏。主要实验结果：在已见opt-out说话人上，TruS（SIM-SO: 0.477）与需要重训练的TGU（SIM-SO: 0.510）相比，在身份抑制上更有效，同时WER（语言保真度）更好（3.25 vs 4.03），且训练时间成本为零。但SGU（SIM-SO: 0.106）抑制更强，但破坏了保留说话人的语音质量（SIM-R大幅下降）。关键突破在于对未见opt-out说话人（LibriSpeech）的泛化能力：TruS将SIM-UO从基线的0.668显著降低至0.488，Spk-ZRF-UO从0.906提升至0.913，证明其可推广至未知身份。在情感数据集（CREMA-D）上，TruS在抑制未见说话人身份（SIM-UO: 0.131 vs 0.217）的同时，情感相似度（SIM-Emo）几乎无损（0.723 vs 0.732），表明能较好地保留非身份属性。消融研究表明，采用“μ+σ”阈值进行层选择能达到身份抑制与语音质量的最佳平衡；ID原型的保留说话人池大小N=30时综合性能最优。实际意义：为零样本TTS技术提供了一种用户驱动的、细粒度的隐私保护工具，允许个人明确拒绝其声音被合成，且该工具易于集成到现有系统中，为生成式语音AI的负责任部署提供了一种可扩展的技术方案。主要局限性：方法严重依赖“说话人身份信息主要编码在FFN层”这一先验假设，该假设的普适性有待验证。实验验证仅基于F5-TTS（一种基于DiT的流匹配模型）一种架构，其有效性是否能迁移到其他主流的零样本TTS模型（如自回归模型）尚不明确。对“未见说话人”的处理需要一个“opt-out说话人”的单句参考语音，这要求opt-out用户提供一段自己的录音作为凭证，可能存在额外操作门槛。 🏗️ 模型架构 TruS并非一个独立训练的模型，而是一个插入到预训练TTS模型（如F5-TTS）推理过程中的干预模块。其整体工作流程如图2所示。图2展示了TruS与TTS模型协同工作的流程： ...

ICASSP 2026 - 说话人识别论文列表

ICASSP 2026 - 说话人识别共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 DPO-Regularized Regression for Age Prediction 7.5分前25% 📋 论文详情 🥇 DPO-Regularized Regression for Age Prediction ✅ 7.5/10 | 前25% | #说话人识别 | #回归模型 | #偏好学习 #DPO 👥 作者与机构第一作者：Mahsa Zamani（卡内基梅隆大学语言技术研究所）通讯作者：Bhiksha Raj（卡内基梅隆大学语言技术研究所）作者列表：Mahsa Zamani（卡内基梅隆大学语言技术研究所）、Rita Singh（卡内基梅隆大学语言技术研究所）、Bhiksha Raj（卡内基梅隆大学语言技术研究所） 💡 毒舌点评亮点：将偏好优化（DPO）从语言模型对齐巧妙迁移到连续值回归问题，作为序数损失的监督信号，思路新颖且理论上有说服力，为传统MSE回归提供了有价值的补充。短板：实验仅在TIMIT（630人，20-58岁）这一个相对较小且年龄范围受限的数据集上验证，说服力有限；且未开源代码和模型，对于声称的“state-of-the-art”缺乏与同期最先进方法的直接横向对比。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。论文使用了预训练的TitaNet-Large，但未提供针对此任务微调后的模型权重。数据集：使用的是公开的TIMIT数据集，但未在论文中给出具体的获取链接或预处理脚本。 Demo：未提及。复现材料：论文提供了较为详细的训练配置（如图1、算法1、第4节实验设置），包括超参数（学习率、批量大小、训练轮数、MLP结构、损失权重、桶数、偏好对数量等），但未提供完整的训练脚本、数据划分或检查点。论文中引用的开源项目：明确依赖并使用了TitaNet-Large [27]作为特征提取器。 📌 核心摘要本文针对说话人年龄估计这一回归任务中，均方误差（MSE）损失无法有效建模年龄序数关系的问题，提出了一种结合MSE与直接偏好优化（DPO）的混合训练方法。方法的核心是将连续年龄目标离散化为分位数桶，并为每个样本构建偏好对（预测更接近真实年龄的桶为“偏好”，更远的为“非偏好”），通过DPO损失鼓励模型学习这种序数偏好。这不同于传统MSE对误差分布的假设，也不同于简单的分类方法。主要实验在TIMIT数据集上进行，结果表明，结合MSE和DPO的回归+DPO（RD）配置，使用12个桶和30个偏好对时，取得了最佳的平均绝对误差（MAE）3.98，优于仅使用MSE的基线（4.05）和纯分类方法，并接近该数据集上报告的最优水平（3.97）。该方法的意义在于首次将DPO应用于非分类的回归任务，为需要利用序数信息的连续值预测问题提供了一种新思路。主要局限性是实验数据集规模较小、年龄范围不包含青少年和老年，且未与更多现代方法进行对比验证。表1：不同损失配置在TIMIT数据集上的MAE对比（关键结果）损失配置 MAE 桶数量偏好对数量 RO (仅回归/MSE) 4.0543 - - RD (回归+DPO) 4.0737 6 6 RD (回归+DPO) 4.0454 8 8 RD (回归+DPO) 3.9801 12 30 RD (回归+DPO) 4.0892 12 40 RCD (回归+分类+DPO) 4.0326 8 30

Improving the Speaker Anonymization Evaluation’s Robustness to Target Speakers with Adversarial Learning

📄 Improving the Speaker Anonymization Evaluation’s Robustness to Target Speakers with Adversarial Learning #语音匿名化 #对抗学习 #说话人识别 #模型评估 ✅ 7.5/10 | 前50% | #语音匿名化 | #对抗学习 | #说话人识别 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Carlos Franzreb（DFKI, Germany）通讯作者：Carlos Franzreb（根据邮箱carlos.franzreb@dfki.de推断）作者列表：Carlos Franzreb (DFKI, Germany), Arnab Das (DFKI, Germany), Tim Polzehl (DFKI, Germany), Sebastian Möller (Technical University of Berlin, Germany) 💡 毒舌点评亮点：问题定义精准——直指现有评估框架在面对同性别目标选择时的“假高分”漏洞，并提出了一个诊断清晰（目标分类器VER）且治疗直接（对抗学习）的方案。短板：创新更偏工程优化而非理论突破，且方法对匿名化能力本身较弱的系统（如kNN-VC）几乎无效，显示其作为评估工具的普适性仍有边界。 🔗 开源详情代码：提供了代码仓库链接：https://github.com/carlosfranzreb/spane。论文中明确声明“All the necessary code and information to reproduce our experiments is available on GitHub”。模型权重：论文中未提及是否公开训练好的模型权重。数据集：使用了公开数据集LibriSpeech和LibriTTS。论文未提供这些数据集的直接获取方式或处理脚本，但数据集本身是公开可得的。 Demo：论文中未提及提供在线演示。复现材料：论文声称GitHub仓库包含复现所需的所有信息和代码。具体的训练细节、超参数、检查点等需参考该代码仓库。论文正文未提供附录说明。引用的开源项目/工具： SpAnE [16]: 作者之前提出的评估框架，也是本次实验的基础。 SpeechBrain [9]: 提供了ECAPA-TDNN说话人识别器的实现。 kNN-VC [17] & private kNN-VC [6]: 论文中测试的匿名化器。 ASR-BN [4]: 论文中测试的匿名化器（VPC2024基线）。论文中未提及后续的开源计划（如更新权重或扩展数据集）。 📌 核心摘要要解决什么问题：当前语音匿名化的隐私评估框架（由VoicePrivacy倡议定义）在使用同性别目标选择算法时，会错误地高估匿名化器的隐私保护能力。论文假设这是因为匿名化语音同时包含了源说话人和目标说话人的信息，而现有评估未考虑后者。方法核心是什么：在说话人识别器的训练阶段，额外添加一个目标分类器，用于量化识别器对匿名化中所用“目标说话人”信息的编码程度。进一步，通过梯度反转层进行对抗训练，迫使识别器丢弃与目标说话人相关的特征，从而更专注于识别源说话人。与已有方法相比新在哪里：不同于改进匿名化技术本身，本文创新性地从评估方法入手，通过引入目标分类器和对抗学习，增强了评估框架对目标选择算法的鲁棒性，使其能更公平地反映不同匿名化器的真实隐私性能。主要实验结果如何：基线对比：在VoicePrivacy 2024挑战赛（VPC24）的框架下，对于使用同性别TSA的强匿名化器（如private kNN-VC的(7-8)s配置），评估会给出接近50%的等错误率（EER），暗示完美隐私，而随机TSA下EER则低得多。本文方法效果：如表1所示，对于private kNN-VC (7-8)s，本文方法将EER从17.4%进一步降低至15.9%（即攻击更强，隐私评估更真实）；对于ASR-BNs，EER从17.4%显著降至13.9%（相对改善约20%）。同时，目标分类器验证率（VERT）从个位数/百分之三十多提升至99%以上，证明识别器成功丢弃了目标信息。关键图表：图2显示，更大的识别器和本文方法能修正VPC24框架的偏差。图3显示基线识别器编码的目标信息远多于源信息。图4确定了对抗训练的最佳启动时机（E=6）。 Anon. Eval. EER ↓ VERS ↓ VERT ↑ (7-8)r SpAnE 19.1±0.5 90.4±0.2 4.0±0.0 Ours 19.4±1.2 89.6±0.2 99.4±0.0 (7-8)s SpAnE 17.4±0.3 87.8±0.1 8.4±0.1 Ours 15.9±0.9 87.3±0.2 99.5±0.1 (3-16)r SpAnE 13.6±1.0 80.9±0.2 10.4±0.5 Ours 12.4±0.2 80.0±0.2 99.3±0.0 (3-16)s SpAnE 11.8±0.3 77.6±0.2 17.6±0.7 Ours 10.2±0.4 76.8±0.3 99.3±0.0 ASR-BNr SpAnE 18.4±0.2 92.1±0.1 60.2±0.5 Ours 18.9±0.2 91.9±0.1 99.6±0.0 ASR-BNs SpAnE 17.4±0.6 86.0±0.1 37.3±0.4 Ours 13.9±0.4 85.4±0.1 99.5±0.0 kNN-VCr SpAnE 6.3±0.7 40.9±0.3 63.4±0.2 Ours 6.5±0.2 41.4±0.2 99.1±0.0 kNN-VCs SpAnE 5.2±0.1 38.9±0.4 63.6±1.1 Ours 5.0±0.2 39.5±0.2 98.8±0.0 实际意义是什么：为语音匿名化技术提供了一个更可靠、更公平的隐私评估基准。这有助于准确区分不同匿名化算法的优劣，指导研究和工业界开发出真正安全的技术，并可能影响未来评估标准（如VoicePrivacy挑战赛）的制定。主要局限性是什么：该方法对匿名化效果本身较差的系统（如kNN-VC）改善不明显；论文未讨论引入额外分类器和对抗训练带来的计算开销；所验证的匿名化器和场景相对有限，其普适性有待进一步测试。 🏗️ 模型架构本文提出的并非一个新的匿名化模型，而是一个改进的隐私评估框架。其整体架构基于VoicePrivacy 2024挑战赛的评估协议，并在其训练阶段进行了关键扩展。 ...