说话人识别

DPO-Regularized Regression for Age Prediction

📄 DPO-Regularized Regression for Age Prediction #说话人识别 #回归模型 #偏好学习 #DPO #多任务学习 ✅ 7.5/10 | 前25% | #说话人识别 | #回归模型 | #偏好学习 #DPO 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Mahsa Zamani（卡内基梅隆大学语言技术研究所）通讯作者：Bhiksha Raj（卡内基梅隆大学语言技术研究所）作者列表：Mahsa Zamani（卡内基梅隆大学语言技术研究所）、Rita Singh（卡内基梅隆大学语言技术研究所）、Bhiksha Raj（卡内基梅隆大学语言技术研究所） 💡 毒舌点评亮点：将偏好优化（DPO）从语言模型对齐巧妙迁移到连续值回归问题，作为序数损失的监督信号，思路新颖且理论上有说服力，为传统MSE回归提供了有价值的补充。短板：实验仅在TIMIT（630人，20-58岁）这一个相对较小且年龄范围受限的数据集上验证，说服力有限；且未开源代码和模型，对于声称的“state-of-the-art”缺乏与同期最先进方法的直接横向对比。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。论文使用了预训练的TitaNet-Large，但未提供针对此任务微调后的模型权重。数据集：使用的是公开的TIMIT数据集，但未在论文中给出具体的获取链接或预处理脚本。 Demo：未提及。复现材料：论文提供了较为详细的训练配置（如图1、算法1、第4节实验设置），包括超参数（学习率、批量大小、训练轮数、MLP结构、损失权重、桶数、偏好对数量等），但未提供完整的训练脚本、数据划分或检查点。论文中引用的开源项目：明确依赖并使用了TitaNet-Large [27]作为特征提取器。 📌 核心摘要本文针对说话人年龄估计这一回归任务中，均方误差（MSE）损失无法有效建模年龄序数关系的问题，提出了一种结合MSE与直接偏好优化（DPO）的混合训练方法。方法的核心是将连续年龄目标离散化为分位数桶，并为每个样本构建偏好对（预测更接近真实年龄的桶为“偏好”，更远的为“非偏好”），通过DPO损失鼓励模型学习这种序数偏好。这不同于传统MSE对误差分布的假设，也不同于简单的分类方法。主要实验在TIMIT数据集上进行，结果表明，结合MSE和DPO的回归+DPO（RD）配置，使用12个桶和30个偏好对时，取得了最佳的平均绝对误差（MAE）3.98，优于仅使用MSE的基线（4.05）和纯分类方法，并接近该数据集上报告的最优水平（3.97）。该方法的意义在于首次将DPO应用于非分类的回归任务，为需要利用序数信息的连续值预测问题提供了一种新思路。主要局限性是实验数据集规模较小、年龄范围不包含青少年和老年，且未与更多现代方法进行对比验证。表1：不同损失配置在TIMIT数据集上的MAE对比（关键结果）损失配置 MAE 桶数量偏好对数量 RO (仅回归/MSE) 4.0543 - - RD (回归+DPO) 4.0737 6 6 RD (回归+DPO) 4.0454 8 8 RD (回归+DPO) 3.9801 12 30 RD (回归+DPO) 4.0892 12 40 RCD (回归+分类+DPO) 4.0326 8 30 🏗️ 模型架构本文提出的模型架构旨在同时进行连续值回归和离散类别分类（用于DPO监督），并在推理时丢弃分类头。整体流程如下： ...

Erasing Your Voice Before it’s Heard: Training-Free Speaker Unlearning for Zero-Shot Text-to-Speech

📄 Erasing Your Voice Before it’s Heard: Training-Free Speaker Unlearning for Zero-Shot Text-to-Speech #语音合成 #说话人识别 #流匹配 #音频安全 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #说话人识别 #音频安全学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Myungjin Lee (梨花女子大学 AI与软件学院) 通讯作者：Jiyoung Lee (梨花女子大学 AI与软件学院) 作者列表：Myungjin Lee (梨花女子大学 AI与软件学院), Eunji Shin (梨花女子大学 AI与软件学院), Jiyoung Lee† (梨花女子大学 AI与软件学院) （* 标记为共同第一作者，† 标记为通讯作者） 💡 毒舌点评这篇论文巧妙地将大语言模型中的“激活转向”思想移植到零样本TTS的安全场景，提供了一种“即插即忘”的优雅解决方案，免去了昂贵的重新训练，这是其最大的工程和实用价值。然而，方法的理论基石略显单薄——其核心假设“身份信息主要编码在FFN层”依赖于一篇同期引用的、尚未完全验证的分析，使得整个转向机制的普适性打上问号；此外，实验仅在F5-TTS上完成，对于其他TTS架构是否同样有效，仍是未知数。 🔗 开源详情代码：论文提供了代码和演示页面的链接：http://mmai.ewha.ac.kr/trus。是。模型权重：论文中未提及是否公开F5-TTS的预训练权重或TruS干预后的任何权重（因为TruS无需权重）。数据集：论文使用了公开数据集（Emilia的英文子集、LibriSpeech、CREMA-D），但未提及TruS评估所用的特定子集（如opt-out说话人列表）的获取方式。 Demo：论文提到“The demo and code are available on http://mmai.ewha.ac.kr/trus”，因此提供在线演示。是。复现材料：论文给出了部分超参数（如α=1.2, N=30），并进行了相关消融实验，但缺少详细的推理脚本、环境依赖（如F5-TTS的具体版本）、以及构建ID原型的具体操作脚本等复现材料。论文中引用的开源项目：主要依赖F5-TTS（[5]）作为基座模型。评估中使用了ECAPA-TDNN（[31]）计算SIM，Whisper large-V3（[32]）计算WER，emotion2vec（[33]）计算SIM-Emo。 📌 核心摘要要解决的问题：零样本文本到语音（TTS）模型能高度逼真地模仿任意说话人的声音，这带来了严重的隐私和安全风险，可能导致未授权的语音生成。现有应对方案如水印（事后追溯）、语音匿名化（身份替换）和基于训练的遗忘（成本高、无法处理未见说话人）均存在不足。本文旨在提出一种高效、可扩展的“拒绝生成”机制。方法核心：提出TruS，一个免训练的、在推理时进行干预的说话人遗忘框架。其核心思想是：在TTS模型内部，通过一组已知“保留”说话人的语料构建一个代表“正常”说话人身份的ID原型嵌入。当遇到请求“退出”（opt-out）的未知说话人时，计算其激活与ID原型的差异，得到一个身份特定的转向向量。在生成过程中，动态选择那些身份信号显著的层和时间步，将当前激活在转向向量方向上的投影分量减去，从而抑制该目标身份信息的输出，同时保留语言内容和韵律情感。与已有方法相比新在哪里：范式转变：从数据删除（重训练）转向推理时控制。免训练与即插即用：无需任何重训练或微调，可直接应用于现有TTS模型，极大降低了部署成本和时间。处理未见说话人：首次在零样本TTS遗忘任务中，能够有效处理训练集中未出现过的、来自外部的opt-out说话人请求，更具现实意义。动态与自适应：通过动态阈值（基于层间相似度统计）自动选择干预点，比固定规则的转向（如EmoSteer）更精细，避免了对生成质量的过度破坏。主要实验结果：在已见opt-out说话人上，TruS（SIM-SO: 0.477）与需要重训练的TGU（SIM-SO: 0.510）相比，在身份抑制上更有效，同时WER（语言保真度）更好（3.25 vs 4.03），且训练时间成本为零。但SGU（SIM-SO: 0.106）抑制更强，但破坏了保留说话人的语音质量（SIM-R大幅下降）。关键突破在于对未见opt-out说话人（LibriSpeech）的泛化能力：TruS将SIM-UO从基线的0.668显著降低至0.488，Spk-ZRF-UO从0.906提升至0.913，证明其可推广至未知身份。在情感数据集（CREMA-D）上，TruS在抑制未见说话人身份（SIM-UO: 0.131 vs 0.217）的同时，情感相似度（SIM-Emo）几乎无损（0.723 vs 0.732），表明能较好地保留非身份属性。消融研究表明，采用“μ+σ”阈值进行层选择能达到身份抑制与语音质量的最佳平衡；ID原型的保留说话人池大小N=30时综合性能最优。实际意义：为零样本TTS技术提供了一种用户驱动的、细粒度的隐私保护工具，允许个人明确拒绝其声音被合成，且该工具易于集成到现有系统中，为生成式语音AI的负责任部署提供了一种可扩展的技术方案。主要局限性：方法严重依赖“说话人身份信息主要编码在FFN层”这一先验假设，该假设的普适性有待验证。实验验证仅基于F5-TTS（一种基于DiT的流匹配模型）一种架构，其有效性是否能迁移到其他主流的零样本TTS模型（如自回归模型）尚不明确。对“未见说话人”的处理需要一个“opt-out说话人”的单句参考语音，这要求opt-out用户提供一段自己的录音作为凭证，可能存在额外操作门槛。 🏗️ 模型架构 TruS并非一个独立训练的模型，而是一个插入到预训练TTS模型（如F5-TTS）推理过程中的干预模块。其整体工作流程如图2所示。图2展示了TruS与TTS模型协同工作的流程： ...

ICASSP 2026 - 说话人识别论文列表

ICASSP 2026 - 说话人识别共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 DPO-Regularized Regression for Age Prediction 7.5分前25% 📋 论文详情 🥇 DPO-Regularized Regression for Age Prediction ✅ 7.5/10 | 前25% | #说话人识别 | #回归模型 | #偏好学习 #DPO 👥 作者与机构第一作者：Mahsa Zamani（卡内基梅隆大学语言技术研究所）通讯作者：Bhiksha Raj（卡内基梅隆大学语言技术研究所）作者列表：Mahsa Zamani（卡内基梅隆大学语言技术研究所）、Rita Singh（卡内基梅隆大学语言技术研究所）、Bhiksha Raj（卡内基梅隆大学语言技术研究所） 💡 毒舌点评亮点：将偏好优化（DPO）从语言模型对齐巧妙迁移到连续值回归问题，作为序数损失的监督信号，思路新颖且理论上有说服力，为传统MSE回归提供了有价值的补充。短板：实验仅在TIMIT（630人，20-58岁）这一个相对较小且年龄范围受限的数据集上验证，说服力有限；且未开源代码和模型，对于声称的“state-of-the-art”缺乏与同期最先进方法的直接横向对比。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。论文使用了预训练的TitaNet-Large，但未提供针对此任务微调后的模型权重。数据集：使用的是公开的TIMIT数据集，但未在论文中给出具体的获取链接或预处理脚本。 Demo：未提及。复现材料：论文提供了较为详细的训练配置（如图1、算法1、第4节实验设置），包括超参数（学习率、批量大小、训练轮数、MLP结构、损失权重、桶数、偏好对数量等），但未提供完整的训练脚本、数据划分或检查点。论文中引用的开源项目：明确依赖并使用了TitaNet-Large [27]作为特征提取器。 📌 核心摘要本文针对说话人年龄估计这一回归任务中，均方误差（MSE）损失无法有效建模年龄序数关系的问题，提出了一种结合MSE与直接偏好优化（DPO）的混合训练方法。方法的核心是将连续年龄目标离散化为分位数桶，并为每个样本构建偏好对（预测更接近真实年龄的桶为“偏好”，更远的为“非偏好”），通过DPO损失鼓励模型学习这种序数偏好。这不同于传统MSE对误差分布的假设，也不同于简单的分类方法。主要实验在TIMIT数据集上进行，结果表明，结合MSE和DPO的回归+DPO（RD）配置，使用12个桶和30个偏好对时，取得了最佳的平均绝对误差（MAE）3.98，优于仅使用MSE的基线（4.05）和纯分类方法，并接近该数据集上报告的最优水平（3.97）。该方法的意义在于首次将DPO应用于非分类的回归任务，为需要利用序数信息的连续值预测问题提供了一种新思路。主要局限性是实验数据集规模较小、年龄范围不包含青少年和老年，且未与更多现代方法进行对比验证。表1：不同损失配置在TIMIT数据集上的MAE对比（关键结果）损失配置 MAE 桶数量偏好对数量 RO (仅回归/MSE) 4.0543 - - RD (回归+DPO) 4.0737 6 6 RD (回归+DPO) 4.0454 8 8 RD (回归+DPO) 3.9801 12 30 RD (回归+DPO) 4.0892 12 40 RCD (回归+分类+DPO) 4.0326 8 30

Improving the Speaker Anonymization Evaluation’s Robustness to Target Speakers with Adversarial Learning

📄 Improving the Speaker Anonymization Evaluation’s Robustness to Target Speakers with Adversarial Learning #语音匿名化 #对抗学习 #说话人识别 #模型评估 ✅ 7.5/10 | 前50% | #语音匿名化 | #对抗学习 | #说话人识别 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Carlos Franzreb（DFKI, Germany）通讯作者：Carlos Franzreb（根据邮箱carlos.franzreb@dfki.de推断）作者列表：Carlos Franzreb (DFKI, Germany), Arnab Das (DFKI, Germany), Tim Polzehl (DFKI, Germany), Sebastian Möller (Technical University of Berlin, Germany) 💡 毒舌点评亮点：问题定义精准——直指现有评估框架在面对同性别目标选择时的“假高分”漏洞，并提出了一个诊断清晰（目标分类器VER）且治疗直接（对抗学习）的方案。短板：创新更偏工程优化而非理论突破，且方法对匿名化能力本身较弱的系统（如kNN-VC）几乎无效，显示其作为评估工具的普适性仍有边界。 🔗 开源详情代码：提供了代码仓库链接：https://github.com/carlosfranzreb/spane。论文中明确声明“All the necessary code and information to reproduce our experiments is available on GitHub”。模型权重：论文中未提及是否公开训练好的模型权重。数据集：使用了公开数据集LibriSpeech和LibriTTS。论文未提供这些数据集的直接获取方式或处理脚本，但数据集本身是公开可得的。 Demo：论文中未提及提供在线演示。复现材料：论文声称GitHub仓库包含复现所需的所有信息和代码。具体的训练细节、超参数、检查点等需参考该代码仓库。论文正文未提供附录说明。引用的开源项目/工具： SpAnE [16]: 作者之前提出的评估框架，也是本次实验的基础。 SpeechBrain [9]: 提供了ECAPA-TDNN说话人识别器的实现。 kNN-VC [17] & private kNN-VC [6]: 论文中测试的匿名化器。 ASR-BN [4]: 论文中测试的匿名化器（VPC2024基线）。论文中未提及后续的开源计划（如更新权重或扩展数据集）。 📌 核心摘要要解决什么问题：当前语音匿名化的隐私评估框架（由VoicePrivacy倡议定义）在使用同性别目标选择算法时，会错误地高估匿名化器的隐私保护能力。论文假设这是因为匿名化语音同时包含了源说话人和目标说话人的信息，而现有评估未考虑后者。方法核心是什么：在说话人识别器的训练阶段，额外添加一个目标分类器，用于量化识别器对匿名化中所用“目标说话人”信息的编码程度。进一步，通过梯度反转层进行对抗训练，迫使识别器丢弃与目标说话人相关的特征，从而更专注于识别源说话人。与已有方法相比新在哪里：不同于改进匿名化技术本身，本文创新性地从评估方法入手，通过引入目标分类器和对抗学习，增强了评估框架对目标选择算法的鲁棒性，使其能更公平地反映不同匿名化器的真实隐私性能。主要实验结果如何：基线对比：在VoicePrivacy 2024挑战赛（VPC24）的框架下，对于使用同性别TSA的强匿名化器（如private kNN-VC的(7-8)s配置），评估会给出接近50%的等错误率（EER），暗示完美隐私，而随机TSA下EER则低得多。本文方法效果：如表1所示，对于private kNN-VC (7-8)s，本文方法将EER从17.4%进一步降低至15.9%（即攻击更强，隐私评估更真实）；对于ASR-BNs，EER从17.4%显著降至13.9%（相对改善约20%）。同时，目标分类器验证率（VERT）从个位数/百分之三十多提升至99%以上，证明识别器成功丢弃了目标信息。关键图表：图2显示，更大的识别器和本文方法能修正VPC24框架的偏差。图3显示基线识别器编码的目标信息远多于源信息。图4确定了对抗训练的最佳启动时机（E=6）。 Anon. Eval. EER ↓ VERS ↓ VERT ↑ (7-8)r SpAnE 19.1±0.5 90.4±0.2 4.0±0.0 Ours 19.4±1.2 89.6±0.2 99.4±0.0 (7-8)s SpAnE 17.4±0.3 87.8±0.1 8.4±0.1 Ours 15.9±0.9 87.3±0.2 99.5±0.1 (3-16)r SpAnE 13.6±1.0 80.9±0.2 10.4±0.5 Ours 12.4±0.2 80.0±0.2 99.3±0.0 (3-16)s SpAnE 11.8±0.3 77.6±0.2 17.6±0.7 Ours 10.2±0.4 76.8±0.3 99.3±0.0 ASR-BNr SpAnE 18.4±0.2 92.1±0.1 60.2±0.5 Ours 18.9±0.2 91.9±0.1 99.6±0.0 ASR-BNs SpAnE 17.4±0.6 86.0±0.1 37.3±0.4 Ours 13.9±0.4 85.4±0.1 99.5±0.0 kNN-VCr SpAnE 6.3±0.7 40.9±0.3 63.4±0.2 Ours 6.5±0.2 41.4±0.2 99.1±0.0 kNN-VCs SpAnE 5.2±0.1 38.9±0.4 63.6±1.1 Ours 5.0±0.2 39.5±0.2 98.8±0.0 实际意义是什么：为语音匿名化技术提供了一个更可靠、更公平的隐私评估基准。这有助于准确区分不同匿名化算法的优劣，指导研究和工业界开发出真正安全的技术，并可能影响未来评估标准（如VoicePrivacy挑战赛）的制定。主要局限性是什么：该方法对匿名化效果本身较差的系统（如kNN-VC）改善不明显；论文未讨论引入额外分类器和对抗训练带来的计算开销；所验证的匿名化器和场景相对有限，其普适性有待进一步测试。 🏗️ 模型架构本文提出的并非一个新的匿名化模型，而是一个改进的隐私评估框架。其整体架构基于VoicePrivacy 2024挑战赛的评估协议，并在其训练阶段进行了关键扩展。 ...

PRSA: Preventing Malicious Speaker Recognition and Speech Synthesis Simultaneously with Adversarial Examples

📄 PRSA: Preventing Malicious Speaker Recognition and Speech Synthesis Simultaneously with Adversarial Examples #语音匿名化 #对抗样本 #说话人识别 #语音合成 #隐私保护 ✅ 7.0/10 | 前25% | #语音匿名化 | #对抗样本 | #说话人识别 #语音合成学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度中 👥 作者与机构第一作者：Shiqi Zhou（中国科学院信息工程研究所，中国科学院大学网络空间安全学院，网络空间安全防御国家重点实验室）通讯作者：Lingcui Zhang（中国科学院信息工程研究所，网络空间安全防御国家重点实验室）作者列表： Shiqi Zhou（中国科学院信息工程研究所，中国科学院大学网络空间安全学院，网络空间安全防御国家重点实验室） Jiayu Li（中国科学院信息工程研究所，中国科学院大学网络空间安全学院，网络空间安全防御国家重点实验室） Jiangyi Deng（浙江大学电气工程学院） Lingcui Zhang（中国科学院信息工程研究所，网络空间安全防御国家重点实验室） Jin Cao（西安电子科技大学网络与信息安全学院） Ben Niu（中国科学院信息工程研究所，网络空间安全防御国家重点实验室） 💡 毒舌点评这篇论文精准地抓住了现有语音对抗防御研究“各自为战”的痛点，提出了一个“一石二鸟”的统一防御框架（PRSA），实验设计也相当全面，同时对抗ASV和TTS多个系统。然而，其核心创新——“同时防御”更多是目标设定上的新颖，而非技术手段上的革命性突破，且代码未开源让其声称的优越性能打了折扣，读者很难直接验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：实验使用公开数据集LibriSpeech， VCTK， TIMIT，但论文未说明其具体获取或预处理方式。 Demo：未提及。复现材料：论文提供了部分关键超参数（如ε， λ， β， γ，迭代次数N），但缺乏完整的训练配置、数据处理流程和核心模块实现代码。论文中引用的开源项目：提及了使用的开源模型/系统：X-VECTOR， ECAPA-TDNN， WavLM， Unispeech-SAT， YourTTS， SV2TTS， Tortoise， StyleTTS2， AdaIN， Whisper。但这些并非作者为本项目提供的开源材料。 📌 核心摘要问题：当前利用对抗样本保护语音隐私的方法存在缺陷，要么只能防御自动说话人验证（ASV），要么只能防御文本到语音（TTS）合成攻击，缺乏一种能同时有效防御两者的综合方案。 ...

UNet-Based Fusion and Exponential Moving Average Adaptation for Noise-Robust Speaker Recognition

📄 UNet-Based Fusion and Exponential Moving Average Adaptation for Noise-Robust Speaker Recognition #说话人验证 #说话人识别 #迁移学习 #语音增强 #鲁棒性 ✅ 7.5/10 | 前25% | #说话人验证 | #迁移学习 | #说话人识别 #语音增强 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chong-Xin Gan (香港理工大学电气与电子工程系) 通讯作者：未说明作者列表： Chong-Xin Gan (香港理工大学) Peter Bell (爱丁堡大学语音技术研究中心) Man-Wai Mak (香港理工大学) Zhe Li (香港大学) Zezhong Jin (未说明) Zilong Huang (未说明) Kong Aik Lee (未说明) 💡 毒舌点评这篇论文的亮点在于思路非常清晰且务实：它敏锐地指出了现有“联合训练”范式（从头训练SE模块）的痛点——丢掉了原始带噪语音里的有用信息，且浪费了强大预训练SE模型的能力。于是，它提出了一个“拿来主义”的解决方案：用现成的顶级SE模型先处理，再用一个UNet去“缝合”原始和增强后的特征，并用EMA这个平滑的策略去微调说话人编码器，整套操作逻辑自洽且有效。短板在于，它更像是一个精心设计的“工程集成”方案，核心的UNet融合部分创新深度有限（线性插值的非线性升级），且文中并未公开关键代码和模型，让读者对其“可复现性”打上一个问号。 ...

Explainable AI in Speaker Recognition -- Making Latent Representations Understandable

📄 Explainable AI in Speaker Recognition – Making Latent Representations Understandable #说话人识别 #层次聚类 #可解释AI #模型评估 ✅ 7.5/10 | 前25% | #说话人识别 | #层次聚类 | #可解释AI #模型评估 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yanze Xu (University of Surrey, Centre for Vision, Speech and Signal Processing) 通讯作者：Yanze Xu (yanze.xu@outlook.com) 作者列表：Yanze Xu (University of Surrey, Centre for Vision, Speech and Signal Processing), Wenwu Wang (University of Surrey, Centre for Vision, Speech and Signal Processing), Mark D. Plumbley (King’s College London, Department of Informatics) 💡 毒舌点评亮点：论文提出了一个从“分析层次聚类”到“语义解释层次结构”再到“诊断匹配性能”的完整XAI流水线，特别是L-score指标能直接指出是精度（簇内混杂）还是召回（类别遗漏）限制了匹配，诊断性强于F-score。短板：实验的“自我循环”论证较明显：用VoxCeleb1数据训练的模型，再用VoxCeleb1数据的标注（身份、国籍、性别）去评估其表示空间的层次聚类，结论的客观性和泛化能力存疑，且缺乏与传统注意力可视化等XAI方法的对比。 ...

Where Do Self-Supervised Speech Models Become Unfair?

📄 Where Do Self-Supervised Speech Models Become Unfair? #语音识别 #说话人识别 #自监督学习 #模型评估 #多语言 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Felix Herron（格勒诺布尔阿尔卑斯大学，GETALP团队；昆士兰科技大学）通讯作者：Felix Herron（邮箱：felix.herron@univ-grenoble-alpes.fr，格勒诺布尔阿尔卑斯大学）其他作者： Maja Hjuler（巴黎多菲纳大学，MILES团队，LAMSADE） Solange Rossato（巴黎多菲纳大学，MILES团队，LAMSADE） Alexandre Allauzen（格勒诺布尔阿尔卑斯大学，GETALP团队） François Portet（格勒诺布尔阿尔卑斯大学，GETALP团队） 💡 毒舌点评亮点：这篇论文像给语音模型做了一次全面的“公平性X光扫描”，首次系统揭示了SID和ASR任务在不同网络层中“此消彼长”的偏差规律，这个发现本身很有洞察力，为后续研究指明了病灶所在（问题出在预训练阶段）。槽点：但论文基本止步于“诊断”而未开出“药方”。它告诉我们模型从第一层就开始“偏心”，且微调和现有的去偏方法（DET/DAT）效果甚微，这多少有点令人沮丧——相当于确诊了顽疾，却说“现有疗法效果有限，建议研发新药”。对于急需解决方案的从业者来说，实用性打了折扣。 🔗 开源详情代码：论文中提到“Report GitHub Issue”，并提及基于SpeechBrain的配方，暗示代码将在GitHub上开源。但未提供具体仓库链接。模型权重：研究中使用的所有预训练S3M（WavLM, W2V2, BEST-RQ, XLS-R, Whisper）均为公开可用的模型，作者未重新发布新权重。数据集：使用了公开数据集 Sonos Voice Control Bias Assessment Dataset 和 Meta‘s Fair-speech corpus。论文中未提及创建或发布新数据集。在线Demo：未提及。依赖的开源项目：明确基于 SpeechBrain 框架实现探针训练，并使用了其ASR和SID的CommonVoice配方。 📌 核心摘要这篇论文旨在探究自监督语音模型（S3M）的不公平性究竟在模型的哪个层级产生。研究团队采用了一种轻量级的线性探针方法，在多个S3M（如WavLM, Wav2Vec2, BEST-RQ, Whisper）的每一层嵌入上，同时评估了说话人识别（SID）和自动语音识别（ASR）任务的整体性能及对不同说话人组（如非母语者、儿童、女性）的偏差。研究发现：1）模型从第一层开始就对不同说话人组表现出性能偏差；2）SID和ASR任务呈现出截然相反的层间偏差模式：SID性能最佳的层偏差最小，而ASR性能最佳的层偏差最大；3）对ASR进行微调（包括使用对抗性去偏方法）能提升整体性能，但几乎无法改变预训练阶段已固化的层间偏差模式。这表明，S3M的不公平性根植于预训练过程，且难以通过后续的微调消除，强调了研究更公平预训练技术的必要性。 🏗️ 模型架构本研究的核心并非提出新模型，而是设计了一套分析框架来探测现有S3M的内部表征。其流程如下：输入：原始语音波形。特征提取：将语音输入预训练好的S3M（如WavLM-base+），获取其每一层的输出隐状态（hidden states）。这些隐状态就是待分析的“嵌入”。任务探针：在每一层的嵌入上，分别独立训练两个极其简单的“探针”模型： SID探针：一个线性分类器，输入当前层的嵌入，输出说话人ID。使用Sonos数据集训练。 ASR探针：一个线性分类器+CTC解码，输入当前层的嵌入，输出文本序列。使用CommonVoice等数据集训练。评估与度量：在测试集上，计算每个探针的整体任务错误率（SID为分类错误率，ASR为词错误率WER）和针对每个说话人组（SG）的相对错误率（公式1）。进一步，对一个人口统计变量（如性别）下的所有SG，计算其平均绝对相对错误率（公式2）作为该变量上的“偏差”度量。分析：绘制每个模型、每一层、每个任务、每个说话人组的相对错误率曲线，以及整体错误率与偏差的散点图，从而分析偏差随网络层的演变规律。关键设计理由：使用单层线性探针（而非复杂解码器）是为了最小化探针自身引入的偏差，确保观察到的性能差异和偏差主要源于S3M预训练得到的表征质量，而非解码器的能力。这是一种经典的“控制变量”分析法。 ...

SpeakerRPL v2: Robust Open-set Speaker Identification through Enhanced Few-shot Foundation Tuning and Model Fusion

📄 SpeakerRPL v2: Robust Open-set Speaker Identification through Enhanced Few-shot Foundation Tuning and Model Fusion #说话人识别 #少样本 #数据增强 #迁移学习 🔥 评分：8.3/10 | arxiv 👥 作者与机构论文作者：Zhiyong Chen, Shuhang Wu, Yingjie Duan, Xinkang Xu, Xinhui Hu 机构信息：论文全文未明确标注作者所属机构。根据作者姓名、研究内容及开源仓库（GitHub）信息推断，作者可能来自**小米（Xiaomi）**或相关研究机构。论文中提及的“Xiaomi LLM Core Team”可能为相关团队，但未在作者单位中直接列出。第一作者/通讯作者：无法从提供的文本中明确判断第一作者和通讯作者。论文中注明“Zhiyong Chen and Shuhang Wu contributed equally.”（贡献均等）。 💡 毒舌点评亮点：这篇论文将“对数归一化”（LogitNorm）和“对抗性互惠点学习”（SpeakerRPL）这两个强大的开集学习技术进行了“联姻”，并巧妙地加入了“自适应锚点”来动态建模未知说话人，理论上有板有眼。更实在的是，它承认了少样本微调的不稳定性，并用一套基于特征分布均匀性的模型选择与融合策略来“稳住局面”，最终在Vox1-O*测试集上将EER暴降93%，效果惊人。槽点：方法听起来像是在已有技术上做“排列组合”加“工程优化”（模型融合与选择），原创性的理论突破有限。此外，模型选择策略依赖于特征相似矩阵的特征值方差，这个指标的普适性和调参敏感性在论文中论证得不够充分，更像是一个为特定实验“量身定做”的后处理技巧。 🔗 开源详情代码：已开源。GitHub地址：https://github.com/zhiyongchenGREAT/Few-shot-Robust-Speaker-TTS/tree/v2.1。基于PyTorch框架。模型权重：论文中未明确说明是否公开发布微调后的适配器权重或完整的SpeakerRPL V2模型。预训练基础模型ELec2NetV2应是公开可用的。数据集：实验所用数据集（VoxCeleb2, 3D-Speaker, ESD, LibriTTS, AiShell）均为公开学术数据集。新构建的Vox1-O*测试集划分可能随代码开源。预训练权重：使用ELec2NetV2预训练说话人基础模型作为底座。在线Demo：论文中未提及在线演示。依赖的开源项目：GPT-SoVITSv2（用于语音合成）。 📌 核心摘要本文旨在解决开放集说话人识别中的鲁棒性问题，即系统在仅有少量目标说话人注册样本的情况下，需同时准确识别已知说话人并可靠拒识未知说话人。作者在先前SpeakerRPL V1框架基础上提出了三项关键改进：1）设计了一个增强的损失函数，将互惠点学习（RPL）与对数归一化（LogitNorm）相结合，并引入自适应锚点学习，以约束目标说话人表征并提升对未知分布的建模能力；2）提出了一种模型融合策略，通过聚合多个随机初始化训练得到的适配器模型的分数，来稳定少样本微调过程，减少结果随机性；3）设计了一个基于特征分布均匀性（通过中心点和互惠点相似矩阵的特征值方差衡量）的自动模型选择策略，以筛选出最适合融合的候选模型。在VoxCeleb、3D-Speaker和ESD等多个数据集上的实验表明，该方法在各项开集识别指标上均优于基线。特别是在新构建的Vox1-O*测试集上，等错误率（EER）从1.28%降至0.09%，相对降低约93%，验证了方法的有效性和鲁棒性。其局限性在于模型选择策略增加了流程复杂性，且对中文等方言场景的验证尚可进一步扩展。 🏗️ 模型架构模型整体基于“预训练基础模型 + 轻量级适配器微调”的范式。 ...

Who is Speaking or Who is Depressed? A Controlled Study of Speaker Leakage in Speech-Based Depression Detection

📄 Who is Speaking or Who is Depressed? A Controlled Study of Speaker Leakage in Speech-Based Depression Detection #语音生物标志物 #说话人识别 #领域适应 #基准测试 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Hsiang-Chen Yeh（约翰霍普金斯大学，临床心理健康咨询系）通讯作者：Berrak Sisman（约翰霍普金斯大学，语言与语音处理中心） - 推断，基于其资深作者位置及联系邮箱 sisman@jhu.edu 其他作者： Luqi Sun（约翰霍普金斯大学，语言与语音处理中心） Aurosweta Mahapatra（约翰霍普金斯大学，语言与语音处理中心） Shreeram Suresh Chandra（约翰霍普金斯大学，语言与语音处理中心） Emily Mower Provost（密歇根大学安娜堡分校） 💡 毒舌点评亮点是狠狠戳破了语音抑郁检测领域“90%+准确率”的皇帝新衣，用一个极其简单却控制严密的实验设计，揭示了所谓“抑郁声学标志物”很大程度上只是“说话人身份特征”的华丽伪装。槽点在于，论文提出的“解药”——领域对抗训练（DANN）——疗效甚微，更像是一个诊断工具而非解决方案，最后只能无奈呼吁“请进行严格的说话人独立评估”，这多少有点把问题抛回给社区的感觉。 🔗 开源详情代码：论文标题下方有“GitHub”链接标识，但提供的HTML节选内容中未显示具体URL。论文正文中也未明确提及代码开源计划或具体仓库地址。模型权重：论文中未提及是否公开预训练或微调后的模型权重。数据集：使用公开的DAIC-WOZ数据集。预训练权重：使用了公开的预训练模型Wav2Vec 2.0和XLS-R。在线Demo：论文中未提及。引用的开源项目：OpenSMILE工具包（用于提取eGeMAPS特征）。 📌 核心摘要这篇论文的核心贡献在于系统性地揭示并量化了语音抑郁症检测模型中普遍存在的“说话人身份泄露”问题。作者指出，当前许多报告高准确率的模型，其性能可能严重依赖于对说话人身份（声纹）的记忆，而非对抑郁相关声学生物标志物的泛化学习。为证明这一点，他们提出了一种新颖的、控制训练集大小不变的“说话人重叠控制数据划分法”，并在DAIC-WOZ数据集上，对从简单到复杂的三种模型架构（Wav2Vec线性探测、XLSR-eGeMAPS拼接、Wav2Vec-SLS）进行了严格评估。实验结果一致表明：当训练集与测试集存在说话人重叠时，模型准确率虚高（例如，微调Wav2Vec模型达97.65%）；而在严格的说话人独立设置下，性能急剧下降（同一模型降至58.74%）。即使引入领域对抗神经网络（DANN）试图剥离身份信息，性能差距依然巨大。该研究强烈建议，未来的语音抑郁检测研究必须采用严格的说话人独立评估范式，以真实反映模型的临床应用潜力。 🏗️ 模型架构论文评估了三个模型家族，每个都有“原始”和“DANN增强”两种变体，整体流程如下：原始音频 -> 特征提取/编码器 -> 池化层 -> 分类器（抑郁分类，DANN变体还包含对抗性的说话人分类）。 Wav2Vec-Linear Probing 模型： ...