领域适应 | 语音/音频论文速递

Beyond Mapping: Domain-Invariant Representations via Spectral Embedding of Optimal Transport Plans

📄 Beyond Mapping: Domain-Invariant Representations via Spectral Embedding of Optimal Transport Plans #领域适应 #最优传输 #谱图嵌入 #音频分类 ✅ 7.5/10 | 前25% | #领域适应 | #最优传输 #谱图嵌入 | #最优传输 #谱图嵌入学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Abdel Djalil Sad Saoud (Universite Paris-Saclay, CEA, List), Fred Maurice Ngol`e Mboula (Universite Paris-Saclay, CEA, List), Hanane Slimani (Universite Paris-Saclay, CEA, List) 💡 毒舌点评本文巧妙地将最优传输计划从一种“点对点的映射工具”重新解释为“跨域连接图的邻接矩阵”，并通过谱嵌入获取表示，这一视角转换避免了直接映射带来的偏差，思路新颖且自洽。然而，其优势似乎更体现在精心设计的小规模跨噪声/跨物理条件基准上，在更广泛、更具挑战性的大规模领域适应场景（如视觉领域）中的有效性和可扩展性有待进一步验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文使用了公开的数据集（MSD， MGR， CS-RT），但未在文中提供获取链接。CS-RT数据集可能需根据引用文献[21]获取。 Demo：未提供。复现材料：论文提供了方法概述、算法步骤、实验设置（分类器结构、优化器参数）和详细结果，为复现提供了基础。但缺少关键超参数（如Wasserstein重心权重、ε和k的最终选择值）的搜索细节和具体数值。论文中引用的开源项目：提到了文献[11]中的Wasserstein重心计算算法。 📌 核心摘要要解决什么问题：解决机器学习中训练数据（源域）与推理数据（目标域）存在分布偏移导致模型性能下降的问题。方法核心是什么：提出SeOT方法。它不使用最优传输计划来估计从源域到目标域的映射，而是将（平滑后的）传输计划解释为连接两个域样本的二分图的邻接矩阵。通过计算该图的拉普拉斯矩阵并进行谱嵌入（取前k个最小特征值对应的特征向量），获得跨域的、具有领域不变性的样本表示。对于多源域情况，先计算源域的Wasserstein重心作为中间域，再构建包含重心、所有源域和目标域的统一图。与已有方法相比新在哪里：不同于大多数基于OT的领域适应方法（如直接进行重心映射或标签传播），SeOT的核心创新在于利用OT计划的谱图结构来提取表示。这种方法不直接依赖于映射本身，而是利用OT计划所蕴含的跨域几何连通性信息。此外，论文提出通过最大化“谱间隙”来选择嵌入维度k和正则化参数ε，提供了一种启发式的参数选择方法。主要实验结果如何：在三个数据集上进行了评估。在音乐-语音识别数据集（MSD）上，SeOT平均准确率达到97.45%，显著优于源域训练基线（68.18%）和其他多种方法。在音乐流派识别（MGR）上，平均准确率为59.03%，虽低于WBTreg，但比源域训练提升超过18%。在电缆故障诊断数据集（CS-RT）上，SeOT平均准确率为62.07%，大幅超越所有对比方法（次优者平均37.25%），显示了其在工业应用中的优势。实际意义是什么：为领域自适应提供了一种新的、基于图谱理论的视角和实用算法，尤其在需要对齐不同物理条件或噪声环境下采集的信号（如音频、工业传感器信号）时表现出色，验证了其在实际工业检测场景的应用潜力。主要局限性是什么：论文未提及该方法在大规模数据集或复杂视觉任务上的验证，其通用性有待考察。计算上，虽然利用了图的稀疏性，但拉普拉斯矩阵特征分解仍具有O(n^3)的复杂度潜力，对超大规模样本可能构成挑战。此外，对Wasserstein重心的依赖也引入了额外的计算和参数设置环节。 🏗️ 模型架构 SeOT方法并非一个传统的端到端神经网络模型，而是一个基于最优传输和谱图理论的特征表示学习框架，其“架构”更侧重于数据处理流程。 ...

CCST: Cross-Modal and Consistency-Aware Self-Training for Source-Free Unsupervised Domain Adaptation in Speech Recognition

📄 CCST: Cross-Modal and Consistency-Aware Self-Training for Source-Free Unsupervised Domain Adaptation in Speech Recognition #语音识别 #领域适应 #语音大模型 ✅ 7.5/10 | 前25% | #语音识别 | #领域适应 | #语音大模型学术质量 6.5/7 | 选题价值 0.8/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Yuan Li（内蒙古大学计算机科学学院）通讯作者：Feilong Bao（内蒙古大学计算机科学学院）作者列表：Yuan Li（内蒙古大学计算机科学学院；蒙古语智能信息处理技术国家与地方联合工程研究中心；内蒙古多语言人工智能技术重点实验室）、Yonghe Wang（内蒙古大学计算机科学学院）、ZhenJie Gao（内蒙古大学计算机科学学院）、Feilong Bao（内蒙古大学计算机科学学院） 💡 毒舌点评 CCST的亮点在于它对无源自训练范式进行了系统性的“微操”改进，通过精细设计token级注意力融合和句子级一致性约束，在多个基准上稳健地刷低了WER，实验部分堪称教科书式的全面。然而，其核心创新更像是对已有组件（注意力、置信度、一致性）的巧妙集成与调参，理论层面的突破性有限，且公式（如式5）的工程化痕迹略重，可解释性有待加强。 🔗 开源详情代码：论文中提供了一个匿名的代码仓库链接：https://anonymous.4open.science/r/CCST-CD66。承诺论文接收后公开。模型权重：论文中未提及是否公开微调后的模型权重。数据集：论文使用的所有数据集（CHiME-4, SLURP, CORAAL, TEDLIUM-3）均为公开学术数据集，但论文未提供数据集的直接获取链接或特定版本说明。 Demo：论文中未提及在线演示。复现材料：论文提供了关键训练超参数（学习率、batch size等）、CCST特有超参数（λ, τ, α, K）、优化器配置和训练轮数。这为复现核心实验提供了必要信息。引用的开源项目：主要依赖于OpenAI的Whisper模型作为预训练基础。对比实验中引用的其他基线方法（如STAR, Beam search）也依赖于各自的开源实现或原始论文。开源计划：论文明确表示代码将在接收后开源，并提供了匿名代码库链接。 📌 核心摘要要解决的问题：传统的无监督域适应（UDA）需要访问源域数据，这在实践中常因隐私或成本问题而不可行。因此，本文研究无源无监督域适应（SFUDA），即在仅有目标域无标签数据的情况下，提升语音识别（ASR）模型（如Whisper）在特定域（如噪声、口音）的性能。其主要挑战在于目标域自生成的伪标签存在噪声，会误导模型适应。方法核心：提出CCST框架。核心包括两部分：a) Token级伪标签质量评估：创新性地融合了模型的输出置信度（Confidence）、文本自注意力（Text-Text Attention）和声谱图-文本跨模态注意力（Speech-Text Attention），形成最终的token权重，以更可靠地评估每个标签的可靠性。b) 句子级伪标签过滤：提出基于数据扰动（如频率/时间掩码）和模型噪声注入（模拟dropout）的一致性约束。通过多次扰动解码计算编辑距离的一致性得分，过滤掉低一致性的伪标签句子。与已有方法相比新在哪里：与依赖单一置信度或仅使用模型噪声的方法（如STAR）相比，CCST的新颖之处在于：1) 引入了跨模态（文本-语音）注意力来直接评估标签与语音内容的对齐质量，而不仅依赖文本内部关系；2) 使用更贴近真实语音变化的数据扰动作为一致性约束的主要手段，效果优于单纯模型噪声注入。主要实验结果：在Whisper-medium模型上，CCST在四个目标域数据集上均取得了最佳性能。相对基线Whisper，WER降低幅度分别为：CHiME-4（噪声语音）13.8%（真实集测试），SLURP（人机交互）25.6%（测试集），CORAAL（口音语音）12.9%（测试集），TEDLIUM-3（演讲）23.2%（测试集）。详细对比如下表所示。方法 CHiME-4 (real-test) SLURP (test) CORAAL (test) TEDLIUM-3 (test) Whisper (Base) 9.4 16.8 17.8 5.6 Self-train 9.4 15.7 17.2 4.8 Confidence 8.9 15.4 16.8 4.6 Margin 8.6 15.2 16.2 4.5 STAR 8.9 15.2 16.8 4.3 CCST (Ours) 8.1 (-13.8%) 12.5 (-25.6%) 15.5 (-12.9%) 4.3 (-23.2%) 实际意义：该方法使得像Whisper这样的强大预训练语音模型，在无需访问原始训练数据的前提下，能更有效地适配到新的应用场景（如智能家居、特定口音环境、嘈杂场所），提升了模型的实用性和部署灵活性，同时兼顾数据隐私。主要局限性：1) 方法的有效性高度依赖于预训练模型本身的注意力机制和输出质量，对于弱模型可能不适用；2) 公式（尤其是式5的融合规则）设计较为复杂，其泛化能力和内部机理可进一步探讨；3) 实验仅验证了Whisper-medium模型，对更大规模模型的效果未验证；4) 消融实验（表2）中，“DA-Perturb”与“NO-Perturb”效果差异显著，但论文对此原因的分析稍显不足。 🏗️ 模型架构 CCST并非一个全新的端到端ASR模型，而是一个无源自训练（Source-Free Self-Training）框架，用于对预训练好的大型语音模型（如Whisper）进行微调。其整体流程如下图所示（论文图1）： ...

Cross-Domain Contrastive Learning with Dynamic Threshold Calibration for Source Speaker Tracing

📄 Cross-Domain Contrastive Learning with Dynamic Threshold Calibration for Source Speaker Tracing #说话人验证 #对比学习 #音频安全 #跨领域 #领域适应 🔥 8.0/10 | 前25% | #说话人验证 | #对比学习 | #音频安全 #跨领域学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yitian Ding（国际关系学院，北京，中国）通讯作者：Yansen Zhou（国际关系学院，北京，中国）论文中标注为通讯作者作者列表：Yitian Ding（国际关系学院）、Shengchen Li（西交利物浦大学，苏州，中国）、Yansen Zhou（国际关系学院） 💡 毒舌点评论文的亮点在于将“跨域对齐”、“类内紧致”与“置信度校准”三个目标巧妙地融为一个统一的训练框架（ACC Loss），并配合评估时的动态阈值校准（Centered AS-Norm），形成了一套完整的解决方案，其设计思路和消融实验都做得相当清晰。但略显遗憾的是，论文声称方法“即插即用、数据高效”，却未能开源代码或提供可直接运行的完整复现材料，这限制了学术界对其进行快速验证和在此基础上改进的可能性。 🔗 开源详情代码：论文中未提及代码链接。文中提到“代码在PyTorch中实现”，但未提供公开仓库地址。模型权重：未提及是否公开模型权重。数据集：使用了公开数据集LibriSpeech和VoxCeleb，以及SSTC 2024挑战赛数据集。论文中未说明SSTC 2024数据集的获取方式。 Demo：未提及在线演示。复现材料：提供了部分关键实现细节（如特征提取、网络结构、损失函数、训练超参数、硬件环境），但不足以完全独立复现，缺少完整的代码和配置文件。引用的开源项目：论文引用了MFA-Conformer[21]、LibriSpeech[23]、VoxCeleb[24,25]、MUSAN[26]、RIR数据[27]等相关开源工作。 📌 核心摘要本文针对语音转换（VC）对自动说话人验证（ASV）构成的安全威胁，研究了“源说话人追踪（SST）”任务，即从转换后的语音中识别原始说话人。其核心问题是转换语音与原始语音之间存在领域偏移，且转换语音内部的说话人特征呈现多峰结构，导致特征分布不稳定和固定阈值失效。为此，论文提出了一种“跨域对比学习与动态阈值校准”的统一范式。在训练阶段，提出联合优化ACC损失函数，它结合了对齐损失（InfoNCE，用于跨域对齐）、紧致性损失（IS-CDR，用于减少类内方差）和置信度损失（质量回归，用于质量感知校准）。在评估阶段，采用Centered AS-Norm（全局中心化+自适应归一化）进行分布感知的动态评分校准。在SSTC 2024评测基准上，所提系统在16个测试集上的平均等错误率（EER）为16.509%，超越了挑战赛冠军系统（16.788%），并将官方基线（20.613%）降低了4.104个百分点。消融实验证明，所提出的训练损失和评估后处理机制对性能提升均有显著贡献。该方法的主要贡献在于提供了一个完整的训练-评估闭环，以增强SST任务的跨域泛化能力和分数可校准性。其局限性在于评估场景局限于单一基准，且未公开代码和模型。 ...

DDSC: Dynamic Dual-Signal Curriculum for Data-Efficient Acoustic Scene Classification Under Domain Shift

📄 DDSC: Dynamic Dual-Signal Curriculum for Data-Efficient Acoustic Scene Classification Under Domain Shift #音频场景分类 #课程学习 #领域适应 #低资源 ✅ 7.0/10 | 前25% | #音频场景分类 | #课程学习 | #领域适应 #低资源学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Peihong Zhang（School of Advanced Technology, Xi’an Jiaotong-Liverpool University, Suzhou, China）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Peihong Zhang（School of Advanced Technology, Xi’an Jiaotong-Liverpool University, Suzhou, China）、Yuxuan Liu（同上）、Rui Sang（同上）、Zhixin Li（同上）、Yiqiang Cai（同上）、Yizhou Tan（同上）、Shengchen Li（同上） 💡 毒舌点评亮点在于巧妙地将“领域不变性”和“学习进度”两个动态信号融合成自适应的课程权重，避免了传统课程学习静态排序的僵化，设计轻量且即插即用。短板则是其动态调整高度依赖已知的设备标签进行原型计算，一旦面对完全无标签或设备信息未知的真实场景，该方法的适用性将面临直接挑战。 ...

DISSR: Disentangling Speech Representation for Degradation-Prior Guided Cross-Domain Speech Restoration

📄 DISSR: Disentangling Speech Representation for Degradation-Prior Guided Cross-Domain Speech Restoration #语音增强 #扩散模型 #对比学习 #领域适应 #模型评估 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #对比学习 #领域适应学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Ziqi Liang（蚂蚁集团，杭州）通讯作者：Jian Wang（蚂蚁集团，杭州，bobblair.wj@antgroup.com）作者列表：Ziqi Liang（蚂蚁集团），Zhijun Jia（蚂蚁集团），Chang Liu（中国科学技术大学，合肥），Minghui Yang（蚂蚁集团），Zhihong Lu（蚂蚁集团），Jian Wang（蚂蚁集团）。注：作者贡献标注为† Equal Contribution，故Ziqi Liang与Zhijun Jia贡献相当。 💡 毒舌点评亮点：论文直击现有语音修复模型跨说话人风格泛化能力差的痛点，并提出了一个新颖的假设——降质信息与说话人风格解耦，并据此设计了引导扩散模型的先验模块，思路清晰且具有启发性。短板：支撑“降质信息包含在说话人风格中”这一核心假设的实验（图3）略显间接，分类器收敛快慢并不能直接等同于“说话人风格”特征包含了全部且纯粹的“降质”信息，论证链不够坚实。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：使用了公开数据集LibriTTS, VCTK, AISHELL-3, JSUT，但未提供本文特有的模拟退化脚本或处理流程。 Demo：提供了演示网站：https://itspsp.github.io/DisSR。复现材料：论文中未提供详细的训练配置、超参数设置或预训练检查点。论文中引用的开源项目：提到了使用VoiceFixer [8]和SelfRemaster [4]的开源流水线来创建训练数据。总结：论文中未提及完整的开源计划。 📌 核心摘要解决的问题：现有语音修复方法多为针对单一失真的特定模型，泛化能力差，尤其是面对训练时未见过的说话人风格（跨域）时性能下降明显。方法核心：提出DisSR模型，核心思想是将退化语音解纠缠为内容、说话人风格和降质表示。其中，降质表示被设计为说话人无关的先验信息，并用于条件引导一个基于扩散模型的恢复网络。同时，引入跨域对齐训练来最小化不同说话人分布间的差距。创新点：1) 提出并实验验证了降质信息主要存在于说话人风格表示中的假设；2) 利用说话人无关的降质先验引导扩散模型进行通用语音修复；3) 设计了针对降质编码器的跨域对齐训练策略以提升模型泛化能力。主要实验结果：在跨语言（英→中/日）跨说话人测试集上，DisSR在DNSMOS、PESQ-wb、MCD三项指标上均优于VoiceFixer、SelfRemaster和SGMSE+M基线模型（例如在LibriTTS→VCTK英文测试集上，PESQ-wb为3.02，相比最优基线SGMSE+M的2.74有显著提升）。在单任务修复（如带宽扩展、去噪）中，DisSR也展现出竞争力，总体感知质量（COVL）占优。消融实验表明，所提出的各组件（多层级降质先验、降质表示学习、跨域对齐损失）均对性能有贡献。实际意义：为构建能处理多种失真且对新说话人鲁棒的通用语音修复系统提供了一种新思路，具有较强的实用价值。主要局限性：核心假设的直接验证稍显薄弱；实验中假设“每条语音内降质相同，语音间变化”，这与真实世界复杂场景可能存在差距；未公开代码与模型，限制了可复现性。 🏗️ 模型架构 DisSR的整体架构如图2所示，主要分为两个协同工作的模块：说话人无关的降质解纠缠模块和跨域语音恢复模块。 ...

Domain Partitioning Meets Parameter-Efficient Fine-Tuning: A Novel Method for Improved Language-Queried Audio Source Separation

📄 Domain Partitioning Meets Parameter-Efficient Fine-Tuning: A Novel Method for Improved Language-Queried Audio Source Separation #音频分离 #参数高效微调 #领域适应 #预训练 ✅ 7.5/10 | 前50% | #音频分离 | #参数高效微调 | #领域适应 #预训练学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yinkai Zhang（新疆大学计算机科学与技术学院 / 丝绸之路多语言认知计算联合国际实验室 / 新疆多语言信息技术重点实验室）通讯作者：Kai Wang, Hao Huang（新疆大学计算机科学与技术学院 / 丝绸之路多语言认知计算联合国际实验室 / 新疆多语言信息技术重点实验室）作者列表：Yinkai Zhang（新疆大学计算机科学与技术学院等），Dingbang Zhang（新疆大学计算机科学与技术学院等），Tao Wang（新疆大学计算机科学与技术学院等），Diana Rakhimova（哈萨克斯坦阿勒法拉比国立大学信息系统系），Kai Wang（新疆大学计算机科学与技术学院等），Hao Huang（新疆大学计算机科学与技术学院等）。 💡 毒舌点评亮点：论文巧妙地将LLM领域的“领域划分+PEFT微调”范式迁移到音频分离任务，思路清晰且实验效果扎实，在多个数据集上稳定超越强基线AudioSep。短板：创新更多是框架层面的组合，作为核心组件的ReConv-Adapter是在Conv-Adapter基础上“加宽”而非原创性设计，其参数效率与性能增益的权衡有待更深入探讨。 🔗 开源详情代码：提供开源代码仓库链接：https://github.com/butterflykite/DP-LASS。模型权重：论文中未明确提及是否公开预训练模型或微调后的模型权重。数据集：基于公开数据集AudioSet进行训练，未提供独立的自建数据集。评估使用公开的AudioCaps, Clotho等基准测试集。 Demo：论文中未提及在线演示（Demo）。复现材料：论文提供了较为充分的复现信息，包括：训练数据构建方式（单类音频，混合采样）、关键超参数（学习率、batch size、训练步数）、硬件配置（RTX 3090 GPU）以及消融实验设置。引用的开源项目：论文依赖并引用了AudioSep的官方实现和预训练模型（https://github.com/Audio-AGI/AudioSep），以及HuggingFace PEFT库（用于DoRA/LoRA的实现）。 📌 核心摘要问题：语言查询音频源分离（LASS）任务面临一个关键挑战：不同声音类别之间特征分布差异巨大，使得单一模型难以有效建模所有类别。方法核心：提出一种结合领域划分（Domain Partitioning）与参数高效微调（PEFT）的新方法。首先，使用K-Means对各类音频的CLAP嵌入进行聚类，将训练数据划分为多个子领域；然后，为每个子领域在预训练AudioSep模型上微调一个独立的PEFT模块（ReConv-Adapter）；推理时，由子领域分类器将输入路由到对应的模块。创新点：这是首次将“预训练+领域划分微调”的LLM范式应用于LASS任务，并设计了新的PEFT模块ReConv-Adapter（在卷积层添加并行分支并采用零初始化）。实验结果：在六个基准数据集上，本文方法平均SDRi达到9.76 dB，SI-SDR达到9.06 dB，分别比基线AudioSep提升1.01 dB和1.29 dB。关键实验结果如下：方法 AudioCaps (SDRi/SI-SDR) VGGSound (SDRi/SI-SDR) AudioSet (SDRi/SI-SDR) Music (SDRi/SI-SDR) ESC-50 (SDRi/SI-SDR) Clotho v2 (SDRi/SI-SDR) 平均 (SDRi/SI-SDR) LASS-Net 3.36 / -0.78 1.26 / -4.43 1.32 / -3.66 0.38 / -12.24 3.41 / -2.35 2.21 / -3.38 1.99 / -4.47 AudioSep 8.22 / 7.19 9.14 / 9.04 7.74 / 6.90 10.51 / 9.43 10.04 / 8.81 6.85 / 5.24 8.75 / 7.77 CLAPSep 9.66 / 8.76 5.04 / 4.27 6.17 / 4.64 7.65 / 5.62 11.49 / 10.23 5.26 / 2.84 7.55 / 6.06 Ours (classifier) 8.92 / 8.02 10.04 / 10.06 9.06 / 8.46 11.46 / 10.56 11.13 / 10.50 7.92 / 6.75 9.76 / 9.06 Ours (oracle) 9.20 / 8.47 10.31 / 10.36 9.31 / 8.70 11.71 / 11.18 11.74 / 11.21 8.05 / 7.10 10.05 / 9.50 消融研究表明，ReConv-Adapter在参数量（19M）与性能上取得了最佳平衡。子领域划分的有效性通过t-SNE可视化得到验证。 ...

Domain-Aware Scheduling for ASR Fine-Tuning

📄 Domain-Aware Scheduling for ASR Fine-Tuning #语音识别 #领域适应 #低资源 #数据选择 ✅ 6.5/10 | 前50% | #语音识别 | #领域适应 | #低资源 #数据选择学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Nikolaos Lagos（Naver Labs Europe, France）通讯作者：未说明作者列表：Nikolaos Lagos（Naver Labs Europe, France）， Ioan Calapodescu（Naver Labs Europe, France） 💡 毒舌点评该论文提出了一个在低资源场景下微调ASR系统的实用策略（按域相似度排序数据并分阶段训练），实验结果一致且增益明确，对实际部署者有吸引力。但其核心贡献是对现有数据选择方法（Lagos et al., 2024）的一个后处理步骤，而非根本性架构或算法创新，且方法效果高度依赖于数据选择步骤的质量。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开的微调后模型权重。数据集：使用了公开的ESB基准数据集，并说明了如何从验证集中抽取种子。数据选择过程依赖于FAISS库进行索引。 Demo：未提供在线演示。复现材料：论文提供了详细的训练超参数（表3）、数据选择参数（KNN搜索，4分组）、评估协议和模型架构描述，复现信息较为充分。论文中引用的开源项目：Wav2vec 2.0 [1]、Sentence-BERT [10]、FAISS [11]、SpeechBrain [13]。 📌 核心摘要要解决的问题：在真实场景中，用于微调ASR系统的目标域数据往往稀缺。常用的解决方案是从大型开源数据集中选择与目标域相似的域外数据。传统方法在使用这些选中的数据时采用随机顺序，导致训练效果不佳。方法核心：提出“域感知调度”（DAS）。该方法首先利用一个仅1分钟的目标域种子数据，通过KNN搜索对选定的域外数据按与目标域的距离进行排序（从最远到最近）。然后，将训练过程分为多个阶段，按顺序使用距离递增的数据组进行训练，每个阶段都从上一阶段的最优检查点继续。与已有方法相比新在哪里：与传统课程学习按“难度”排序不同，DAS按“域距离”排序。与之前直接使用排序数据的“仅选择”基线相比，DAS引入了基于距离的顺序调度机制。论文声称这是首个在ASR微调中明确利用域相似度进行调度的方法。主要实验结果：在ESB基准的7个英语数据集上，使用100小时训练预算，DAS方法相对于随机选择和“仅选择”基线，平均WER分别降低了4.14个点（17.29%相对降低）和2.52个点（11.32%相对降低）。在不同训练预算（10/50/100小时）下，DAS均表现出稳定改进。具体结果见下表。数据集 Random WER(↓) SO WER(↓) DAS WER(↓) DAS vs SO WERR(%) (↑) DAS vs Random WERR(%) (↑) LibriSpeech-clean 6.75±0.35 6.59±0.45 4.63±0.10 29.71 31.44 LibriSpeech-other 14.44±0.58 14.31±0.41 10.74±0.05 24.92 25.62 CommonVoice 37.31±0.43 35.55±1.47 32.77±0.44 7.81 12.17 Tedlium 14.49±2.07 11.74±0.62 9.34±0.9 20.44 35.53 Voxpopuli 19.32±0.23 17.37±0.86 15.62±0.24 10.08 19.18 AMI 39.33±0.96 34.60±1.73 32.14±0.6 7.1 18.28 Earnings22 38.84±0.72 36.76±1.91 32.65±1.3 11.2 15.95 Gigaspeech 21.13±0.22 21.81±0.67 20.59±0.74 5.58 2.82 平均值 23.95±0.77 22.34±1.10 19.81±0.55 11.32 17.29 实际意义：该方法为无法依赖大量领域内数据的从业者（如低资源或隐私受限场景）提供了一种提升ASR微调性能的实用方案，可以作为现有数据选择技术的补充。主要局限性：方法的有效性高度依赖于数据选择步骤（KNN搜索）的质量，这在Gigaspeech数据集上表现明显（该数据集本身多样性高）。论文未探索其他调度顺序（如从近到远）或组内多样性的控制，属于初步研究。 🏗️ 模型架构论文中并未提出一个全新的端到端神经网络模型，而是提出了一种 “训练调度”（Scheduling）策略，应用于现有ASR模型的微调过程中。其核心流程是一个两阶段框架： ...

Domain-Invariant Representation Learning of Bird Sounds

📄 Domain-Invariant Representation Learning of Bird Sounds #生物声学 #对比学习 #自监督学习 #领域适应 #少样本学习 ✅ 6.5/10 | 前50% | #生物声学 | #对比学习 | #自监督学习 #领域适应学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ilyass Moummad（INRIA, LIRMM, Université de Montpellier, France）通讯作者：未说明作者列表：Ilyass Moummad（INRIA, LIRMM, Université de Montpellier, France）、Romain Serizel（Université de Lorraine, Loria, Nancy, France）、Emmanouil Benetos（C4DM, Queen Mary University of London, UK）、Nicolas Farrugia（IMT Atlantique, Lab-STICC, Brest, France） 💡 毒舌点评亮点：ProtoCLR通过将对比学习的复杂度从O(N²)降至O(N×C)，提供了一个在计算上更优雅、对生物声学这类大规模数据更实用的监督对比学习方案，并在特定评估基准上验证了其有效性。短板：改进幅度有限，平均准确率提升不足3个百分点，且面对更强的领域特定基线（如Perch）时优势并不明显，应用场景受限于鸟类声音这一细分领域。 ...

Dual Contrastive Learning for Semi-Supervised Domain Adaptation in Bi-Modal Depression Recognition

📄 Dual Contrastive Learning for Semi-Supervised Domain Adaptation in Bi-Modal Depression Recognition #语音生物标志物 #对比学习 #领域适应 #多模态模型 ✅ 7.0/10 | 前25% | #语音生物标志物 | #对比学习 | #领域适应 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Lei Jin（东南大学计算机科学与工程学院）通讯作者：Chunfeng Yang（东南大学计算机科学与工程学院）， Wentao Xiang（南京医科大学生物医学工程与信息学院）作者列表：Lei Jin（东南大学计算机科学与工程学院）， Zhuochang Xu（未说明）， Yudong Zhang（未说明）， Shijie Wang（未说明）， Chunfeng Yang（东南大学计算机科学与工程学院）， Wentao Xiang（南京医科大学生物医学工程与信息学院） 💡 毒舌点评亮点：针对抑郁症识别中数据稀缺和领域偏移的核心痛点，提出了一个结构清晰、技术整合度高的双对比学习框架，将无监督跨模态对齐与有监督伪标签优化有机结合，逻辑自洽。短板：虽然方法有效，但核心组件（对比学习、伪标签）均非全新，更像是现有技术的精巧组合与适配；且论文未提供代码或训练细节，对于一篇发表在ICASSP（信号处理会议）上的工作，其音频/语音处理深度和可复现性细节略显不足。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文使用了三个公开数据集（AVEC 2014, CMDC, DAIC-WOZ），但未说明其获取方式或预处理脚本。 Demo：未提及。复现材料：论文未提供训练超参数、模型配置、检查点或附录说明。论文中引用的开源项目：论文未明确列出所依赖的开源工具或模型代码库。总结：论文中未提及任何开源计划或具体材料。 📌 核心摘要这篇论文旨在解决双模态（音频与视频）抑郁症识别任务中标注数据稀缺以及跨数据集（跨语言、设备、人群）存在领域偏移的问题。为此，作者提出了一个名为DuCL的双对比学习半监督领域适应框架。该框架的核心是两个模块：1) 语义一致性加权无监督对比学习（SCW-UCL），利用样本间的语义相似度来抑制假负例，增强音频与视频模态间的通用表征对齐；2) 联合伪标签加权有监督对比学习（JPW-SCL），通过融合分类器预测和样本相似性信息生成更可靠的伪标签，并利用置信度加权来降低噪声和缓解领域偏移。与已有方法相比，其创新点在于将两种互补的对比学习策略系统性地整合，以更充分、可靠地利用大量无标签数据。实验在三个公开数据集（AVEC 2014, CMDC, DAIC-WOZ）上进行，结果表明该方法在准确率��F1分数等指标上一致性地优于DANN、MME、CDAC、CLDA等基线方法，特别是在跨语言迁移（如DAIC-WOZ到AVEC2014）任务中取得了最佳的F1分数（0.52）。该研究的实际意义在于提升了自动化抑郁识别模型在真实临床场景下的鲁棒性和适用性。主要局限性是框架的性能可能高度依赖于伪标签的质量和相似度建模的准确性，且实验未探讨模型在更极端或更复杂的领域偏移下的表现。 ...

Dynamic Noise-Aware Multi Lora Framework Towards Real-World Audio Deepfake Detection

📄 Dynamic Noise-Aware Multi Lora Framework Towards Real-World Audio Deepfake Detection #音频深度伪造检测 #领域适应 #鲁棒性 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #领域适应 | #鲁棒性学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Woongjae Lee (Soongsil University, Seoul, Republic of Korea) 通讯作者：Souhwan Jung* (Soongsil University, Seoul, Republic of Korea) 作者列表：Woongjae Lee (松石大学), Hung Dinh-Xuan (松石大学), Thien-Phuc Doan (松石大学), Souhwan Jung* (松石大学) 💡 毒舌点评这篇论文的亮点在于巧妙地将LoRA从语言模型“移植”并动态化应用于音频安全领域，通过“感知-路由-适应”的范式平衡了模型适应新噪声域与防止灾难性遗忘的矛盾，工程思路清晰。但短板在于其“动态”选择的噪声分类器本身是一个额外的误差源，且论文并未在包含未知/混合噪声的更真实场景中验证其端到端效果，离“完全鲁棒”尚有距离。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开预训练的骨干模型、噪声分类器或LoRA适配器权重。数据集：论文描述了如何基于公开数据集（LibriSpeech, VCTK, TIMIT, ASVspoof 2019/2021）构建噪声增强数据集，但并未提供构建好的数据集本身或下载链接。 Demo：未提及。复现材料：未提供训练超参数（如学习率、batch size）、优化器、硬件环境等关键复现信息。论文中引用的开源项目：论文中提到了依赖的开源工具/模型，如RawBoost [6]、librosa（用于音高/时间变换）、torchaudio/sox（用于滤波）、wav2vec 2.0 [28]、SSAST [29]等，但未提供具体使用版本或配置。总结：论文中未提及任何开源计划。 📌 核心摘要问题：现有的音频深度伪造检测（ADD）模型在干净环境下性能优越，但在真实世界的复杂噪声和语音操纵下性能严重下降，而传统的数据增强和微调方法存在泛化性差或导致灾难性遗忘的问题。方法核心：提出一个动态噪声感知多LoRA（DNA Multi LoRA）框架。该框架首先通过一个轻量级的噪声分类模块识别输入音频的噪声类型，然后根据分类结果动态选择一个预先训练好的、专门针对该噪声类型的LoRA适配器，将其集成到冻结的ADD模型骨干网络中进行检测。创新点：相比于现有方法，本文创新性地结合了噪声感知与参数高效微调（LoRA）。1）实现了“一个骨干网络 + 多个轻量LoRA适配器”的模块化设计，扩展新噪声域无需重训整个模型；2）通过动态适配机制避免了顺序微调中的灾难性遗忘问题。主要实验结果：在多个基准数据集（包括构建的噪声增强数据集和真实世界数据集）上，DNA Multi LoRA框架相比基线模型实现了平均41.4%的等错误率（EER）降低。在池化EER上，该方法（AASIST-SSL: 7.93%, ConformerTCM: 7.55%）接近全量微调的效果（约8.1%），但参数量仅为全量微调的约8.5%，并有效避免了灾难性遗忘（如图2所示，顺序微调会导致EER从约0.2%飙升至约5%）。每个噪声特定LoRA适配器在其目标域上均显著优于基线（表4），例如在D4（回声）域，AASIST-SSL的EER从10.42%降至0.92%。实际意义：提供了一种高效、可扩展且可部署的解决方案，使ADD系统能够在不进行全面重训的情况下，动态适应多种现实世界噪声环境，提升了模型的实用性和鲁棒性。主要局限性：框架的性能依赖于噪声分类器的准确性，且目前仅在预定义的10种噪声类别上进行了验证；对于完全未知的噪声类型或复杂混合噪声，框架的适应能力和鲁棒性尚待进一步研究。 🏗️ 模型架构如图1（![图1: Dynamic Noise-Aware Multi LoRA framework architecture](https://nanless.github.io/audio-paper-digest-images/icassp-2026/2026-04-29/11463424-0.png))所示，DNA Multi LoRA框架是一个三阶段系统： ...