论文速递 | 语音/音乐/音频论文速递

Teacher-Student Structure for Domain Adaptation in Ensemble Audio-Visual Video Deepfake Detection

📄 Teacher-Student Structure for Domain Adaptation in Ensemble Audio-Visual Video Deepfake Detection #多模态模型 #知识蒸馏 #集成学习 #Transformer #数据增强 7.4/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.4/10 | 前50% | #多模态模型 | #知识蒸馏 | #集成学习 #Transformer | arxiv 👥 作者与机构 Elham Abolhasani, Maryam Ramezani, Hamid R. Rabiee* 沙理工大学 (Sharif University of Technology) 计算机工程系 💡 毒舌点评这篇论文试图做一件有价值的事：让深度伪造检测器“活”起来，能适应新出现的伪造技术。想法不错，但执行上更像是一个标准流程的工程化整合，而非一个能激发领域范式转变的突破。教师-学生框架（第2.3节）被作者明确指出是受[19, 33]启发，其主要创新点——针对Transformer的\(L_{AV-KL}\)损失——虽有技术意义，但贡献深度有限。最令人困惑的是，在DFDC这个公认复杂的数据集上，经过精心设计的学生模型相比教师模型AUC提升仅4.09%，这是否真正证明了该框架的有效性，还是只是数据不足导致的勉强适应？论文试图通过解释性（第5.4节）和鲁棒性（第5.5节）分析来增加亮点，但这些分析更多是定性展示，缺乏更严谨的量化支撑。总体而言，这是一篇扎实的、但缺乏足够想象力和突破性贡献的论文，适合发表在会议的Poster环节，而非获得广泛关注的Oral。 ...

TMASC: Transmasculine Attitude and Speech Corpus

📄 TMASC: Transmasculine Attitude and Speech Corpus 7/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.7/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.9/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7/10 | 前50% | arxiv 👥 作者与机构作者：Sidney Wong 机构： Centre for Sustainability Research, University of Otago, New Zealand Te Pūnaha Matatini Centre of Research Excellence for Complex Systems, New Zealand 邮箱：sidney.wong@otago.ac.nz 💡 毒舌点评本文是一篇中规中矩的资源介绍型论文，核心贡献是“发布了一个数据集”。其优点在于关注了跨性别男性这一被忽视群体的语音健康需求，选题具有社会意义和领域空白填补价值。然而，从顶会审稿人角度看，其技术含量和实验深度不足。所谓的“三个案例研究”更像是数据集的使用说明或探索性数据分析（EDA），而非严格的、可验证的科学实验。方法部分（众包收集、问卷设计、使用现有工具提取特征）缺乏技术创新或深入的算法讨论。论文最大的问题在于“验证”的缺失：众包数据的质量如何保证？与实验室金标准相比误差有多大？Praat和REAPER的差异是否显著影响了结论？这些关键问题都只是被提及而未解决。因此，它适合作为一篇领域内的数据资源报告，但距离NeurIPS/ICML/ICLR级别的研究论文还有显著差距。 📌 核心摘要本文介绍了跨性别男性态度与语音语料库（TMASC），这是一个通过众包方式收集的多模态数据集，包含196名跨性别男性个体的问卷数据和66人的语音样本（包括咳嗽、清嗓和《北风与太阳》朗读）。论文的目标是为研究该群体的声带健康需求提供数据资源。通过三个案例研究，论文展示了该数据集的应用潜力：1）结合自我感知的语音男性化程度与声学基频（f0）进行可视化分析；2）建立社区层面的声学基准；3）比较Praat和REAPER两种工具提取的f0测量差异。论文指出该语料库并非临床诊断工具，并讨论了其横断面设计、非实验室录音条件及样本多样性方面的局限。 ...

Towards Robust Generative Speech Enhancement Using Vector Quantisation-Based Neural Audio Codec

📄 Towards Robust Generative Speech Enhancement Using Vector Quantisation-Based Neural Audio Codec #语音增强 #自回归模型 #生成模型 5.9/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 📝 5.9/10 | 前50% | #语音增强 | #自回归模型 | #生成模型 | arxiv 👥 作者与机构 Haixin Zhao, Nilesh Madhu IDLab, Ghent University - imec, Belgium 💡 毒舌点评这篇工作就像用精美的瑞士军刀去切黄油。作者搭建了两个结构对称、理论分析看似漂亮的框架（cNAC-SE和dNAC-SE），然后通过详尽的消融实验证明了一件大家其实模模糊糊知道的事：在连续空间预测回归值并套个VQ壳子，通常比预测离散分类值要稳。论文的理论分析部分（第2.4节和图3、4）是其最大亮点，用Voronoi cell和PCA图解释了连续建模为何“漂移”更小，这一点讲得漂亮且直观。然而，实验部分的问题暴露了其野心的边界：所有对比基线要么是几年前的，要么是自己家族的变体（dNAC-SE）。Table 3 中与SOTA的对比中，最好的cNAC-SE模型相对于SELM、StoRM等方法的优势并不明显（例如在Real Recordings的BAK和OVL上），尤其是在被其视为核心创新的“鲁棒性”方面（带混响测试集），优势幅度有限。作者声称取得了“leading performance”，但在没有与最新（2025-2026年）的强力生成模型（如基于Flow Matching或Consistency Model的SE方法）正面较量时，这个宣称显得底气不足。此外，论文将大量篇幅用于解释一个相对直观的现象，而忽略了对计算开销这一明确提到的限制的深入分析或缓解方案。整体感觉是：一个扎实的、分析透彻的中游工作，试图包装成一个突破性的工作，但实验对比的“护城河”挖得太浅。 ...

TuneJury: An Open Metric for Improving Music Generation Preference Alignment

📄 TuneJury: An Open Metric for Improving Music Generation Preference Alignment #多模态模型 #数据集 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 9.7/10 | 前25% | #多模态模型 | #数据集 | arxiv 👥 作者与机构论文作者包括Yonghyun Kim (Georgia Tech, ♯), Junwon Lee (KAIST, ♭♭), Haiwen Xia (Peking University, ♮♮), Yinghao Ma (QMUL, ♯♯), Junghyun Koo (Sony AI, ♮), Koichi Saito (Sony AI, ♮), Yuki Mitsufuji (Sony AI, ♮), 和 Chris Donahue (Carnegie Mellon University, ♭)。机构包括Georgia Tech, KAIST, Peking University, QMUL, Sony AI, 和 Carnegie Mellon University。 ...

Unified Audio Generation and Editing via Joint Condition Modeling and Progressive Training

📄 Unified Audio Generation and Editing via Joint Condition Modeling and Progressive Training #音频生成 #扩散模型 #生成对抗网络 8.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.7/10 | 前25% | #音频生成 | #生成对抗网络 | #扩散模型 | arxiv 👥 作者与机构 Haocheng Dong：中国科学技术大学电子工程与信息科学系、中国电信人工智能研究院（TeleAI）。 Yuheng Lu：天津大学人工智能学院认知计算与应用天津市重点实验室、中国电信人工智能研究院（TeleAI）。 Cheng Gong, Shansong Liu, Xiao-Lei Zhang, Xuelong Li：中国电信人工智能研究院（TeleAI）。 💡 毒舌点评这篇论文瞄准了一个实际痛点：音频生成与编辑模型的碎片化。作者提出的统一框架思路清晰，将扩散Transformer（DiT）适配为统一骨架，并通过联合条件建模与因子化位置嵌入处理不同任务的输入，有一定工程巧思。然而，论文在“统一”的深度上仍有欠缺，更像一个“多任务模型”而非真正的“统一范式”。任务特定注意力掩码这一关键设计被轻描淡写，缺乏原理性论证，令人怀疑其必要性与通用性。实验部分，虽然与SOTA模型对比数据亮眼，但编辑任务数据集是人工合成的，其真实世界泛化能力存疑。此外，论文声称“可扩展性”优势，但并未提供长音频或多参考音频的验证，这一宣称显得空洞。总体而言，这是一项扎实的工程应用研究，但理论洞察和实验验证的深度（尤其在编辑任务）未能匹配其雄心勃勃的标题。 📌 核心摘要本文针对现有音频生成（如文本到音频，TTA）与编辑任务模型相互独立的现状，提出了一个名为AudioWeave的统一模型。该模型基于扩散Transformer（DiT）骨架，无需引入额外的任务特定模块，即可处理文本到音频生成和基于指令的音频编辑（需参考音频）两大类任务。核心方法包括：1）联合条件建模：将参考音频潜在序列与目标音频潜在序列沿序列维度拼接，形成统一的音频输入流；2）因子化位置嵌入：将位置信息分解为全局序列间位置和局部序列内位置，以区分不同序列（文本、目标音频、参考音频）并保持其内部时序结构；3）渐进式多阶段训练策略：先在纯TTA数据上训练基础模型，再混合TTA与编辑数据进行微调，以缓解任务竞争与灾难性遗忘。实验表明，在TTA任务及六种音频编辑任务上，AudioWeave的性能与多种任务特定模型相当，验证了该统一框架的有效性。 ...

Unifying Acoustic Features and Text with Multimodal LLMs for Neurodegenerative Screening

📄 Unifying Acoustic Features and Text with Multimodal LLMs for Neurodegenerative Screening #多模态模型 #参数高效微调 #大语言模型 6.2/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.2/10 | 前50% | #多模态模型 | #参数高效微调 | #大语言模型 | arxiv 👥 作者与机构作者：Qingfeng Zhang, Yuanxiong Guo, Yanmin Gong 机构：论文致谢部分显示，Q. Zhang和Y. Guo部分得到UT San Antonio Office of Research and Innovation的种子基金和NSF Grant CNS-2106761的资助；Y. Gong部分得到NSF Grant CNS-2611068的资助。论文正文未明确列出作者所属机构。 ...

Universal adaptive beamforming: A Bayesian approach

📄 Universal adaptive beamforming: A Bayesian approach #自适应滤波 #贝叶斯方法 8/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8/10 | 前50% | #自适应滤波 | #自适应滤波 | #贝叶斯方法 | arxiv 👥 作者与机构 Diego A. Cuji1, Andrew C. Singer1, and John R. Buck2 1Stony Brook University, Stony Brook, NY, USA 2University of Massachusetts Dartmouth, Dartmouth, MA, USA ...

VoxWatermark: A Large-Scale Benchmark for Audio Watermark Detection under Perturbations

📄 VoxWatermark: A Large-Scale Benchmark for Audio Watermark Detection under Perturbations #鲁棒性 #基准测试 #多语言 9.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 9.4/10 | 前50% | #鲁棒性 | #基准测试 | #多语言 | arxiv 👥 作者与机构作者：Farnaz Sedaghati, Yuxi Wang, Zicheng Weng, Wei Rao 机构：1 University of Tehran, Iran; 2 Nanyang Technological University, Singapore ...

When the Same Musical Knowledge Forgets Differently: A Clean Probe of Pathway-Dependent Forgetting

📄 When the Same Musical Knowledge Forgets Differently: A Clean Probe of Pathway-Dependent Forgetting 8.6/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.6/10 | 前10% | arxiv 👥 作者与机构 Yu Liu（中国科学院信息工程研究所；中国科学院大学） Zhiwei Yang（中国科学院信息工程研究所；中国科学院大学） Wenxiao Zhang（西澳大利亚大学） Cong Cao（中国科学院信息工程研究所） Fangfang Yuan（中国科学院信息工程研究所） Kun Peng（中国科学院信息工程研究所；中国科学院大学） Haimei Qin（中国科学院信息工程研究所） Lei Jiang（中国科学院信息工程研究所） Jin B. Hong（西澳大利亚大学） Hao Peng（北京航空航天大学） Yanbing Liu（中国科学院信息工程研究所；中国科学院大学） 💡 毒舌点评这篇论文就像在给多模态模型做“记忆门诊”，专门诊断“通过不同方式学到的知识，忘性居然不一样”这个怪病。作者设计了一套堪称“实验室级”的诊断流程（PPCP），在四个不同的模型（Qwen2-Audio, SALMONN, Audio Flamingo 3, Qwen2.5-Omni）上反复验证，结论很稳：文本通道学的知识就是比音频通道学的更容易丢。六个控制实验把可能的原因（比如直接覆写、投影器保护、路径深度差异）挨个排除，论证链条相当扎实。不过，这“门诊”只看了音乐理解这一个“病种”，而且“病因”到底是什么（输入表征的本质差异？）还是个黑箱，只是开了“可能是这样”的推测药方。总的来说，问题问得极好，实验设计堪称模范，但离彻底看清病根还差临门一脚。 ...

XAI-Grounded Explanation Generation for Speech Deepfake Detection with Training-Free Multimodal Large Language Models

📄 XAI-Grounded Explanation Generation for Speech Deepfake Detection with Training-Free Multimodal Large Language Models #多模态模型 8.9/10 | 创新 1.7/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.9/10 | 前25% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构 Yupei Li, Qiyang Sun, Xiaoliang Wu, Chenxi Wang, Berrak Sisman, Björn W. Schuller 机构：帝国理工学院，慕尼黑工业大学，南安普顿大学，马斯达尔理工学院，约翰霍普金斯大学 💡 毒舌点评这篇论文的“无需训练”标签打得一手好太极。确实，核心生成模型（LLM）的权重是冻结的，但框架的运转严重依赖于一整套“训练中”的组件：一个在训练集上微调过的MLP分类器（为了生成SHAP特征），以及多个预训练的检测模型。这就像说一辆车“无需加油”，因为它用电，但前提是你得有个发电厂（预训练模型）和一条电缆（MLP训练过程）。另外，数据集构建中那个“只保留所有模型都猜对的样本”的筛选，虽然能提升解释质量的“下限”，但无形中也把“硬骨头”都扔掉了，生成的解释在面对更棘手或模型分歧的样本时，表现如何，是个大大的问号。人类评估的设计也略显偷懒，只测了伪造样本，对于“证明清白”（解释真实语音）这个更难的任务，只给了定性例子，这可不够有说服力。 📌 核心摘要本文针对语音深度伪造检测（SDD）中可解释性不足的问题，提出了一个无需训练的多模态框架XGEG。该框架的核心思想是利用传统可解释AI（XAI）方法（如IG, LIME, Saliency）从预训练的检测模型中提取归因图作为“启发式证据”，并将这些证据与通过openSMILE提取的声学特征相结合，共同作为提示输入到多模态大语言模型（Qwen2.5-VL-7B和Qwen3-Omni-30B）中，以生成结构化、有依据、低幻觉的自然语言解释。论文同时构建并公开了一个基于PartialSpoof的、包含约65,000个实例的大规模SDD解释数据集。实验通过人类评估和定量忠实度分析验证了XAI引导能显著提升解释的正确性、证据支持度和特异性。 ...