对抗训练 | 语音/音乐/音频论文速递

HARP: Harmonic-Aware Residual Partitioning for Neural Audio Codecs

📄 HARP: Harmonic-Aware Residual Partitioning for Neural Audio Codecs 标签：#音频编码 #音频质量评估 #对抗训练 #高效推理 #音频理解 9.6/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.6/10 | 前10% | 文档类型：方法研究 | 评分置信度：高 | #音频编码 | #对抗训练 | #音频质量评估 #高效推理 | arxiv 👥 作者与机构第一作者：Qiaoyu Yang（Georgia Institute of Technology, Atlanta, United States）通讯作者：未说明作者列表：Qiaoyu Yang（Georgia Institute of Technology, Atlanta, United States）、Lixing He（The Chinese University of Hong Kong, Hong Kong, China）、Binyue Deng（Tencent Music Entertainment, Shenzhen, China）、Weifeng Zhao（未说明） 💡 毒舌点评论文提出了一个优雅而高效的“训练时改造，推理时无痕”方案，将频率感知注入通用的RVQ架构，解决了频谱纠缠和截断质量不可预测的实际痛点，工程价值很高。然而，其分组策略和高斯权重初始化仍带有启发式色彩（例如，训练后Group 0和1的中心均收敛到~228 Hz，未实现预设的频带划分），且实验基线相对单薄（主要与DAC和BSCodec对比），缺乏与近期其他非架构修改方法（如MUFFIN、SNAC）的直接比较，使得其优越性的说服力略有折扣。 ...

Multi-Level Privacy-Preserving Dementia Detection from Speech via Targeted Adversarial Obfuscation and Representation Learning

📄 Multi-Level Privacy-Preserving Dementia Detection from Speech via Targeted Adversarial Obfuscation and Representation Learning 标签：#语音属性识别 #对抗训练 #医疗音频 #音频理解 #Transformer 5.5/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.6/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.5/10 | 前50% | 文档类型：方法研究 | 评分置信度：中 | #语音属性识别 | #对抗训练 | #医疗音频 #音频理解 | arxiv 👥 作者与机构第一作者：Henriette Flore Kenne（Richard A Miner School of Computer and Information Sciences, University of Massachusetts Lowell, Lowell, USA）通讯作者：未说明作者列表：Henriette Flore Kenne（Richard A Miner School of Computer and Information Sciences, University of Massachusetts Lowell, Lowell, USA）、Raphael Anaadumba（Richard A Miner School of Computer and Information Sciences, University of Massachusetts Lowell, Lowell, USA）、Mohammad Arif Ul Alam（Richard A Miner School of Computer and Information Sciences, University of Massachusetts Lowell, Lowell, USA） 💡 毒舌点评亮点在于提出多层次（信号+特征）隐私保护框架的视角颇为新颖，将对抗攻击转化为隐私保护工具的思路有启发性。短板是实验验证极其薄弱，所有结果仅基于单一（且经典）的DementiaBank数据集，缺乏跨数据集泛化性验证，且对所提方法的失败案例、边界条件及实际部署复杂度毫无讨论，使得论文更像一个初步的实验报告而非成熟的会议论文。 ...

Natural Backdoor Attacks on Speech Recognition Models

📄 Natural Backdoor Attacks on Speech Recognition Models 标签：#语音识别 #对抗训练 #鲁棒性 #音频理解 #Transformer 3.5/10 | 创新 1/2 | 严谨 0.5/1.5 | 实验 0.5/1.5 | 清晰 0.6/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 0.3/1.5 📝 3.5/10 | 后50% | 文档类型：方法研究 | 评分置信度：中 | #语音识别 | #对抗训练 | #鲁棒性 #音频理解 | arxiv 👥 作者与机构第一作者：Jinwen Xin（西安电子科技大学网络工程学院）通讯作者：Xixiang Lyu（西安电子科技大学网络工程学院，邮箱：xxlv@mail.xidian.edu.cn）作者列表：Jinwen Xin（西安电子科技大学网络工程学院）、Xixiang Lyu（西安电子科技大学网络工程学院）、Jing Ma（西安电子科技大学网络工程学院） 💡 毒舌点评本文提出了一个有启发性的视角——用自然界或日常生活中真实存在的声音（雨声、口哨声、蝉鸣）作后门触发器，让攻击在物理世界中可被环境自动激活且不易被人类察觉。然而，论文的实验"骨架"过于瘦弱：（1）仅攻击了CNN、LSTM和mini-CNN这三个最基础的模型，未触碰Transformer、Conformer、Wav2Vec 2.0等当前主流架构；（2）攻击手法仅为最朴素的时域波形叠加，缺乏与已有后门攻击方法的直接对比；（3）物理世界验证仅用单一场景（蝉鸣）一笔带过，未进行任何声学环境变量控制；（4）对超声波触发器在SCDv2数据集上失败的解释存在采样率描述前后矛盾（正文声称SCDv2采样率为44.1kHz，分析段却称16kHz），技术严谨性存疑。这篇发表在LNCS workshop上的工作，顶多算是一个"概念验证式"的小实验，离能说服安全领域研究者的标准还有不小距离。 📌 核心摘要本文针对语音识别系统的后门安全问题，提出使用自然界或日常生活中的声音（如雨声、口哨声、鸟鸣声）作为"自然触发器"来实施后门攻击。与现有使用随机噪声或超声波作为触发器的方法相比，该方法的核心创新在于触发器更隐蔽（不易引起人类警觉），且能在真实环境中被自然激活，从而带来更严重的威胁。作者在ESC和Speech Commands数据集上，使用mini-CNN、CNN和LSTM模型进行实验，结果表明只需5%的投毒率即可使攻击成功率（ASR）接近100%，同时模型在干净样本上的准确率（BA）基本不受影响。论文还初步验证了该方法在物理场景（蝉鸣声）和无标签（Clean-label）攻击下的有效性，并探索了投毒率、触发器持续时间和混合比例对攻击性能的影响。然而，该工作的主要局限在于所使用的模型过于简单且规模较小，缺乏与当前主流高性能语音识别模型及已有后门攻击方法的对比实验，且对超声波触发器失败原因的解释存在前后矛盾。 ...

SpeechGuard: Online Defense against Backdoor Attacks on Speech Recognition Models

📄 SpeechGuard: Online Defense against Backdoor Attacks on Speech Recognition Models 标签：#语音识别 #对抗训练 #鲁棒性 #音频理解 #Transformer 6.0/10 | 创新 1.4/2 | 严谨 1/1.5 | 实验 0.7/1.5 | 清晰 0.9/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.0/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音识别 | #对抗训练 | #鲁棒性 #音频理解 | arxiv 👥 作者与机构第一作者：Jinwen Xin（未说明）通讯作者：未说明作者列表：Jinwen Xin（未说明）、Xixiang Lv（未说明） 💡 毒舌点评亮点在于首次为语音识别系统提出了一个包含检测与净化的完整在线后门防御方案（SpeechGuard），并利用了音频信号在时频域的稀疏性这一有价值的前提；短板在于其净化阶段对分散型触发器（如随机噪声）的效果有限，且整篇论文完全闭源，实验设计上缺乏与更先进或自适应攻击的对抗，也缺乏与其他防御方法的定量对比。 📌 核心摘要本论文聚焦于语音识别模型面临的后门攻击威胁，提出了一种名为SpeechGuard的在线防御方案，旨在运行时识别并净化携带触发器的中毒音频样本。其核心方法包含两个阶段：第一阶段采用改进的STRIP方法（S-STRIP），通过基于信噪比的扰动注入来检测中毒样本；第二阶段训练一个自编码器，学习从中毒样本的时频表示到二值掩码（IBM）的映射，用于抑制触发器信号。与现有方法相比，SpeechGuard的创新点在于首次为语音任务设计了端到端的在线防御流程，并将净化目标从简单的样本拒绝提升到触发器信号抑制。实验在两个语音命令数据集（SCDv2和AMT）和两种模型（2D-CNN和Att-LSTM）上进行，使用了三种触发器类型（随机噪声、环境噪声、超声波脉冲）。结果显示，S-STRIP的检测错误接受率（FRR）在5%时大多低于10%；经过净化后，攻击成功率（ASR）平均下降超过90%，但中毒样本的净化准确率（PA）因触发器类型而异，对随机噪声触发器仅约60%，对环境噪声和超声波触发器则能保持在85%以上。论文实际意义在于为安全关键场景下的语音系统提供了一种可部署的防御思路。主要局限包括：对分散型触发器的净化效果不佳；防御机制基于触发器信号在时频域与语音信号分离的假设，该假设的普适性待考；且论文完全未提供代码或模型，可复现性低。 ...

语音/音乐/音频论文速递 2026-07-20

语音/音乐/音频论文速递 2026-07-20 共分析 15 篇论文 ⚡ 今日概览 📥 抓取 15 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音视频理解 3篇 ███ #基准测试 2篇 ██ #语音识别 2篇 ██ #自回归模型 1篇 █ #语音交互 1篇 █ #语音合成 1篇 █ #语音质量评估 1篇 █ #说话人验证 1篇 █ 📊 论文评分排行榜（15 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 StemFX: Learning Mixing Style Representations via Autor 9.6分前10% 方法研究 #自回归模型 🥈 A Geometry-Limited Identification Floor and Its Consequ 8.8分前25% 方法研究 #说话人验证 🥉 Proof-Carrying Multimodal Timelines: Finite-Trace Modal 8.6分前25% 系统技术报告 #基准测试 4. A Study of Parallelizable Alternatives to Dynamic Time 8.1分前25% 系统技术报告 #基准测试 5. Estimating the Reliability of Dynamic Time Warping Alig 7.6分前25% 方法研究 #音乐理解 6. Controlling Implicit Shortcut Reliance in L2 Spoken Eng 7.5分前25% 方法研究 #语音质量评估 7. Segmental DTW: A Parallelizable Alternative to Dynamic 7.0分前50% 方法研究 #音频检索 8. AuEmoChat: Authentic Emotion Understanding and Renderin 6.9分前50% 方法研究 #语音合成 9. Constrained Hebbian Learning Supports Efficient Represe 6.7分前50% 方法研究 #音视频理解 10. SpeechGuard: Online Defense against Backdoor Attacks on 6.0分前50% 方法研究 #语音识别 11. Audio-Visual Flamingo: Open Audio-Visual Intelligence f 6.0分前50% 系统技术报告 #音视频理解 12. AV-JEPA: Extending LeJEPA to Audio-Visual Self-Supervis 5.7分前50% 方法研究 #音视频理解 13. Data-driven Video Codec with Implicit Neural Representa 5.3分后50% 系统技术报告 #音频编码 14. AnovaX: A Local, Multi-Agent Voice Assistant with LLM P 4.8分后50% 系统技术报告 #语音交互 15. Natural Backdoor Attacks on Speech Recognition Models 3.5分后50% 方法研究 #语音识别 📋 论文列表 🥇 StemFX: Learning Mixing Style Representations via Autoregressive FX Chain Prediction on Source-Separated Stems 9.6/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ...

Cross Domain Few-Shot Class-Incremental Audio Classification Via Adversarial Contrastive Learning

📄 Cross Domain Few-Shot Class-Incremental Audio Classification Via Adversarial Contrastive Learning #音频分类 #对抗训练 #对比学习 #持续学习 7.4/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1.3/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 7.4/10 | 前50% | #音频分类 | #对抗训练 | #对比学习 #持续学习 | arxiv 👥 作者与机构第一作者：Yongjie Si（华南理工大学电子与信息工程学院，广州）通讯作者：Yanxiong Li（华南理工大学电子与信息工程学院，广州）作者列表：Yongjie Si、Yanxiong Li、Sen Huang、Beibei Liu（均隶属于华南理工大学电子与信息工程学院） 💡 毒舌点评本文首次在音频分类中形式化跨域少样本类增量学习（CD-FCAC）问题，并用对抗训练和对比学习给出直接解法，立意实用。然而，方法核心是将CV领域的域泛化策略（网络随机化+Wasserstein-style对抗训练）和监督对比学习套用至音频，技术深度有限；且仅靠谱图扰动模拟域偏移，在物理声学上缺乏依据。实验仅在三个公开数据集的六组域对上验证，回避了真实场景中的录音设备、声学环境等复杂域偏移，结论迁移性存疑。平均准确率作为主指标过于粗糙，掩盖了模型在增量后期的灾难性遗忘问题。 📌 核心摘要问题：解决跨域少样本类增量音频分类（CD-FCAC）。基类样本来自源域，增量类样本来自存在域偏移的目标域，且每类仅有少量样本（如K-shot）。方法核心：提出对抗对比训练策略。在基类训练阶段，使用谱扰动器对源域log-Mel谱图施加随机卷积扰动，并通过梯度上升最大化基于Wasserstein距离松弛的对抗损失，生成语义一致的伪目标域样本；随后联合源域和生成的对抗样本，最小化标准交叉熵与监督对比损失的组合目标，迫使编码器学习域不变且类内紧凑、类间可分的高区分度嵌入。增量阶段，冻结编码器以保留知识，仅用旧类嵌入均值和新类样本更新分类器。与已有方法的新颖之处：首次在FCAC框架内显式处理源域与目标域分布差异，将单源域泛化的对抗训练与监督对比学习结合，为少样本增量学习提供域鲁棒的特征表示。主要实验结果：在由LS-100、NSynth-100、FSC-89构造的六组跨域对上进行5-way 5-shot实验，方法在平均准确率（AA）上均超过对比基线（如NS→LS上79.09%，对比最佳基线AMFO+AFA的78.50%）。实际意义：为智能家居、机器人等场景中，需要从不同域持续识别少量新音频类别的应用提供了一种轻量级方案。主要局限性：域偏移仅通过谱图对抗扰动近似，未验证其对真实声学物理因素（录音设备、混响、噪声等）的模拟能力；冻结编码器策略完全放弃从目标域学习，限制性能上限；未探讨多源域或域标签未知的更复杂情形。 🔗 开源详情代码：https://github.com/YongjieSi/ACL （论文公开）模型权重：未提及数据集：LS-100, NSynth-100, FSC-89，均在ModelScope公开： https://www.modelscope.cn/datasets/pp199124903/LS-100/summary https://www.modelscope.cn/datasets/pp199124903/FSC-89/summary https://www.modelscope.cn/datasets/pp199124903/NSynth-100/summary Demo：未提及复现材料：未提及 🏗️ 方法概述和架构该方法将CD-FCAC问题分解为基类训练（m=0）与增量训练（1≤m≤M-1）两个阶段。模型由编码器（如ResNet-18）、分类器（权重向量为 \(\{c_{y_j}\}\)）和一个专用于数据增强的谱扰动器（Spectral Disruptor）构成。输入音频被转换为128维log-Mel谱图。 ...

Learning Robust Pair Confidence for Multimodal Emotion-Cause Pair Extraction

📄 Learning Robust Pair Confidence for Multimodal Emotion-Cause Pair Extraction #多模态模型 #对比学习 #对抗训练 7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.5/10 | 前50% | #多模态模型 | #对比学习 | #对抗训练 | arxiv 👥 作者与机构作者：Zhuangzhuang Pan (Universiti Malaya), Ning Dong (Suqian University), Yingna Su (Suqian University), Yan Xia (Suzhou University of Technology)。机构：Universiti Malaya, Suqian University, Suzhou University of Technology。 ...

语音/音乐/音频论文速递 2026-06-18

语音/音乐/音频论文速递 2026-06-18 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 7篇 ███████ #多模态模型 5篇 █████ #语音合成 5篇 █████ #空间音频 1篇 █ #音乐生成 1篇 █ #模型评估 1篇 █ #声源定位 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜（36 篇，按分数降序）排名论文总分分档主任务 🥇 IndicContextEval: A Benchmark for Evaluating Context Ut 9.5分前25% #语音识别 🥈 Native Active Perception as Reasoning for Omni-Modal Un 9.1分前10% #语音识别 🥉 Who Wins the Conflict? Mechanistic Interpretability of 8.8分前25% #多模态模型 4. Generalised Transcoding Framework for Arbitrary Spatial 8.7分前50% #空间音频 5. Closing the Loop: PID Feedback Control for Interpretabl 8.7分前50% #音乐生成 6. GRIDEX: Grid-Grounded Forensic Explanations for Deepfak 8.6分前50% #语音合成 7. Continuous-Speech Parkinson's Disease Detection Usi 8.3分前25% - 8. Mitigating Scoring Errors and Compensating for Nonverba 8.0分前25% #多模态模型 9. A Survey of Methods for the Discretization of Phonograp 8.0分前50% - 10. Adaptive Speech-to-Spike Encoding for Spiking Neural Ne 8.0分前25% - 11. MagpieTTS-LF: Inference-Time Long-Form Speech Generatio 7.9分前25% #语音合成 12. Beyond AHI: An Interpretable Causal-Discovery-Guided Fr 7.9分前25% - 13. Evaluating Dynamic Range Compressor Models Using Contro 7.8分前50% #模型评估 14. NeuralMUSIC: A Hybrid Neural-Subspace Framework for Rob 7.8分前50% #声源定位 15. Fair Cognitive Impairment Detection Through Unlearning 7.7分前25% #多模态模型 16. Audio-to-Audio via Diffusion Warm Initialization 7.6分前25% #音频生成 17. FineCombo-TTS: Collaborative and Precise Controllable S 7.6分前25% #语音合成 18. Constraining to Generalize: Subspace Tuning for Few-sho 7.5分前25% #音频分类 19. Learning Robust Pair Confidence for Multimodal Emotion- 7.5分前50% #多模态模型 20. Montreal Forced Aligner and the state of speech-to-text 7.5分前25% #语音识别 21. Scoring Backends Matter More Than Pooling: A Systematic 7.4分前50% - 22. Reliable Neural-Codec Text-to-Speech by ASR Self-Verifi 7.4分前50% #语音合成 23. Reference-Driven Multi-Speaker Audio Scene Generation f 7.3分前50% #语音合成 24. QC-GAN: A Parameter-Efficient Quaternion Conformer GAN 7.1分前50% #语音增强 25. Augmenting Dysarthric Speech Severity Assessment with M 7.0分前50% #语音质量评估 26. Continuous Audio Thinking for Large Audio Language Mode 6.9分前50% - 27. Human-AI Coevolution Dynamics: A Formal Theory of Socia 6.7分前50% - 28. DASH: Dual-View Self-Distillation with Multi-Layer Hidd 6.6分前50% #语音识别 29. Reference-Based Recursive Least-Squares Mitigation of R 6.6分前50% - 30. Responsible ASR: Overcoming Challenges of Foundational 6.5分前50% #语音识别 31. Risk Stratification for ICU Delirium using Pervasive Am 6.5分前50% #多模态模型 32. ThinkDeception: A Progressive Reinforcement Learning Fr 6.3分前50% #强化学习 33. EMORSION: Examining the Impact of Audio Parameters on E 6.0分前50% - 34. Speech-Driven End-to-End Language Discrimination toward 5.8分前50% #语音识别 35. Low-resource Language Discrimination Towards Chinese Di 5.5分前50% #语音识别 36. SingFox: A Multi-Lingual Singfake Detection Corpus 5.4分后50% #语音伪造检测 📋 论文列表 🥇 IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

ROMPAR: Morphological Completion and Demographic Unlearning for Romanian-Accented Speech Recognition

📄 ROMPAR: Morphological Completion and Demographic Unlearning for Romanian-Accented Speech Recognition #语音识别 #数据集 #对抗训练 #低资源 6.2/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.2/10 | 前50% | #语音识别 | #对抗训练 | #数据集 #低资源 | arxiv 👥 作者与机构作者：Avram Antonie Badea, Florea Zaharoiu, Andrei-Marius, Aureliu-Valentin, Ştefan-Bogdan, Andrei, Robert-Nicolae, Dumitru-Clementin 机构：National University of Science and Technology POLITEHNICA Bucharest, Romania ...

Speaker-Invariant Representation Learning for Spoofing Detection via Gradient Reversal and A Variational Information Bottleneck

📄 Speaker-Invariant Representation Learning for Spoofing Detection via Gradient Reversal and A Variational Information Bottleneck #对抗训练 7.1/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前25% | #对抗训练 | #对抗训练 | arxiv 👥 作者与机构作者：Anh-Tuan Dao, Driss Matrouf, Mickael Rouvier, Nicholas Evans。机构：Laboratoire Informatique d’Avignon, Avignon Universite, France; EURECOM, Sophia Antipolis, France。 ...