数据增强 | 语音/音乐/音频论文速递

Contrastive Training with LLM-generated Near-Misses for Robust Code-Switching Speech Recognition

📄 Contrastive Training with LLM-generated Near-Misses for Robust Code-Switching Speech Recognition #语音识别 #对比学习 #数据增强 7.1/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前50% | #语音识别 | #对比学习 | #数据增强 | arxiv 👥 作者与机构作者：Tung X. Nguyen, Hieu Minh Truong, Giang-Son Nguyen, Nhu Vo, Wray Buntine, Dung D. Le 机构：VinUniversity (越南), University of Technology Sydney (澳大利亚), Monash University (澳大利亚) ...

dots.tts Technical Report

📄 dots.tts Technical Report #语音合成 #流匹配 #自回归模型 #多语言 #低资源 #数据增强 #模型压缩 9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 9/10 | 前25% | #语音合成 | #数据增强 | #流匹配 #自回归模型 | arxiv 👥 作者与机构作者：Shi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu。机构：dots团队，小红书公司（Xiaohongshu Inc.），上海交通大学X-LANCE实验室。 ...

Mitigating Proxy-to-Wild Domain Gap in Deepfake Speech

📄 Mitigating Proxy-to-Wild Domain Gap in Deepfake Speech #数据增强 #自监督学习 8.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.4/10 | 前25% | #数据增强 | #数据增强 | #自监督学习 | arxiv 👥 作者与机构第一作者：Xuanjun Chen (陈宣君)，第二作者：Yun-Shing Wu (吴云翔)，第三作者：Wei-Chung Lu (陆伟忠)，第四作者：Claire Jang，第五作者：Haibin Lin，通讯作者/最后作者：Hung-yi Lee (李宏毅)，Jyh-Shing Roger Jang。机构包括：台湾大学电信工程学研究所（Graduate Institute of Communication Engineering）、台湾大学资讯工程学研究所（Graduate Institute of Networking and Multimedia，原文此处为Networking and Multimedia，应为信息工程相关，但原文引用信息如此）、台湾大学资讯管理学系（Department of Information Management）、台湾大学人工智能卓越研究中心（NTU Artificial Intelligence Center of Research Excellence, NTU AI-CoRE）。 ...

MyGardenBird: A Machine-Learning-Ready Bird Sound Dataset for Twelve Common Malaysian Birds

📄 MyGardenBird: A Machine-Learning-Ready Bird Sound Dataset for Twelve Common Malaysian Birds #音频事件检测 #数据增强 #迁移学习 7.2/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ✅ 7.2/10 | 前50% | #音频事件检测 | #数据增强 | #迁移学习 | arxiv 👥 作者与机构 Muhammad Mun’im Ahmad Zabidi, Mohd Yamani Idna Idris, Norisma Idris。机构：Universiti Malaya（马来西亚大学），Universiti Teknologi Malaysia（马来西亚工艺大学）。 💡 毒舌点评这篇论文就像一个认真负责的菜市场管理员，把一堆来自全国各地的鸟叫声（Xeno-canto录音）整理成了一盒盒标签清晰、份量均匀的12味鸟鸣罐头（MyGardenBird数据集）。步骤清晰，文档齐全，连罐头盒的尺寸（3秒）和开罐工具（分割GUI）都帮你准备好了，这对于想在东南亚搞“鸟鸣识别”小摊位的研究者来说，确实是雪中送炭。但是，管理员的工作本质上还是“整理”和“打包”，而不是发明新的捕鸟网或烹饪方法。论文的亮点在于把工程活儿干得非常细致，但面对顶会审稿人，仅靠“整理得干净”可能稍显单薄。你告诉别人“我的罐头标签很准（BirdNET验证）”，但又说“这标签是我自己贴的（单标注者）”，说服力打点折扣。最大的隐患是，你只卖了12种最常见鸟类的罐头，对于想开“东南亚全鸟宴”的研究者来说，这点品种还远远不够。所以，这是一篇优秀的“数据工程”报告，但离一篇有思想火花的“方法论”论文还有距离。 📌 核心摘要本文针对东南亚地区生物声学数据稀缺的问题，提出了MyGardenBird数据集。该数据集从Xeno-canto公民科学档案中获取原始录音，经过一个包含物种选择、数据获取、频谱图分割、质量控制、BirdNET标签验证和混合整数规划数据划分的六步流水线处理。最终，数据集包含12种常见马来西亚鸟类，提供平衡的7200个（16kHz）和6950个（44.1kHz）经人工验证的3秒音频片段，并附带详细的元数据。基线CNN分类实验（92–96%准确率）和BirdNET零样本验证（~98%准确率）共同证实了数据集的质量和类别的可分性，使其成为一个适用于机器学习（尤其是边缘AI）应用的高质量、可复现的基准资源。 ...

SpectCount: Spectrotemporal Counting via Synthetic Signals Improves Large Audio Language Models

📄 SpectCount: Spectrotemporal Counting via Synthetic Signals Improves Large Audio Language Models #数据增强 #参数高效微调 5.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.2/0.5 | 工程 0.2/1.5 📝 5.5/10 | 前50% | #数据增强 | #数据增强 | #参数高效微调 | arxiv 👥 作者与机构 Seonuk Kim, Yonghyeon Jun, Ju Yeon Kang, Jimin Hong, Yoonhyeong Lee, Nam Soo Kim 首尔大学电气与计算机工程系及INMC（首尔，韩国） 💡 毒舌点评这篇工作的想法非常直接：既然模型“听不清”某些细粒度的声音细节，那就用大量简单的合成脉冲信号来“强迫”它学会数数，从而提升其听觉感知。实验结果也确实表明，在多个基准上带来了提升。然而，这种提升的“深度”值得怀疑。核心方法就是生成脉冲并数数，缺乏对“为什么数数能提升对复杂语音、音乐的理解”的深刻理论分析。论文中提到的Speaker Counting性能下降暴露了这种“头痛医头”式微调的副作用——提升了细粒度感知，却可能干扰了更高层次的说话人特征提取。更关键的是，论文没有开源任何代码，连评估指令的细节都需要作者自行复现，这严重阻碍了结果的可验证性和工作的影响力。总的来说，这是一个有效的“工程技巧”展示，但在理论深度和学术规范（如可复现性）上存在明显不足。 ...

Towards Event-Robust Acoustic Scene Classification

📄 Towards Event-Robust Acoustic Scene Classification #数据增强 #大语言模型 6.5/10 | 创新 1.0/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1.3/1 | 影响 1.0/1.5 | 开源 1.0/1.5 | 复现 0.8/0.5 | 工程 0.8/1.5 ✅ 6.5/10 | 前50% | #数据增强 | #数据增强 | #大语言模型 | arxiv 👥 作者与机构 Yiqiang Cai, Bohan Hu, Yu Yang, Pengwei Lu, Shengchen Li, Xi Shao. 机构包括西安交通大学-利物浦大学、中电智恒信息技术服务有限公司、中国电信江苏分公司、南京邮电大学。 💡 毒舌点评这篇论文本质上是一个“问题暴露器”而非“解决方案”。作者敏锐地指出了一个真实且重要的问题——未知前景声音事件对声学场景分类的破坏性影响，这很可贵。然而，他们构建了一个大型合成数据集（ESAS），然后把一堆现有模型“吊打”一番，最后两手一摊说“大家快来研究这个问题吧”。数据集构建工作扎实，评估实验也面面俱到，但论文的核心贡献停留在“诊断”层面，未能提供任何“治疗”方案。对于追求方法创新的顶会来说，这就像一位医生做了详尽的检查报告却没开出药方。预训练模型（BEATs, PaSST）的表现虽然最好，但这是它们的固有能力，而非本文的贡献。最让人皱眉的是，论文声称使用LLM进行“语义分组”，但具体如何保证语义相关性？这个“受约束的语义过滤器”到底有多强的约束力？文中描述得相当模糊。总体而言，这是一份高质量的“体检报告”，但患者（事件鲁棒ASC）的治疗方案依旧缺席。 📌 核心摘要本文针对声学场景分类（ASC）系统在面对未知前景声音事件时鲁棒性不足的问题，提出了事件偏移声学场景（ESAS）数据集。该数据集以真实场景录音（CochlScene）为背景，通过大语言模型（GPT-4）指导的语义分组，将来自FSD50K的前景声音事件进行混合，构建了包含背景、已知事件和未知事件三类子集的评估基准。论文在多个从轻量级CNN到大规模预训练Transformer的SOTA模型上进行了全面评估。实验结果表明，现有ASC模型在处理包含未知事件的声学样本时，分类精度出现严重崩溃，暴露了当前表示学习范式在事件偏移条件下的根本性缺陷。ESAS数据集旨在推动未来对事件鲁棒ASC的研究。 🔗 开源详情代码：https://github.com/bohanhu118/Interspeech2026_ESAS （提供ESAS数据集构建和部分评估的代码）。模型权重：论文中未提供任何预训练模型（如BEATs, PaSST）的权重托管链接。所评估的模型依赖其各自原始论文的开源仓库。数据集：ESAS数据集。论文声明数据集与代码一同在上述GitHub仓库中提供。 Demo：论文中未提及。复现材料：论文提及在合成数据时保留了全面的元数据（JSON文件）以保障可复现性，但未提供完整的训练配置、检查点或详细的实验复现指南。论文中引用的开源项目： FSD50K (数据集): https://zenodo.org/record/4060432 CochlScene (数据集): https://github.com/steffi0803/CochlScene BEATs (模型): https://github.com/microsoft/unilm/tree/master/beats PaSST (模型): https://github.com/koutini/pscnn-passt 🏗️ 方法概述和架构本文的核心工作是构建并提出了一个专门用于评估ASC系统事件鲁棒性的新基准——ESAS数据集。其构建流程是一个多阶段的处理管道（详见论文图1），旨在模拟现实世界中声学场景与前景事件的复杂混合。 ...

CoSTA: Cognitive-State-Conditioned TTS Data Augmentation Using ASR Transcripts for Alzheimer's Disease Detection

📄 CoSTA: Cognitive-State-Conditioned TTS Data Augmentation Using ASR Transcripts for Alzheimer's Disease Detection #语音合成 #语音识别 #自监督学习 #低资源 #数据增强 6.5/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.5/10 | 前50% | #语音合成 | #自监督学习 | #语音识别 #低资源 | arxiv 👥 作者与机构作者：Yin-Long Liu, Yuanchao Li, Yiming Wang, Yue Li, Rui Feng, Jiaxin Chen, Shaobo Liu, Liu He, Yuang Chen, Jiahong Yuan, Zhen-Hua Ling 机构：中国科学技术大学，爱丁堡大学 ...

FoeGlass: Simple In-Context Learning Is Enough for Red Teaming Audio Deepfake Detectors

📄 FoeGlass: Simple In-Context Learning Is Enough for Red Teaming Audio Deepfake Detectors #大语言模型 #音频生成 #语音合成 #数据增强 7.5/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.5/10 | 前25% | #音频生成 | #数据增强 | #大语言模型 #语音合成 | arxiv 👥 作者与机构作者：Sepehr Dehdashtian, Jacob H. Seidman, Vishnu Naresh Boddeti, Gaurav Bharaj 机构：未明确说明作者所属机构。 💡 毒舌点评优点： ...

Channel-Oriented Design for EEG-to-Music Reconstruction

📄 Channel-Oriented Design for EEG-to-Music Reconstruction #音乐信息检索 #音频生成 #自监督学习 #对比学习 #数据增强 7.7/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.7/10 | 前25% | #音乐生成 | #自监督学习 | #音乐信息检索 #音频生成 | arxiv 👥 作者与机构 Jiaxin Qing (UC Berkeley)， Junwei Lu (Harvard University)， Lexin Li (UC Berkeley) 💡 毒舌点评这篇论文在脑机接口的细分赛道——EEG-to-Music重建上，精准地抓住了“通道信息早期混合”这个痛点，并提出了一个逻辑自洽、组件清晰的解决方案。理论分析虽简化，但为设计选择提供了合理的数学依据，比单纯喊口号强。实验部分，与当前SOTA基础模型的对比很到位，证明了专用设计优于通用预训练模型在特定任务上的表现。可解释性分析更是点睛之笔，将EEG的通道注意力与听觉处理脑区关联，提升了工作的可信度和价值。不过，其“对齐+固定生成器”的管道设计虽能隔离贡献，但也限制了对生成阶段优化潜力的探索。在通用性方面，模型对电极配置的固定依赖是一个明显的实用化短板。总的来说，这是一篇扎实、聚焦、有洞察力的工作，配得上顶会水准。 📌 核心摘要本文研究了从EEG信号重建音乐这一具有挑战性的任务。作者指出，现有方法中过早地混合通道信息会破坏EEG中微弱但有区分度的信号。为此，提出了一个“通道导向”的设计框架，其核心包含三个组件：通道级标记化（将每个电极视为独立标记以保留空间局部证据）、通道级多视图自蒸馏（强制模型在不同时间裁剪和随机通道子集之间保持一致性，以学习鲁棒且分布式的表示）和通道级数据增强（通过结构化的通道丢弃提高对噪声和缺失电极的不变性）。这些组件被集成到一个编码-对齐-解码的管道中。从理论上，论文分析了通道级遮蔽相比块级遮蔽在何种条件下能降低跨类重叠。在实验上，通过与多种基线方法（包括专门的EEG2Mel和通用的EEG基础模型LaBraM、EEGPT、CBraMod）进行系统对比，在语义重建（CLAP score 0.683）和嵌入级对齐（50-way 识别准确率0.487）指标上取得了最佳性能。消融研究验证了每个组件的贡献，可解释性分析揭示了与听觉处理相关的通道注意力模式。 ...

Drift-Augmented Scoring: Text-Derived Noise Robustness for Zero-Shot Audio-Language Classification

📄 Drift-Augmented Scoring: Text-Derived Noise Robustness for Zero-Shot Audio-Language Classification #音频分类 #数据增强 #鲁棒性 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前25% | #音频分类 | #数据增强 | #鲁棒性 | arxiv 👥 作者与机构 Tu Vo, Sheir Zaheer, Chan Y. Park, Anonymous Authors (具体机构未在论文中说明) 💡 毒舌点评这篇论文像一把精巧的“瑞士军刀”，主刀是文本漂移向量。它不追求华丽的数学模型，而是用一个巧妙的观察（文本在噪声描述下也会“漂移”）来修复一个实际痛点（CLAP在噪声下的脆弱性）。优势在于其“无为而治”的理念：不碰模型，不改嵌入，只在评分环节加一个“小费”。这种思路对于工程部署极具吸引力，堪称“四两拨千斤”。然而，其“软肋”也显而易见：当核心假设（文本漂移≈音频漂移）不成立时（例如对合成高斯噪声），增益就大幅缩水（见Table 4）。这好比用一套固定尺码的鞋去套所有人的脚，多数时候合脚，但总会有人觉得挤或松。它回避了最困难的测试时适应问题（如何在线校准），选择了一条更安全、更易复现的路径，这在追求SOTA的顶会氛围中，既是其稳健性的体现，也可能被诟病为“不够深入”。最终，它是一份出色的工程实践报告，但距离理论突破还有一步之遥。 📌 核心摘要本文针对零样本音频-语言模型（CLAP）在声学噪声下性能严重下降的问题，提出了一种简单、高效、免训练的测试时评分增强方法——漂移增强评分（DAS）。DAS的核心思想是：类别c的噪声音频嵌入在空间中的漂移方向，可以由该类别的文本提示在噪声条件下的漂移方向来近似。基于此，DAS为每个类别计算一个离线的、仅基于文本的“漂移方向”向量 \(\hat{\delta}_c\)。在测试时，对每个音频片段，除了计算标准的文本-音频余弦相似度 \(z \cdot C_c\) 外，还额外计算一个漂移奖励 \(z \cdot \hat{\delta}_c\)，并通过超参数 \(\beta\) 将两者加权组合作为最终评分。该方法无需访问测试批次或音频池，完全基于文本侧信息，且推理开销极低（每类仅增加一次内积）。在LAION CLAP骨干网络上的实验表明，在多种噪声条件、数据集和信噪比下，DAS均能稳定提升零样本分类性能，且显著优于近期相关工作（Acevedo et al.）的四种变体方法。 ...