数据增强 | 语音/音乐/音频论文速递

Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026

📄 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 #语音识别 #语音合成 #语音翻译 #多模态模型 #数据增强 #参数高效微调 #模型集成 10/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前10% | #语音识别 | #数据增强 | #语音合成 #语音翻译 | arxiv 👥 作者与机构 Enes Yavuz Ugan, Maike Züfle, Yuka Ko, Supriti Sinhamahapatra, Fabian Retkowski, Seymanur Akti, Jan Niehues, Alexander Waibel 1 Karlsruhe Institute of Technology (KIT) 2 Carnegie Mellon University ...

A Training-Efficient Transformer-Based Anti-Spoofing Network for Logical Access in ASVspoof 5

📄 A Training-Efficient Transformer-Based Anti-Spoofing Network for Logical Access in ASVspoof 5 #Transformer #数据增强 6.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.7/10 | 后50% | #Transformer | #Transformer | #数据增强 | arxiv 👥 作者与机构论文作者为 Sidan Yin 和 Bo Zhao。论文中未明确提及作者所属机构信息。 💡 毒舌点评这篇文章像一个精心搭建的乐高城堡，每个积木块（Transformer、Focal Loss、Pairwise Loss、Attention Pooling）都是现成的，拼装过程也算工整。它的价值在于向特定赛道（ASVspoof 5 Track 1 闭集）的选手证明了，用这些标准零件，确实能比用AASIST那些奇形怪状的图积木搭得更快、更省地，还能搭得稍微高一点（minDCF 0.2430 vs 0.2911）。但它的天花板也就仅限于此了。创新性基本停留在“排列组合”层面，缺乏对“为什么必须这样组合”的深度机理挖掘。实验局限在自家后院（闭集协议），从未与更广阔的SOTA世界（挑战赛高分系统、开放条件）交手。最致命的是，论文一边强调“平衡”，却对RawNet2在推理延迟和参数量上的优势轻描淡写，对AASIST内存异常高的原因缺乏深究，仿佛效率分析是为了凸显自家优点而量身定制的。它是一份合格的“技术报告”或“竞赛心得”，但距离一篇具有广泛启示意义的“研究论文”还有明显差距。 ...

C2GA: A Class-Controllable Generative Augmentation Framework for Respiratory Sound Classification

📄 C2GA: A Class-Controllable Generative Augmentation Framework for Respiratory Sound Classification #音频分类 #数据增强 #生成模型 7.3/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.3/10 | 前50% | #音频分类 | #变分自编码器 | #数据增强 #生成模型 | arxiv 👥 作者与机构作者：Ziqi Ma, Mengyu Han, Anteng Cai, Zhanchong Liu, Bowen Feng, Hang Yu, Sheng Hu 机构：上海大学计算机工程与科学学院；西交利物浦大学创业与技术学院（太仓）人工智能与先进计算学院；大阪大学情报科学研究科 💡 毒舌点评这篇论文工作量扎实，试图用离散表示和Transformer来解决呼吸音分类这个老大难问题。动机清晰，痛点抓得准，方法设计也算精巧，特别是那个“原型融合”的想法。但作者在讲故事时，有些关键的“证据链”断了。你说你的方法“临床有效”，请问有医生背书吗？生成的湿啰音，是能骗过老中医还是能骗过听诊器？另外，实验都在自家精心清洗过的数据集上，这就像在无尘车间里测试防尘口罩——看起来很美好，但离真实世界的“脏乱差”还有多远？最后，代码、数据、权重，三无产品，让想复现的同行只能对着公式空想。总之，是个不错的工作，但离“临床可用”和“广泛可复现”的终点，还有好几公里的坑要填。 ...

CoughSense: Five-Class Respiratory Disease Classification via Whisper Encoder Fine-Tuning and Dual-Encoder Cross-Attention Fusion with Balanced Contrastive Learning

📄 CoughSense: Five-Class Respiratory Disease Classification via Whisper Encoder Fine-Tuning and Dual-Encoder Cross-Attention Fusion with Balanced Contrastive Learning #数据增强 #领域适应 9.1/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 9.1/10 | 前25% | #数据增强 | #数据增强 | #领域适应 | arxiv 👥 作者与机构作者: Nikhil Vincent 机构: Independent Researcher, Bothell, Washington, USA 通讯作者: Nikhil Vincent (nikhil.vincent.v@gmail.com) 💡 毒舌点评这篇工作像一篇扎实的工程报告，而非充满灵光的科学探索。其核心卖点——“主动帧QKV注意力池化”——本质上是对预训练模型输入不匹配问题的一种直接而有效的工程修补，虽然实用，但理论深度有限。论文更像是一个“最佳实践”集锦，将FiLM、SupCon、GRL、Balanced Mixup等现有技术组合在一起应对医学音频的挑战，这种“工具箱”式的整合创新性不足。真正的短板在于其评估的“离线”本质：在公开数据集上刷分容易，但论文对标签噪声、儿科与成人领域偏移等关键问题的讨论仅停留在表面，缺乏深入的量化分析或解决方案，这使得“部署为实时移动应用”的结论显得有些仓促和过度自信。作者将“Whisper首次应用于多类咳嗽分类”作为首要贡献，但这更多是应用上的首次，而非方法论上的突破。总体而言，这是一篇完成度高但突破性弱的工作，适合寻求实用方案的工程师，但难以满足追求理论创新的顶级会议。 ...

Efficient ASR Training with Conversations that Never Happened

📄 Efficient ASR Training with Conversations that Never Happened #语音识别 #数据增强 #低资源 8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前50% | #语音识别 | #数据增强 | #低资源 | arxiv 👥 作者与机构论文作者： Máté Gedeon（隶属布达佩斯技术与经济大学电信与人工智能系、SpeechTex Ltd.）， Péter Mihajlik（隶属布达佩斯技术与经济大学电信与人工智能系、ELTE语言学研究中心）。机构：布达佩斯技术与经济大学（Dept. of Telecommunications and Artificial Intelligence）， SpeechTex Ltd.， ELTE语言学研究中心。 💡 毒舌点评这篇论文的动机（为低资源语言/对话场景生成训练数据）是扎实且有实际意义的。核心想法——利用LLM生成对话文本，再经由TTS和说话人模拟转化为语音——本身是合理且可扩展的。然而，论文的“新意”更多是将已有组件（LLM、TTS、说话人模拟）组合成一个管线，并在特定语言（匈牙利语）上进行了详尽的实验。真正的创新点（元数据条件下的语音选择、对比评估）更多体现在工程实践和实验设计上，而非提出一种根本性的新方法。论文对结果的解读比较中肯，承认了生成器选择和混合的复杂性。但是，作者对关键的“说话人感知对话模拟”阶段（Stage III）描述得过于简略，将其作为黑盒引用前作，这削弱了本文方法的完整性。此外，实验的泛化性完全依赖于一个语言资源（匈牙利语BEA-Dialogue）和一个ASR架构（FastConformer），尽管作者声称可移植性，但缺乏证据。对于一篇定位为“高效训练”的工作，论文没有讨论其方法的计算成本（生成、合成、训练的总开销）与传统数据收集的对比，这是一个明显的疏漏。最终的组合模型（4-scale + sim）性能超越2700小时零样本基线，结果很亮眼，但这主要归功于合成数据与目标语料的高度匹配，而非方法本身的革命性。 ...

SegTune: Structured and Fine-Grained Control for Song Generation

📄 SegTune: Structured and Fine-Grained Control for Song Generation #音乐生成 #生成模型 #多模态模型 #数据增强 #参数高效微调 8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.5/10 | 前25% | #音乐生成 | #数据增强 | #生成模型 #多模态模型 | arxiv 👥 作者与机构 Yuejiao Wang, Zihao Ji, Pengfei Cai, Xu Li, Haorui Zheng, Zewen Song, Zhongliang Liu, Chen Zhang, Pengfei Wan。机构为Kling Team, Kuaishou Technology；University of Science and Technology of China；Peking University。论文在Kuaishou Technology的Kling Team实习期间完成。 ...

SiamCTC: Learning Speech Representations through Monotonic Temporal Alignment

📄 SiamCTC: Learning Speech Representations through Monotonic Temporal Alignment #自监督学习 #语音识别 #数据增强 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7/10 | 前50% | #语音识别 | #自监督学习 | #数据增强 | arxiv 👥 作者与机构作者：SooHwan Eom, Mark Hasegawa-Johnson, Chang D. Yoo 机构：Korea Advanced Institute of Science and Technology (KAIST)， University of Illinois Urbana-Champaign (UIUC) ...

SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling

📄 SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling #音乐生成 #音频生成 #多模态模型 #数据增强 #低资源 8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.6/10 | 前25% | #音乐生成 | #数据增强 | #音频生成 #多模态模型 | arxiv 👥 作者与机构论文作者：Xiaoyue Duan, Nanxing Hu, Yutang Feng, Xudong Yan, Jiatao Chen, Jinchao Zhang, Jie Zhou 机构：腾讯微信AI模式识别中心 (Pattern Recognition Center, WeChat AI, Tencent Inc.) 通讯作者：Jinchao Zhang (†Work done during an internship at WeChat AI, Tencent Inc. ‡Corresponding author) 💡 毒舌点评这篇工作在概念层面抓住了当前歌曲生成模型的两个痛点：宏观结构规划不足和伴奏部分建模粗糙。提出的“草图规划”和“四轨建模”思路直接、清晰，且能互补。实验设计比较扎实，消融研究有力地支撑了各自组件的贡献。然而，方法的工程实现存在明显的“补丁”感，尤其是第二阶段多轨道模型却沿用第一阶段（或基线）为混合信号训练的伴奏解码器，这就像声称做了精细分轨烹饪，最后却用同一个大锅炒在一起，严重削弱了“细粒度”声称的冲击力。论文在局限性部分诚实地指出了这一点，但这也使得其作为一项完整工作的贡献打了折扣。与经过充分后训练（如DPO、对齐优化）的开源系统相比，本系统在部分主观指标上仍有差距，这进一步说明了其“潜力”与“现状”的差距。总体而言，这是一篇扎实的系统性工作，但缺乏一个令人惊艳的、完全自洽的闭环。 ...

Advancing Electrolaryngeal Speech Enhancement Through Speech-Text Representation Learning

📄 Advancing Electrolaryngeal Speech Enhancement Through Speech-Text Representation Learning #语音增强 #多模态模型 #低资源 #数据增强 7.1/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 7.1/10 | 前50% | #语音增强 | #数据增强 | #多模态模型 #低资源 | arxiv 👥 作者与机构 Ding Ma, Jinyi Mi, Fengji Li, Lester Phillip Violeta, Jiajun He, Wenchin Huang, Kazuhiro Kobayashi, Tomoki Toda. 主要机构：名古屋大学 (Nagoya University) 信息科学研究生院及信息技术中心，北京航空航天大学 (Beihang University) 生物与医学工程学院，TARVO, Inc.。通讯作者为 Ding Ma。 ...

AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

📄 AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling #多模态模型 #自回归模型 #数据增强 7/10 | 创新 2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0/1.5 ✅ 7/10 | 前50% | #多模态模型 | #数据增强 | #自回归模型 | arxiv 👥 作者与机构作者：Yiheng Li (中国科学院计算技术研究所, 中国科学院大学)，Zhuo Li (独立作者)，Ruibing Hou (中国科学院计算技术研究所)，Yingjie Chen (北京大学)，Hong Chang (中国科学院计算技术研究所, 中国科学院大学)，Hao Liu (独立作者)，Shiguang Shan (中国科学院计算技术研究所, 中国科学院大学) 通讯作者：Hao Liu (lewes6369@gmail.com) 💡 毒舌点评这篇论文试图解决运动生成领域的一个“贪心”问题：想要一个模型吃下所有条件（文本、语音、音乐、轨迹），还想要数据足够大、模型能缩放。野心不小，也确实做出了些东西。数据集OmniHuMo规模号称最大，这算是个实在的工程贡献，对社区后续研究有价值。AnyMo框架的设计思路清晰，把R-FSQ和并行掩码建模结合起来处理多流token，算是一个合理的技术集成。缩放研究展示了从111M到3B参数的效果趋势，尤其是文本任务上FID的显著下降，验证了 scaling law 在这个任务上的有效性。 ...