基准测试 | 语音/音乐/音频论文速递

SLT 2026 REAL-TSE Challenge: Real-world Target Speaker Extraction from Conversational Recordings

📄 SLT 2026 REAL-TSE Challenge: Real-world Target Speaker Extraction from Conversational Recordings 标签：#语音分离 #基准测试 #数据集 #音频理解 #Transformer 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 🔥 8.1/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #语音分离 | #基准测试 | #数据集 #音频理解 | arxiv 👥 作者与机构第一作者：王帅（南京大学）通讯作者：realtse.challenge@gmail.com（挑战赛公共邮箱）作者列表：王帅（南京大学）、钱子涵（南京大学）、柯张（香港中文大学（深圳））、韩江宇（布尔诺理工大学）、刘子楷（西北工业大学）、余晓阳（南京大学）、李浩宇（南京大学）、Marc Delcroix（NTT, Inc.）、余凯（上海交通大学）、谢磊（西北工业大学）、李明（香港中文大学（深圳））、李海洲（香港中文大学（深圳）） 💡 毒舌点评本文的核心贡献在于构建了一个评估维度更全面的TSE竞赛平台，并通过严谨的实验设计揭示了真实数据适配和多目标优化是比架构创新更关键的实际瓶颈。然而，其在赛后发现并更换官方评估指标（DNSMOS OVRL → P808）的行为，虽然体现了诚实，却暴露了其评估协议设计存在根本性脆弱点。一个对“指标攻击”抵抗力如此之弱的基准，其权威性和导向性令人存疑，它可能会鼓励社区为适应一个不稳定的评估器而进行“内卷式”优化，而非追求真正的感知质量提升。 ...

What does the model actually see? Evaluation protocols and input availability in data-driven prediction of room acoustic parameters

📄 What does the model actually see? Evaluation protocols and input availability in data-driven prediction of room acoustic parameters 标签：#音频质量评估 #模型评估 #基准测试 #可解释性 #音频理解 7.2/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.2/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #音频质量评估 | #模型评估 | #基准测试 #可解释性 | arxiv 👥 作者与机构第一作者与通讯作者：Akın Oktav 机构：Vibration and Acoustics Laboratory (VAL) & Department of Mechanical Engineering, Alanya Alaaddin Keykubat University, Antalya, Türkiye 💡 毒舌点评这篇论文堪称声学机器学习领域的一剂清醒剂，用严谨的因子化消融实验无情地揭露了此前文献中大量“高精度”报告的方法论漏洞——它们本质上是在回答一个被悄悄偷换了的、更简单的问题（条件插值），而非研究者声称的空间预测。其提出的协议分类框架和“部署一致”评估标准极具实践价值，足以引发该领域评估范式的反思与革新。但论文的局限性也同样明显：核心实验仅基于两个场馆的单一多条件测量，且评估的模型家族（RF、一个混合CNN、两个基线）相对简单，特别是混合CNN的复杂架构设计是为了验证特定协议，而非作为通用模型代表，这在一定程度上削弱了其结论的普遍性。它提出了正确的问题，但答案的范围仍受数据与模型的约束。 ...

语音/音乐/音频论文速递 2026-07-17

语音/音乐/音频论文速递 2026-07-17 共分析 15 篇论文 ⚡ 今日概览 📥 抓取 15 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐生成 3篇 ███ #多模态模型 2篇 ██ #语音合成 2篇 ██ #语音伪造检测 1篇 █ #语音分离 1篇 █ #音视频理解 1篇 █ #音视频生成 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜（15 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 Can Tokens Compete? Token Representations against Super 8.3分前25% 系统技术报告 #音频事件检测 🥈 SLT 2026 REAL-TSE Challenge: Real-world Target Speaker 8.1分前25% 系统技术报告 #语音分离 🥉 MIDI-RAE-JEPA: Hierarchical Representation Learning and 7.9分前25% 系统技术报告 #音乐生成 4. RW-Voice-EQ Bench: A Real World Benchmark for Evaluatin 7.9分前25% 数据集与基准 #语音合成 5. Dialogs: a studio-quality expressive conversational Rus 7.8分前25% 数据集与基准 #语音合成 6. WanSong v1.0 Technical Report 7.6分前25% 系统技术报告 #音乐生成 7. InCarEmo: A Multimodal Dataset for In-Cabin Emotion Rec 7.3分前50% 数据集与基准 #多模态模型 8. What does the model actually see? Evaluation protocols 7.2分前50% 方法研究 #音频质量评估 9. SceneBind: Binding What and Where Across Vision, Audio 6.6分前50% 方法研究 #音视频理解 10. ITGPT: A Transformer Based Architecture for the Generat 6.5分前50% 系统技术报告 #音乐生成 11. AlphaWiSE: Adaptive Weight Interpolation for Continual 6.4分前50% 方法研究 #音频检索 12. MultiRef-Compass: Towards Comprehensive Evaluation of M 6.3分前50% 数据集与基准 #音视频生成 13. Large Audio Language Models for Spoofing-Aware Speaker 6.2分前50% 方法研究 #语音伪造检测 14. Stop Thinking, Start Looking: Efficient Post-Training f 5.6分前50% 方法研究 #多模态模型 15. Video = World + Event Stream 4.9分后50% 系统技术报告 #音频理解 📋 论文列表 🥇 Can Tokens Compete? Token Representations against Supervised CNN Backbones for BirdCLEF+ 2026 8.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ...

Rethinking Speech Foundation Model Fine-tuning: Better SFT or Better Match?

📄 Rethinking Speech Foundation Model Fine-tuning: Better SFT or Better Match? 标签：#语音情感识别 #自监督学习 #语音识别 #说话人验证 #基准测试 6.7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.7/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音情感识别 | #自监督学习 | #语音识别 #说话人验证 | arxiv 👥 作者与机构第一作者：Wangjin Zhou（京都大学信息学研究科）通讯作者：未说明（论文中仅列出作者邮箱，未明确标注通讯作者）作者列表：Wangjin Zhou（京都大学信息学研究科）、Yizhou Zhang（未说明）、Yichi Wang（未说明）、Tatsuya Kawahara（京都大学信息学研究科） 💡 毒舌点评论文敏锐地捕捉到了语音SFT领域一个长期被忽视却至关重要的“房间里的大象”——预训练实例对微调结果的决定性影响，其提出的“容量激发”视角具有启发性。然而，其核心发现（SFT收益多为“激发匹配”而非“天花板提升”）主要建立在分类任务的经验观察之上，对于“激发”成功的机制、以及如何系统性地提高“激发匹配”成功率，未能提供更深入的理论或方法学洞见，使得其贡献更像是一份详尽的“问题诊断报告”，而非“解决方案”。 ...

语音/音乐/音频论文速递 2026-07-16

语音/音乐/音频论文速递 2026-07-16 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频理解 3篇 ███ #声源定位 2篇 ██ #音乐理解 2篇 ██ #音频分类 2篇 ██ #音频生成 2篇 ██ #语音情感识别 1篇 █ #语音翻译 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 AVSCap: Orchestrating Audio-Visual Synergy for Omni-mod 9.2分前10% 方法研究 #音视频理解 🥈 MetaPerch: Learning from metadata for bioacoustics foun 9.0分前10% 方法研究 #音频分类 🥉 Auditing Protocol-Level Shortcuts in Large Audio Langua 8.2分前25% 系统技术报告 #语音质量评估 4. Self-supervised Speech Comparison for L2 Phone, Rhythm, 7.7分前25% 方法研究 #音频理解 5. Efficient Text-to-Audio Generation via Pruning 7.6分前25% 方法研究 #音频生成 6. From Prediction to Collaboration: Interactive Symbolic 7.5分前25% 系统技术报告 #音乐理解 7. Live Gurbani Tracking: A Benchmark and Reference System 7.4分前50% 系统技术报告 #音频字幕生成 8. Music-to-Dance Generation via Atomic Movements 7.4分前50% 方法研究 #音乐生成 9. Improving Text-to-Audio Instruction Following via Fine- 7.2分前50% 方法研究 #音频生成 10. Cover First, Disagree Softly: Rethinking Mismatch-First 6.7分前50% 方法研究 #音频事件检测 11. Rethinking Speech Foundation Model Fine-tuning: Better 6.7分前50% 方法研究 #语音情感识别 12. VIP-MINGLE: A Corpus for Videoconference and In-Person 6.5分前50% 数据集与基准 #音频理解 13. A Hybrid Mamba for Audio-Visual Navigation 6.3分前50% 方法研究 #声源定位 14. Greedy Volume Maximization of Gradient Embeddings for L 6.3分前50% 方法研究 #音频分类 15. From Continuous Deployment to Queryable Dataset: Teraby 6.1分前50% 系统技术报告 #音频理解 16. Adapting a Diffusion-Based Music Synthesis Model to Hum 6.0分前50% 方法研究 #语音转换 17. Genre Bias or Aesthetic Perception? Identifying and Mit 6.0分前50% 方法研究 #音乐理解 18. Do LLMs Need Architectural Changes for Simultaneous Spe 5.7分前50% 方法研究 #语音翻译 19. Bring Music The Horizon: Music-Driven 360\(^\circ\) Video 5.3分后50% 系统技术报告 #音视频生成 20. Task-Oriented Sensing and Covert Transmissions for Coll 4.9分后50% 方法研究 #声源定位 📋 论文列表 🥇 AVSCap: Orchestrating Audio-Visual Synergy for Omni-modal Video Captioning 9.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ...

ChartGenEval: Corruption-Tested Multi-Dimensional Feedback for Rhythm-Game Chart Generation

📄 ChartGenEval: Corruption-Tested Multi-Dimensional Feedback for Rhythm-Game Chart Generation 标签：#音乐生成 #模型评估 #基准测试 #开源工具 #游戏音频 8.8/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.8/10 | 前25% | 文档类型：方法研究 | 评分置信度：高 | #音乐生成 | #模型评估 | #基准测试 #开源工具 | arxiv 👥 作者与机构第一作者：Jhen-Ke Lin（National Yang Ming Chiao Tung University）通讯作者：Jhen-Ke Lin（National Yang Ming Chiao Tung University，邮箱：jacob.cs14@nycu.edu.tw）作者列表：Jhen-Ke Lin（National Yang Ming Chiao Tung University） 💡 毒舌点评这篇论文在方法论层面做出了扎实贡献：它摒弃了用单一参考序列或未经检验的代理指标来评估图表生成的粗糙做法，转而系统性地提出并验证了一个多维度、角色分离的评估框架。其“控制性损坏”测试范式尤为出色，像给评估指标做压力测试，精准暴露了“全局时间偏移”和“代理指标错位”这两个关键盲点，为评估方法论提供了宝贵的反面教材和验证范式。然而，其核心评估维度（六个问题、校准带、损坏操作）完全是为“太鼓达人”这类特定节奏游戏图表量身定做的，评估框架本身深度嵌入该子领域。因此，尽管其揭示的“需要外部音乐时间锚”和“代理指标可能激励错误方向”等方法论教训具有普适警示意义，但其直接贡献的评估工具对更广泛的音乐或音频生成研究者而言，可迁移性和实用性有限，影响力也因此受限。 ...

Contrasting statistical patterns in melodic and molecular evolution reveal distinctive constraints in a culturally evolving system

📄 Contrasting statistical patterns in melodic and molecular evolution reveal distinctive constraints in a culturally evolving system 标签：#音乐理解 #基准测试 #音频理解 #Transformer #模型评估 8.7/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.3/0.5 | 工程 1/1.5 🔥 8.7/10 | 前25% | 文档类型：方法研究 | 评分置信度：高 | #音乐理解 | #基准测试 | #音频理解 #Transformer | arxiv 👥 作者与机构第一作者：John M McBride (University of Vienna, Department of Behavioral and Cognitive Biology) 通讯作者：John M McBride (University of Vienna, Department of Behavioral and Cognitive Biology), W Tecumseh Fitch (University of Vienna, Department of Behavioral and Cognitive Biology) 作者列表：John M McBride, W Tecumseh Fitch 💡 毒舌点评论文敏锐地抓住了旋律序列分析中“节奏”这一被生物信息学标准方法忽略的关键维度，并提出了一个有效（尽管有严格约束）的解决方案。这是首次将经典生物信息学分析框架系统性地迁移到一个全新的、具有文化进化特性的序列数据上，并发现了与之截然不同的统计规律，这一跨学科方法论迁移具有启发性。然而，其核心分析依赖于爱尔兰舞曲这一高度结构化、节奏严格的传统，方法的通用性受限。对于节奏自由、句长灵活的音乐（如民谣、即兴音乐），该方法无法直接应用。结论的普适性仍需更多跨传统验证，整体上是一篇扎实但领域相对专精的“小而美”工作。 ...

语音/音乐/音频论文速递 2026-07-15

语音/音乐/音频论文速递 2026-07-15 共分析 25 篇论文 ⚡ 今日概览 📥 抓取 25 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐理解 3篇 ███ #声源定位 2篇 ██ #语音伪造检测 2篇 ██ #语音合成 2篇 ██ #语音增强 2篇 ██ #语音识别 2篇 ██ #说话人日志 2篇 ██ #音频事件检测 2篇 ██ 📊 论文评分排行榜（25 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 ChartGenEval: Corruption-Tested Multi-Dimensional Feedb 8.8分前25% 方法研究 #音乐生成 🥈 Contrasting statistical patterns in melodic and molecul 8.7分前25% 方法研究 #音乐理解 🥉 Open-Source Intelligence and Music Information Retrieva 7.9分前25% 应用研究 #音乐理解 4. HSEmotion Team at the 11th ABAW Challenge: Multi-Task L 7.9分前25% 系统技术报告 #音视频 5. Low-Latency Neural Models for Real-Time Music Enhanceme 7.7分前25% 系统技术报告 #音乐源分离 6. Do We Really Need Multimodal Emotion Language Models La 7.4分前50% 方法研究 #语音情感识别 7. ZipL-Dialog: Memory-Efficient Long-Form Spoken Dialog S 7.3分前50% 系统技术报告 #语音合成 8. The Sound of Absence: Audio-Language Embedding Models S 7.1分前50% 系统技术报告 #音频检索 9. Real-time Generation of Listener Nodding via Prediction 6.9分前50% 方法研究 #语音交互 10. Spatial-Frequency Cued Generative Fixed-Filter Active N 6.9分前50% 方法研究 #声源定位 11. UD-ASD: A Unified Diffusion Model for Anomalous Sound D 6.6分前50% 方法研究 #音频事件检测 12. Investigating the Integration of Spatial Information in 6.6分前50% 方法研究 #说话人日志 13. Segregate, Refine, Integrate: Decomposing Multimodal Fu 6.5分前50% 方法研究 #音频事件检测 14. AutoSIFT: Automatic Style Sifting for Controllable Spee 6.5分前50% 方法研究 #语音合成 15. Listen first: Output-based multi-microphone speech enha 6.4分前50% 方法研究 #语音增强 16. Neural Morphing: Sequence-Optimized Token-Level Morphin 6.4分前50% 系统技术报告 #音频编码 17. Hybrid Continual Learning for Low-Resource Australian A 6.3分前50% 方法研究 #语音识别 18. Explainable-by-Design Audio Deepfake Detection via Wien 6.1分前50% 方法研究 #语音伪造检测 19. Traceback Translators Against Forgetting in Continual F 6.0分前50% 方法研究 #语音伪造检测 20. Automated Synthesis of Facial Mechanisms for Conversati 5.9分前50% 系统技术报告 #音频理解 21. PolarBM: Complex-valued Boltzmann Machine for Modeling 5.8分前50% 方法研究 #语音增强 22. Audio-Native Speech Recognition with a Frozen Discrete- 5.7分前50% 方法研究 #语音识别 23. What is a Musical Scale? Regularity and Convention in t 5.6分前50% 理论研究 #音乐理解 24. DOA Estimation from One-Bit Magnitude-Only Measurements 5.1分后50% 方法研究 #声源定位 25. Audio Diarization: A New Paradigm for Exploring Audio R 4.5分后50% 方法研究 #说话人日志 📋 论文列表 🥇 ChartGenEval: Corruption-Tested Multi-Dimensional Feedback for Rhythm-Game Chart Generation 8.8/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

An Objective Intelligibility Metric Evaluation on Spanish Speech

📄 An Objective Intelligibility Metric Evaluation on Spanish Speech 标签：#语音质量评估 #模型评估 #基准测试 #数据集 #多语言 6.2/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.1/0.5 | 工程 0.5/1.5 ✅ 6.2/10 | 前50% | 文档类型：数据集与基准 | 评分置信度：高 | #语音质量评估 | #模型评估 | #基准测试 #数据集 | arxiv 👥 作者与机构第一作者：Iván López-Espejo（格拉纳达大学信号理论、电信与通信系）通讯作者：Jesper Jensen（奥胡斯大学电子系统系；Oticon A/S公司）作者列表：Iván López-Espejo（格拉纳达大学信号理论、电信与通信系）、Jesper Jensen（奥胡斯大学电子系统系；Oticon A/S公司） 💡 毒舌点评论文的核心价值在于其作为社区资源的数据集贡献（SpInt），而非方法论或理论创新。它填补了西班牙语清晰度评估基准的空白，但实验设计（单一噪声、有限参与者）的局限性使其结论——无参考指标因语言失配性能下降——显得更像是一个对已知问题的确认，而非深刻的新见解。对于一个旨在“建立基准”的工作，其评估的广度（噪声类型、增强系统多样性）和深度（失败模式分析）略显不足。 📌 核心摘要本文旨在解决语音清晰度客观评估在西班牙语上缺乏基准和系统评估的问题。作者构建了一个名为SpInt的新西班牙语语音清晰度数据集，并在此数据集上系统评估了七种客观清晰度指标（OIMs），包括五种基于参考的传统指标（STOI, ESTOI, STGI, HASPI, SIIB）和两种基于深度学习的无参考指标（MOSA-Net+, W2V-SIP）。与已有方法相比，本文首次对这些指标在西班牙语上的表现进行了比较，重点考察了训练-测试语言不匹配（所有指标均未使用西班牙语数据开发）对无参考指标性能的影响。实验结果表明，基于参考的指标总体表现更优，在Spearman秩相关系数上最高达到0.97（SIIB），而无参考指标（如MOSA-Net+为0.84）在语言不匹配条件下性能明显下降。本文的实际意义在于发布了一个公开的西班牙语清晰度数据集，为开发更鲁棒、通用的无参考指标提供了资源。主要局限性在于评估仅使用了一种噪声类型和有限数量的参与者（26人），可能限制了结论的普适性。 ...

ECHOv2: Two-Level Band-Splitting Representation Learning for Anomalous Sound Detection

📄 ECHOv2: Two-Level Band-Splitting Representation Learning for Anomalous Sound Detection 标签：#音频事件检测 #自监督学习 #工业应用 #基准测试 #音频理解 8.2/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.3/0.5 | 工程 1/1.5 🔥 8.2/10 | 前25% | 文档类型：方法研究 | 评分置信度：高 | #音频事件检测 | #自监督学习 | #工业应用 #基准测试 | arxiv 👥 作者与机构第一作者：Yucong Zhang（武汉大学计算机科学学院、中国香港中文大学（深圳）人工智能学院）通讯作者：Juan Liu（武汉大学人工智能学院、武汉大学计算机科学学院）、Ming Li（中国香港中文大学（深圳）人工智能学院、武汉大学人工智能学院）作者列表：Yucong Zhang（武汉大学计算机科学学院、中国香港中文大学（深圳）人工智能学院）、Juan Liu（武汉大学人工智能学院、武汉大学计算机科学学院）、Ming Li（中国香港中文大学（深圳）人工智能学院、武汉大学人工智能学院） 💡 毒舌点评论文在ECHO这一成熟的频带分割框架内，通过引入结构化的跨频带自监督信号（多摘要标记、掩码重建、上下文对齐）实现了有效的性能提升，并建立了一个覆盖多年的标准化评估基准，为领域提供了可复用的工具。然而，其核心架构（共享频带编码器、频带分割流程）与ECHO相比并未发生本质改变，改进主要体现在训练时的监督信号设计上。所有实验仅局限于DCASE系列数据集，缺乏对更多样化工业场景的验证，改进的边际收益是否足以支撑一个新版本的发布值得商榷。此外，论文对ECHOv2相比ECHO在训练开销上的增加（频带间分支和摘要标记）只字未提，削弱了其工程价值的全面性。 ...