基准测试 | 语音/音乐/音频论文速递

Doppelganger: Sound Effects and Their Synthetic Twins

📄 Doppelganger: Sound Effects and Their Synthetic Twins #音频检索 #对比学习 #基准测试 #数据集 #语音合成 9.1/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 9.1/10 | 前10% | #音频检索 | #对比学习 | #基准测试 #数据集 | arxiv 👥 作者与机构第一作者：Elliott Ash（ETH Zürich）通讯作者：未说明作者列表：Elliott Ash（ETH Zürich） 💡 毒舌点评这篇论文以优雅的框架，用简洁的对比学习头设计，强行把“渲染不变性”这个模糊概念按在实验台上做了精准的解剖，漂亮地揭示了“实例对应可以泛化，类别不变性反而退化”的背离现象。实验设计堪称模板，多编码器验证、留类协议和消融实验都做得滴水不漏。但论文的命门在于，它发现的“法则”极其严格地绑定在特定的音频条件生成器家族上，一旦跨出这个舒适区就瞬间失效，这无情地限制了其结论的通用性和实际应用半径；核心发现虽具备洞察力，但“类监督过拟合分类体系”这件事本身，在领域泛化社区并不算石破天惊。 📌 核心摘要本文提出 Doppelganger 基准，旨在衡量音频表示能否跨合成‑真实边界，将一个音频条件生成的合成音效精准匹配回用以生成它的唯一真实录音（实例级检索）。基准包含一个受控的7类语料库（DCASE-T7）和一个大规模、实例配对的34类语料库（UCS），后者包含10,420个真实‑合成孪生对。方法上，核心是在多种冻结的预训练音频编码器上附加小型MLP头，通过仅改变对比学习正样本对的定义，训练出三种重塑嵌入空间的“头”：不变头、敏感头、实例头。实例头仅以“一个片段及其合成孪生”为正样本对，抛弃类别标签。关键发现是一个清晰的背离：在未见声音事件上，实例头在全真实库中检索到正确孪生的R@1高达0.800，远超冻结基线（0.611），而用类别标签训练的监督不变头反而使性能降至0.269，低于冻结基线，且该现象在六种不同预训练范式的编码器上均成立。同时，与不变头镜像的敏感头可完美分离特定生成器的输出与真实录音（AUC 1.0），但这种分离是生成器特定的，无法跨家族迁移。人类基线实验表明，人类区分真实录音与其合成孪生的准确率仅为71.3%，检索源录音的准确率为82.3%，均低于模型表现。该基准可用于跨域检索、数据集去重、按片段审计生成器保真度等。 ...

SPEARBench: A Benchmark for Naturalness Evaluation in Streaming Speech-to-Speech Language Models

📄 SPEARBench: A Benchmark for Naturalness Evaluation in Streaming Speech-to-Speech Language Models #语音交互 #大语言模型 #基准测试 #流式处理 #模型评估 8.9/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 🔥 8.9/10 | 前25% | #语音交互 | #大语言模型 | #基准测试 #流式处理 | arxiv 👥 作者与机构第一作者：Thomas Thebaud（单位未明确说明，论文为匿名提交至 IEEE SLT 2026）通讯作者：未说明作者列表： Thomas Thebaud（未说明）、Yuzhe Wang（未说明）、Hao Zhang（未说明）、Sathvik Manikantan Napa Ugandhar（未说明）、Ashish Hallur（未说明）、Georgi Tinchev（未说明）、Venkatesh Ravichandran（未说明）、Laureano Moro-Velazquez（未说明） 💡 毒舌点评这项工作的亮点在于，它首次将打断、方言跟随、情感关联、人际立场等高度离散的社会性对话维度塞进了一个可统一运行的自动化 Benchmark 里，并且数据、代码、排行榜网站全开源，对 S2S 模型的工程迭代确实有"开箱即用"的推进作用。但毒舌地说，这本质上是一个工程集成项目，所有评估器都是拿来即用的现成模型，缺乏对复合评估偏差、评估器自身错误在 Benchmark 中的影响分析，使得分数的解释力在严格学术意义上打了折扣；同时仅用英文双人问答场景，就冠以"通用对话自然度"的名号，结论的泛化性存疑。 ...

SynSFX: Multi-Model Sound Effects Synthesis Dataset for Deepfake Detection and Evaluation

📄 SynSFX: Multi-Model Sound Effects Synthesis Dataset for Deepfake Detection and Evaluation #音频伪造检测 #基准测试 #数据集 #迁移学习 #领域适应 6.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.6/1 | 影响 0.8/1.5 | 开源 0.8/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.5/10 | 前50% | #音频伪造检测 | #迁移学习 | #基准测试 #数据集 | arxiv 👥 作者与机构第一作者：Linxi Li（University of Warwick, WMG）、Yuncong Yu（机构未说明，标记为同等贡献）通讯作者：未说明作者列表：Linxi Li（University of Warwick, WMG）、Yuncong Yu（机构未说明）、Qianwei Guo（机构未说明）、Liwei Jin（机构未说明）、Yechen Wang（机构未说明）、Carsten Maple（University of Warwick, WMG） 💡 毒舌点评这篇论文的贡献清晰但格局有限。作为一个基准数据集工作，SynSFX通过"共享提示词子集"为理解生成器artifact提供了一个精妙的诊断工具，其实验有力地揭露了现有检测器学到的只是"生成器指纹"而非"伪造痕迹"这一尴尬现实。然而，作为一篇顶会投稿，其定位略显尴尬。它既缺乏与新近数据集（如CompSpoofV2）在统一基准上的横向PK来确立自身压倒性优势，又完全没有提出任何新的检测方法或算法框架来尝试解决它自己所揭示的难题。这使得整篇论文更像一份深入且严谨的"问题陈述报告"，而非一个完整的、有破有立的解决方案。这项工作是扎实且有洞察力的，但它的贡献边界非常清晰，距离方法论的突破尚有一步之遥。 ...

语音/音乐/音频论文速递 2026-07-07

语音/音乐/音频论文速递 2026-07-07 共分析 58 篇论文 ⚡ 今日概览 📥 抓取 58 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 11篇 ███████████ #语音伪造检测 5篇 █████ #音频理解 4篇 ████ #语音交互 3篇 ███ #音频事件检测 3篇 ███ #语音转换 3篇 ███ #音视频理解 3篇 ███ #语音合成 3篇 ███ 📊 论文评分排行榜（58 篇，按分数降序）排名论文总分分档主任务 🥇 Doppelganger: Sound Effects and Their Synthetic Twins 9.1分前10% #音频检索 🥈 SPEARBench: A Benchmark for Naturalness Evaluation in S 8.9分前25% #语音交互 🥉 Metronome: Bound the Cache, Keep the Beat for Real-Time 8.7分前25% #语音交互 4. Auto-AEG: Scalable Data Construction for Open-Vocabular 8.3分前25% #音频事件检测 5. RABBiT: Rapidly adaptive BOLD foundation model via brai 8.1分前25% #音频理解 6. TRACE-EVC: Text-Guided Relative Affective Control for Z 8.0分前25% #语音转换 7. Parallelized Autoregressive Decoding for Omni-Modal Den 8.0分前25% #音视频理解 8. Speaker-Disentangled Chunk-Wise Regression for Syllabic 7.9分前25% #语音编码 9. Speaker-Aware Temporal Aggregation Strategies on Segmen 7.9分前25% #语音属性识别 10. REDDIT: Correcting Model-Generated Timestamp Drift in A 7.8分前25% #语音识别 11. Deriving Benchmarking Datasets from Long-Form Recording 7.7分前25% #基准测试 12. ProPS: Prompted Profile Synthesis for Natural Language- 7.6分前25% #语音合成 13. DELTA-TTS: Adapting Autoregressive Model into Diffusion 7.5分前25% #语音合成 14. TokAN: Accent Normalization Using Self-Supervised Speec 7.5分前25% #语音转换 15. Listen, Think, Transcribe: Continuous Latent Test-Time 7.5分前25% #语音识别 16. \(C^3\)ASD: Multi-Level Consistency-Driven Representation 7.5分前25% #音视频理解 17. Training-Free Model Selection and Domain-Aware Score Ca 7.3分前50% #音频事件检测 18. CHILDES-Aligned: A Curated Children's Speech Datase 7.2分前50% #语音识别 19. Taste-aware music retrieval from audio embeddings 6.9分前50% #音乐检索 20. Lights, Camera, Carbon: Architectural Scaling Laws for 6.9分前50% #音视频生成 21. Unified Audio Intelligence Without Regressing on Text I 6.8分前50% #音频交互 22. Ranking the Impact of Contextual Specialization in Neur 6.7分前50% #语音增强 23. SynSFX: Multi-Model Sound Effects Synthesis Dataset for 6.5分前50% #音频伪造检测 24. Evaluating the Effect of Linguistic Relatedness on Cros 6.5分前50% #语音识别 25. MOSAIC: Interpretable Multi-Token Cross-Attention of Bi 6.3分前50% #语音伪造检测 26. CARD: Cross-component Audio Representation Distillation 6.3分前50% #音频字幕生成 27. Probing Low-Level Acoustic Attribute Encoding in CLAP A 6.2分前50% #音频理解 28. Trajectory Variance: AnUnsupervised Measure of Developm 6.2分前50% #音频理解 29. Adaptive Diversity-Uncertainty Active Learning with Red 6.2分前50% #音频事件检测 30. Adaptive Loss Balancing for Multi-Task Bioacoustic Clas 6.1分前50% #音频分类 31. An Intervention-Based Framework for Shortcut Diagnosis 6.1分前50% #语音伪造检测 32. QuaSR: Quality-Aware Sample Reweighting for Pacific Ind 6.0分前50% #语音识别 33. CaReCoS: A Spectrogram based Visual Benchmark for Cardi 6.0分前50% #音频理解 34. Open-Set Source Tracing as Compositional Factors via St 6.0分前50% #语音伪造检测 35. Context-Aware ASR for Mandarin Technical Lectures 6.0分前50% #语音识别 36. Streaming Neural Speech Codecs through Time-Invariant R 6.0分前50% #语音编码 37. Physiological Noise Augmentation Improves Non-Invasive 6.0分前50% #语音识别 38. DuplexChat: Constructing Speaker-Separated Full-Duplex 5.9分前50% #语音交互 39. Noisy Environment Adaptation of Neural Speech Codec via 5.9分前50% #语音增强 40. NouveauVoice: Generating Novel Pseudo Speakers for Voic 5.9分前50% #语音转换 41. OmniFocus: Query-Guided Modality-Balanced Token Compres 5.9分前50% #音视频问答 42. Jointly Improving Dialect Identification and ASR in Ind 5.8分前50% #语音识别 43. S-DiverSe: Spanish Diverse Speech 5.8分前50% #语音识别 44. Towards Robust Uncertainty-Aware Speaker Modeling 5.7分前50% #说话人验证 45. Towards Language-Agnostic Speech Inversion 5.6分前50% #语音属性识别 46. Layer-wise Cross-Lingual Depression Detection from Spee 5.5分前50% #语音情感识别 47. Wan-Streamer v0.2: Higher Resolution, Same Latency 5.4分后50% #音视频交互 48. Mixture-Constrained Max Pooling Improves Separation-Bas 5.3分后50% #音频分类 49. Reinforcement Learning for Data-Efficient Code-Switched 5.3分后50% #语音识别 50. Physics-Informed Direction-of-Arrival Estimation Over D 5.3分后50% #声源定位 51. Sampling Bias Compensation for Robust Evaluation of Aud 4.9分后50% #音频分类 52. UniSkip-Mamba: A Frequency-Aware State Space Model for 4.8分后50% #音视频理解 53. Progressive Refinement: An Iterative Pseudo-Labeling Ap 4.6分后50% #语音识别 54. Weakly Guided and Autoregressive Beamformer Parameteriz 4.3分后50% #语音分离 55. DETECT-3B-Omni is Agnostic of Content and Demographics 4.2分后50% #语音伪造检测 56. Towards Digital Preservation of Efik: TTS for a Low-Res 4.0分后50% #语音合成 57. Quantum-Inspired Harmonic Decision Models: A Computatio 2.3分后50% #音乐生成 58. Information-Geometric Superposed Vowel Evaluation: Part 1.9分后50% #语音伪造检测 📋 论文列表 🥇 Doppelganger: Sound Effects and Their Synthetic Twins 9.1/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ...

-Voice: Benchmarking Full-Duplex Voice Agents on Real-World Domains

📄 \(\tau\)-Voice: Benchmarking Full-Duplex Voice Agents on Real-World Domains #语音交互 #基准测试 #语音大模型 #模型比较 9.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1.4/1.5 🔥 9.1/10 | 前10% | #语音交互 | #语音大模型 | #基准测试 #模型比较 | arxiv 👥 作者与机构第一作者：Soham Ray（Sierra.ai, USA）通讯作者：Victor Barres（Sierra.ai, USA; 另外 Soham Ray、Keshav Dhandhania 亦列通讯）作者列表：Soham Ray（Sierra.ai, USA）、Keshav Dhandhania（Sierra.ai, USA）、Victor Barres（Sierra.ai, USA）、Karthik Narasimhan（Princeton University, USA） 💡 毒舌点评这是一个填补空白的有力基准工作，巧妙地将对话动态测量与硬核任务完成揉在一起，提出的离时钟时间解耦框架虽不惊天动地，但工程上有可贵的可控性。然而论文对语音生成质量本身不评估，且用TTS模拟真实口音的说服力打折扣，实验仅英文、集中三大闭源模型也限制了结论的泛化性。好在小众但尖锐的声学消融实验给无障碍评估敲了警钟。 ...

AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs

📄 AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs #音视频理解 #多模态模型 #基准测试 7.6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.6/10 | 前25% | #音视频理解 | #多模态模型 | #基准测试 | arxiv 👥 作者与机构第一作者：Yaoting Wang（复旦大学大数据学院）通讯作者：Henghui Ding（复旦大学大数据学院）作者列表：Yaoting Wang（复旦大学大数据学院）、Ziyi Zhang（华中科技大学）、Wenming Tu（上海交通大学）、Shaoxuan Xu（中国人民大学）、Wenjie Du（南洋理工大学）、Cheng Liang（上海交通大学）、Weijun Wang（清华大学智能产业研究院(AIR)）、Yuanchao Li（爱丁堡大学）、Guangyao Li（清华大学）、Hao Fei（牛津大学）、Yuanchun Li（清华大学智能产业研究院(AIR)）、Henghui Ding（复旦大学大数据学院）、Yunxin Liu（清华大学智能产业研究院(AIR)） 💡 毒舌点评这篇论文野心勃勃地构建了一个认知启发的音视频智能评测基准，四层分类法试图用精巧的数学公式来量化“类人”智能。然而，这套公式的惩罚系数（α=0.5）选择得相当随意，其理论或实证根据约等于零，更像是为了给一个朴素的直觉套上学术外衣。论文声称追求“类人”智能，却将与人类表现的巨大差距简单归因于模型能力不足，而对基准任务本身可能存在的、未对齐人类能力评估的深层问题避而不谈，这无疑是一种自我实现的预言。 ...

BFCL Audio: An Audio Function Calling Evaluation for Large Language Models

📄 BFCL Audio: An Audio Function Calling Evaluation for Large Language Models #基准测试 #语音交互 #多模态模型 #模型比较 7.7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.7/10 | 前25% | #语音交互 | #多模态模型 | #基准测试 #模型比较 | arxiv 👥 作者与机构第一作者：Huanzhi Mao（University of California, Berkeley）通讯作者：Huanzhi Mao（University of California, Berkeley）作者列表：Huanzhi Mao（University of California, Berkeley）、Aditya Ghai（University of California, Berkeley）、Imra Dawoodani（University of California, Berkeley）、Tony A Ginart（Salesforce AI Research）、Shishir G Patil（University of California, Berkeley）、John Emmons（Salesforce AI Research）、Joseph E. Gonzalez（University of California, Berkeley） 💡 毒舌点评首次系统评估音频function calling，其可控合成管道和无需LLM裁判的自动评分机制，为语音Agent的鲁棒性问题提供了清晰的归因分析。但工作本质上仍是现有BFCL基准向语音模态的延伸，且完全依赖合成数据，在真实场景的生态效度和结论的泛化性上存在硬伤。 ...

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

📄 CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction #音乐生成 #基准测试 #数据集 #参数高效微调 6.4/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.3/1.5 | 复现 0.2/0.5 | 工程 0.7/1.5 ✅ 6.4/10 | 前50% | #音乐生成 | #参数高效微调 | #基准测试 #数据集 | arxiv 👥 作者与机构第一作者：Yinghao Ma (Queen Mary University of London) 和 Haiwen Xia (Peking University) 为同等贡献通讯作者：Yinghao Ma (yinghao.ma@qmul.ac.uk), Emmanouil Benetos (emmanouil.benetos@qmul.ac.uk) 作者列表：Yinghao Ma (Queen Mary University of London), Haiwen Xia (Peking University), Hewei Gao (Technical University of Munich; Technical University of Denmark), Weixiong Chen (Queen Mary University of London), Yuxin Ye (Beijing University of Post and Telecommunications), Yuchen Yang (Soochow University), Sungkyun Chang (Queen Mary University of London), Mingshuo Ding (Peking University), Yizhi Li (University of Manchester), Ruibin Yuan (Hong Kong University of Science and Technology), Simon Dixon (Queen Mary University of London), Emmanouil Benetos (Queen Mary University of London) 💡 毒舌点评论文构建了一套相对完整的音乐RM评估体系，数据规模可观，基准设计用心。但方法本质上是双塔+Transformer融合范式的领域迁移，创新性有限；代码、模型和数据集均只给出一纸声明而无具体链接，开源态度令人失望；对单一预训练编码器的强绑定使得RM的上限被锁死，歌词与跨模态理解能力仍是硬伤。 ...

E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs

📄 E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs #音视频问答 #基准测试 #多模态模型 #强化学习 6.9/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.5/1 | 影响 0.4/1.5 | 开源 0.8/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 ✅ 6.9/10 | 前50% | #音视频问答 | #强化学习 | #基准测试 #多模态模型 | arxiv 👥 作者与机构第一作者：Xianjie Liu（阿里巴巴淘宝天猫集团阿里妈妈技术部，实习期间完成此项工作）通讯作者：Yiman Hu（阿里巴巴淘宝天猫集团阿里妈妈技术部, 项目负责人）、Liang Wu（阿里巴巴淘宝天猫集团阿里妈妈技术部）、Jian Xu（阿里巴巴淘宝天猫集团阿里妈妈技术部）、Bo Zheng（阿里巴巴淘宝天猫集团阿里妈妈技术部）作者列表： Xianjie Liu（阿里巴巴淘宝天猫集团阿里妈妈技术部） Yiman Hu（阿里巴巴淘宝天猫集团阿里妈妈技术部） Liang Wu（阿里巴巴淘宝天猫集团阿里妈妈技术部） Ping Hu（Vin University，未说明具体学院/实验室） Yixiong Zou（华中科技大学，未说明具体学院/实验室） Jian Xu（阿里巴巴淘宝天猫集团阿里妈妈技术部） Bo Zheng（阿里巴巴淘宝天猫集团阿里妈妈技术部） 💡 毒舌点评这篇论文精准切入了一个被顶会圈子长期忽视、却蕴藏巨大商业价值的领域——电商短视频理解。其提出的多模态密度评估框架是整个工作的点睛之笔，为“这任务为什么难”提供了量化的、有说服力的证据。然而，如果说方法部分展现的是专业团队的水准，那么论文呈现的排版质量则近乎草稿级别：严重的文本渲染错乱和表格乱码问题，贯穿全文，这不仅严重损害了专业形象，也让人怀疑作者对细节的态度。更关键的是，对于音频领域的读者而言，本文对语音信号的处理极其“粗暴”——将丰富的人类语言表达（韵律、情感、强调）简化为一串被计数的词汇，这与现代语音/副语言分析的前沿水平存在显著断层。 ...

FakeWorld 1.0: An Omni-modal Benchmark for Fake Media and Content

📄 FakeWorld 1.0: An Omni-modal Benchmark for Fake Media and Content #可解释性 #基准测试 #多模态模型 6.1/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.7/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.1/1.5 ✅ 6.1/10 | 前50% | #可解释性 | #多模态模型 | #基准测试 | arxiv 👥 作者与机构第一作者：Yifeng Gao（复旦大学）通讯作者：Xingjun Ma（复旦大学）作者列表：Yifeng Gao（复旦大学）、Yifan Ding（复旦大学，阿里巴巴集团）、Li Wang（复旦大学）、Feida Huang（复旦大学）、Ye Sun（复旦大学）、Yixu Wang（复旦大学）、Xin Wang（复旦大学）、Yutao Wu（迪肯大学）、Hanxun Huang（墨尔本大学）、Yunhao Feng（复旦大学，阿里巴巴集团）、Yingshui Tan（阿里巴巴集团）、Xingjun Ma（复旦大学）、Yu-Gang Jiang（复旦大学） 💡 毒舌点评论文将一个极具野心的“媒体真伪”与“内容虚实”交叉评估理念推向了全模态，构建了一个高保真的混合欺骗场景，其问题定义令人眼前一亮。然而，在解决方案上却显得有点“虎头蛇尾”。核心的OmniCheck框架将检测重任押注于一个基于Qwen2.5-Omni-3B的LoRA微调小模型，这好比用精巧的锁扣去守护一扇纸糊的门。诚然，模型小、跑得快，但与它要评估的那些动辄上百亿参数的前沿大模型相比，其检测能力的理论上限令人存疑，且全文对数据、代码与模型的开源情况讳莫如深，对于一篇以Benchmark为核心贡献的论文而言，这无疑是一个显著的减分项。 ...