Assessing True Generalisability of Audio-Visual Speech Recognisers

📄 Assessing True Generalisability of Audio-Visual Speech Recognisers #语音识别 #自监督学习 #多模态模型 #基准测试 9.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.5/10 | 前10% | #语音识别 | #自监督学习 | #多模态模型 #基准测试 | arxiv 👥 作者与机构 作者:Zhaofeng Lin, Stavros Petridis, Maja Pantic, Naomi Harte 机构:1 Trinity College Dublin, Ireland;2 Imperial College London, UK 💡 毒舌点评 这篇论文根本不是在发明一个“更好”的AVSR模型,而是在无情地揭露当前AVSR领域集体自嗨的泡沫。它本质上是一篇“基准测评”论文,却起到了比很多模型创新论文更重要的作用——戳穿了LRS3基准带来的虚假繁荣。它的核心贡献是“破”而非“立”,但这种“破”恰恰是领域健康发展所急需的。作者通过近乎偏执的严谨方法(构建严格分布匹配的MV2LRS3集),得出了一个令人尴尬的结论:我们引以为傲的AVSR模型,在离开精心维护的LRS3温室后,表现得一塌糊涂。多模态融合不仅没帮忙,反而成了拖累。最讽刺的是,论文名为“评估真实泛化能力”,但其结论反而揭示了“泛化”这个概念本身在当前AVSR研究中可能被过度推广和误用。这篇论文应该被每一个致力于提升AVSR性能的研究者放在案头,用来审视自己工作的实际意义,而不是仅仅在LRS3刷榜。 ...

2026-06-08 · 更新于 2026-06-12 · 3 min · 480 words

MMAE: A Massive Multitask Audio Editing Benchmark

📄 MMAE: A Massive Multitask Audio Editing Benchmark #语音编辑 #多任务学习 #基准测试 7.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前50% | #语音编辑 | #多任务学习 | #基准测试 | arxiv 👥 作者与机构 论文作者众多,包括Ziyang Ma, Ruiqi Yan, Ruiyang Xu等30余人。论文未明确说明所有作者的具体所属机构。 💡 毒舌点评 这篇论文的工作定位有点尴尬。作为一个“Benchmark”论文,它自称是“首个全面的评估测试台”,但问题在于:1. 它只提出了一个数据集和一个评估框架,并没有提出新的模型或算法。这本质上是一篇“资源论文”,而非“方法论文”,在顶会上通常处于竞争劣势。2. 从给出的实验结果看(EMR<5%,复杂任务为0%),它更像是一份给现有模型判了“死刑”的诊断报告,但报告本身并未提供“治病”的方法。3. 论文最大的价值在于定义了问题空间(7种模态、6级复杂度、8种操作)和评估标准,但这种分类工作是否具备足够的洞察力和普适性,值得怀疑。它更像是一个庞大的工程分类清单,而非深刻的科学发现。4. 论文声称解决了“评估基础设施滞后”的问题,但评估框架(基于rubric分解为17,741个标准)的具体设计、验证过程和有效性论证在摘要中完全缺失,使得其核心贡献的可靠性存疑。5. “人机协作”构建数据集的具体流程未说明,是让人标注还是用模型生成后校对?这直接影响数据质量。总的来说,这是一篇工整但平庸的资源型论文,缺乏让顶会审稿人眼前一亮的理论或技术火花。 📌 核心摘要 MMAE是一个面向通用指令式音频编辑的大规模多任务评测基准。它旨在解决当前音频编辑评估体系分散、局限于简单任务和特定子领域的不足。基准包含2000个高保真样本,涵盖7种音频模态,并建立了一个从基本修改到多轮推理的6级任务复杂度分类体系。其核心创新在于提出了一种基于评分标准(rubric)的评估框架,将开放式任务分解为数万个可验证的标准,以精确评估模型的指令遵循和上下文一致性。对现有模型的评估表明,当前系统在精确编辑方面表现极差,暴露了显著的性能瓶颈。 🔗 开源详情 代码:论文中声称发布了基于Python的评估框架,但未提供任何具体的代码仓库链接(如GitHub URL)。 模型权重:论文未提及发布任何模型权重。本文是介绍一个评测基准,而非新训练的模型。 数据集:论文中声称包含2,000个样本,但未提供任何具体的下载链接或数据托管页面(如HuggingFace, ModelScope)。 Demo:未提及在线演示链接。 复现材料:未提及。 论文中引用的开源项目:论文提到了“Nano-banana 2”和“Gemini-Omni”作为相关工作的例子,但未提供这些项目的具体链接或完整名称。 🏗️ 方法概述和架构 MMAE并非一个算法模型,而是一个用于评测音频编辑模型的基准体系。其核心方法架构包含两个紧密耦合的部分:任务与数据的分类体系,以及配套的自动化评估框架。 ...

2026-06-08 · 更新于 2026-06-12 · 1 min · 148 words

语音/音乐/音频论文速递 2026-06-08

语音/音乐/音频论文速递 2026-06-08 共分析 38 篇论文 ⚡ 今日概览 📥 抓取 38 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 7篇 ███████ #语音识别 6篇 ██████ #音频生成 3篇 ███ #数据增强 3篇 ███ #多模态模型 3篇 ███ #语音情感识别 2篇 ██ #音乐生成 2篇 ██ #音乐信息检索 1篇 █ 📊 论文评分排行榜(38 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Sce 9.9分 前10% #音频生成 🥈 Assessing True Generalisability of Audio-Visual Speech 9.5分 前10% #语音识别 🥉 VoxCPM2 Technical Report 9.5分 前50% #语音合成 4. Beyond Semantic Dominance: Cognitive Affective Reasonin 9.2分 前10% #语音合成 5. Hearing the Unspoken: Language Model Priors for Acousti 9.2分 前25% #语音识别 6. dots.tts Technical Report 9.0分 前25% #语音合成 7. How Far Can Chord-Symbol Time-Series Adaptation Carry G 8.8分 前50% #音乐信息检索 8. Where Rectified Flows Leak: Characterising Membership S 8.7分 前25% #音频生成 9. BiEAR: A Human Auditory-Inspired Adaptive Binaural Fron 8.5分 前25% #声源定位 10. Mitigating Proxy-to-Wild Domain Gap in Deepfake Speech 8.4分 前25% #数据增强 11. Multilingual Multi-Speaker Unit Vocoders: A Systematic 8.4分 前25% #语音合成 12. Geometric Second-Order Feature Correlation Learning for 7.9分 前50% #语音情感识别 13. Whisper Hallucination Detection and Mitigation via Hidd 7.9分 前50% #语音识别 14. Acoustic Cue Alignment in Audio Language Models for Spe 7.8分 前50% #语音情感识别 15. Towards Unified Song Generation and Singing Voice Conve 7.7分 前25% #语音合成 16. Phonetic Error Analysis of Raw Waveform Acoustic Models 7.6分 前50% #语音识别 17. SEAM: Shortcut-Aware Real-Time Detection of Scripted vs 7.5分 前25% #语音增强 18. DirectAudioEdit: Inversion-Free Text-Guided Audio Editi 7.5分 前25% #扩散模型 19. MMAE: A Massive Multitask Audio Editing Benchmark 7.5分 前50% #语音编辑 20. Leveraging Soft Distributions of SSL-Derived Discrete S 7.4分 前50% #语音识别 21. MyGardenBird: A Machine-Learning-Ready Bird Sound Datas 7.2分 前50% #音频事件检测 22. FIGMA: Towards FIne-Grained Music retrievAl 7.2分 前50% #对比学习 23. KIT's Submission to Cross-Lingual Voice Cloning in 7.2分 前50% #语音合成 24. Contrastive Training with LLM-generated Near-Misses for 7.1分 前50% #语音识别 25. A Large-Scale Per-Speaker Analysis of Re-identification 7.1分 前50% #语音匿名化 26. SVHighlights: Towards Extremely Long Sport Video Highli 7.0分 前50% #多模态模型 27. TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Con 6.8分 前50% #语音转换 28. Making the Most of Limited Data: Score-Aware Training f 6.7分 前50% #音乐生成 29. IRAF: Interference-Resilient Adaptive Fusion for Noise- 6.5分 前50% #语音对话系统 30. Towards Event-Robust Acoustic Scene Classification 6.5分 前50% #数据增强 31. FSC-Net: Integrating Fast Fourier Convolutions and Prog 6.4分 前50% #音频质量评估 32. Watch, Remember, Reason: Human-View Video Understanding 6.4分 前50% #多模态模型 33. Hierarchical Semantic-Constrained Heterogeneous Graph f 6.2分 前50% #多模态模型 34. Audio Imitator: Controlling Timbre and Tempo in Video2A 6.0分 前50% #音频生成 35. HybridCodec: Fast Dual-Stream, Semantically Enhanced Ne 5.7分 前50% #语音合成 36. SpectCount: Spectrotemporal Counting via Synthetic Sign 5.5分 前50% #数据增强 37. Entropy as a Structural Prior: How a Log-Barrier on DiT 4.2分 后50% #音乐生成 38. VISA: A Visual Information Strengthened Audio-Reasoning 3.9分 前50% #音频问答 📋 论文列表 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-08 · 更新于 2026-06-12 · 23 min · 4800 words

SuperMemory-VQA: An Egocentric Visual Question-Answering Benchmark for Long-Horizon Memory

📄 SuperMemory-VQA: An Egocentric Visual Question-Answering Benchmark for Long-Horizon Memory #基准测试 #数据集 8.4/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.4/10 | 前25% | #基准测试 | #数据集 | arxiv 👥 作者与机构 作者:Samiul Alam, Shakhrul Iman Siam, Michael J. Proulx, James Fort, Richard Newcombe, Hyo Jin Kim, Mi Zhang 机构:俄亥俄州立大学 (The Ohio State University), Meta ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 383 words

语音/音乐/音频论文速递 2026-06-05

语音/音乐/音频论文速递 2026-06-05 共分析 47 篇论文 ⚡ 今日概览 📥 抓取 47 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 11篇 ███████████ #语音合成 6篇 ██████ #语音情感识别 3篇 ███ #大语言模型 2篇 ██ #语音增强 2篇 ██ #说话人识别 2篇 ██ #流式处理 1篇 █ #音频编码 1篇 █ 📊 论文评分排行榜(47 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Audio Interaction Model 9.8分 前50% #流式处理 🥈 USAD 2.0: Scaling Representation Distillation for Unive 9.0分 前25% #音频编码 🥉 M2S-AVSR: Modality-aware Multi-view Self-supervised Rep 9.0分 前25% #语音识别 4. Vortex: Efficient and Programmable Sparse Attention Ser 8.9分 前25% #大语言模型 5. UniVoice: A Unified Model for Speech and Singing Voice 8.7分 前25% #语音合成 6. Ouvia: A User-centered Framework for Measuring Usabilit 8.6分 前25% #语音翻译 7. Age-Aware Adapter Tuning for Children's Speech Reco 8.4分 前25% #语音识别 8. MCBench: A Multicontext Safety Assessment Benchmark for 8.4分 后50% #语音识别 9. SuperMemory-VQA: An Egocentric Visual Question-Answerin 8.4分 前25% #基准测试 10. GLASS: GRPO-Trained LoRA for Acoustic Style Steering in 8.2分 前25% #语音合成 11. A Model of Multi-turn Human Persuadability Using Probab 8.2分 前50% - 12. Learning Emotion-discriminative Representations for Zer 8.1分 前25% #语音情感识别 13. FORTE: FOL-guided Optimal Refinement for Text-audio rEt 8.1分 前25% #参数高效微调 14. FiLM-Based Speaker Conditioning of a SpeechLLM for Path 8.0分 前50% #语音识别 15. Task-Vector Arithmetic for Emotional Expressivity Contr 7.9分 前25% #语音合成 16. An Ultra-Low-Bitrate Neural Speech Codec with Plain-to- 7.7分 前25% #语音合成 17. Exploring LLMs for South Asian Music Understanding and 7.7分 前50% #音乐生成 18. SB-RF: Schrödinger Bridge Rectified Flow for One-Step R 7.6分 前25% #语音增强 19. nnAudio 2: Overcoming Dynamic Compilation Barriers and 7.5分 前50% #开源工具 20. Beyond Waveform Robustness: Robust Feature-Vocoder Adve 7.5分 前25% #语音识别 21. FoeGlass: Simple In-Context Learning Is Enough for Red 7.5分 前25% #音频生成 22. ProSarc: Prosody-Aware Sarcasm Recognition Framework vi 7.5分 前25% #语音情感识别 23. Probing Spatial Structure in Pretrained Audio Represent 7.4分 前25% - 24. Forgive or forget: Understanding the context of hate in 7.4分 前50% #音频检索 25. SpeechJBB: Probing Safety Alignment and Comprehension i 7.3分 前25% #语音识别 26. VoCodec: A Low-bitrate Streamable Neural Speech Codec w 7.2分 前50% #语音编码 27. F3-Tokenizer: Taming Audio Autoencoder Latents for Unde 7.2分 前25% #语音合成 28. Beyond WER: A Paired Acoustic Stress Test for Ambient C 7.1分 前50% #语音识别 29. InfoShield: Privacy-Preserving Speech Representations f 7.1分 前50% - 30. Multi-task Learning is Not Enough: Representational Ent 6.9分 前50% #语音识别 31. Sound Effects Dataset Unification With the Universal Ca 6.9分 前50% #音频分类 32. To Be Multimodal or Not to Be: Query-Adaptive Audio-Vis 6.8分 前50% #说话人识别 33. SHALA-LLM: Smartly Handling Ambiguous Labels in Alignin 6.8分 前50% #语音情感识别 34. SagnacAssisted Enhanced OTDR for Distributed Acoustic S 6.6分 前50% #信号处理基础 35. Domain-Aware Mispronunciation Detection and Diagnosis U 6.6分 前50% #图神经网络 36. CoSTA: Cognitive-State-Conditioned TTS Data Augmentatio 6.5分 前50% #语音合成 37. Beyond Text Following: Repairable Arbitration Reversals 6.4分 前50% #音频问答 38. Enhancing Audio Captioning with Auxiliary AudioSet Sema 6.3分 前50% - 39. Do speech foundation models perceive speaker similarity 6.3分 前50% #说话人识别 40. Efficient Punctuation Restoration via Weighted Lookahea 6.3分 前50% #大语言模型 41. Automatic Labelling of Speech Translation Errors 6.1分 前50% #语音识别 42. Towards Truly Multilingual ASR: Generalizing Code-Switc 5.9分 前50% #语音识别 43. An ERP Study on Recursive Locative Processing in Mandar 5.9分 前50% - 44. Multilingual Detection of Alzheimer's Disease from 5.7分 后50% #迁移学习 45. DBHN-Net: Dual-Branch Hybrid Neural Network For Low-Com 5.4分 前25% #语音增强 46. Beyond Generative Decoding: Discriminative Hidden-State 5.3分 前50% #多模态模型 47. Revisiting Lexicon Evaluation in Unsupervised Word Disc 1.0分 前25% #语音识别 📋 论文列表 🥇 Audio Interaction Model 9.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-05 · 更新于 2026-06-12 · 28 min · 5851 words

DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities

📄 DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities #多模态模型 #自监督学习 #数据集 #基准测试 9.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.3/10 | 前25% | #多模态模型 | #自监督学习 | #数据集 #基准测试 | arxiv 👥 作者与机构 Sajad Ebrahimi, Nima Jamali, Bardia Shirsalimian, Kelly McConvey, Wentao Zhang, Jalehsadat Mahdavimoghaddam, Maksym Taranukhin, Maura Grossman, Vered Shwartz, Yuntian Deng, Ebrahim Bagheri University of Toronto, University of Waterloo, Toronto Metropolitan University, University of British Columbia, Vector Institute ...

2026-06-04 · 更新于 2026-06-12 · 2 min · 257 words

语音/音乐/音频论文速递 2026-06-04

语音/音乐/音频论文速递 2026-06-04 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #音频分类 2篇 ██ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #空间音频 1篇 █ #音乐生成 1篇 █ 📊 论文评分排行榜(22 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Multilingual Long-Form Speech Instruction Following: KI 10.0分 前10% #语音识别 🥈 Drift-Augmented Scoring: Text-Derived Noise Robustness 10.0分 前25% #音频分类 🥉 DetectZoo: A Unified Toolkit for AI-Generated Content D 9.3分 前25% #多模态模型 4. CleanCodec: Efficient and Robust Speech Tokenization vi 8.8分 前25% #语音编码 5. Read What You Hear: Reference-Free Hypotheses Evaluatio 8.6分 前25% #语音识别 6. UAT: Unified Audio-Text Diffusion for Audio Generation, 8.5分 前25% #音频生成 7. Flow-HOA: Generative Joint Optimization for Ambisonics 7.9分 前25% #空间音频 8. Test-Time Compute Scaling for ASR with Depth-Conditione 7.8分 前25% #语音识别 9. Channel-Oriented Design for EEG-to-Music Reconstruction 7.7分 前25% #音乐生成 10. Entity Binding Failures in Speech LLM Reasoning: Diagno 7.5分 前25% #语音问答 11. Video2LoRA: Parametric Video Internalization for Vision 7.5分 前50% #参数高效微调 12. Feasibility of Time-Domain DNN-Based Speech Enhancement 7.2分 前50% #语音增强 13. Differentiable Articulatory Copy-Synthesis of Biphonic 7.1分 前50% #音频生成 14. The Differentiable Auditory Loop (DAL): An ML Framework 7.1分 前50% #语音增强 15. Masked Wavelet Scattering Transform Neural Field for So 6.7分 前50% #音频质量评估 16. SHB-AE: Spherical harmonic beamforming based Ambisonics 6.7分 前50% #音频编码 17. SURF: Separation via Unsupervised Remixing Flow 6.4分 前25% #无监督学习 18. Gauss Circle Lattices with Geometric Convolutions for S 6.0分 前50% - 19. Plan First, Judge Later, Run Better: A DMAIC-Inspired A 5.8分 前50% #工业应用 20. Representation Matters in Randomized Smoothing for Audi 5.7分 前50% #音频分类 21. Neural Radiated-Noise Fields for Unmanned Underwater Ve 5.1分 前50% - 22. A Second-Order Cepstral Signature of Contact-Vibration 4.8分 后50% #信号处理基础 📋 论文列表 🥇 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 10.0/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-04 · 更新于 2026-06-12 · 14 min · 2920 words

Benchmarking Speech-to-Speech Translation Models

📄 Benchmarking Speech-to-Speech Translation Models #语音合成 #语音识别 #基准测试 #多模态模型 #低资源 8.7/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.7/10 | 前25% | #语音合成 | #语音识别 | #基准测试 #多模态模型 | arxiv 👥 作者与机构 Alkis Koudounas†, Hayato Futami†, Quentin Jodelet†, Osamu Take†, Shinji Watanabe‡, Emiru Tsunoo† †Sony Group Corporation, Japan ‡Carnegie Mellon University, USA 💡 毒舌点评 这是一篇扎实的“元研究”(meta-research)论文。优点很明显:S2ST领域确实急需一个统一的评估标准,作者们以惊人的工程量(1248个配置!)构建并发布了这个COMPASS框架,这种“苦力活”对于社区发展的价值毋庸置疑。然而,审稿人需要清醒地认识到,这篇论文的核心贡献在于“测量工具”和“大规模实证”,而非提出新的翻译或合成算法。因此,它的“创新性”应相对于评估框架领域来评判,而非模型架构领域。论文的实验设计非常全面,但其结论在某种程度上依赖于特定的基准数据集(FLEURS, CVSS),这在作者自己提出的局限性中已经承认。最大的短板在于开源状态:承诺的工具包代码尚未公开,这严重影响了论文的即时可用性和可复现性。总体而言,这是一篇对社区有用的基础设施论文,但距离一个“完美”的基准评估还存在距离。 ...

2026-06-03 · 更新于 2026-06-12 · 2 min · 343 words

Sandboxed Coding Agents are Competitive Omni-modal Task Solvers

📄 Sandboxed Coding Agents are Competitive Omni-modal Task Solvers #强化学习 #基准测试 7.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.9/10 | 前25% | #强化学习 | #强化学习 | #基准测试 | arxiv 👥 作者与机构 论文作者为Dongping Chen, Xuanao Huang, Zhihan Hu, Qingyuan Shi, Dianqi Li, Tianyi Zhou。机构包括马里兰大学(University of Maryland)和穆罕默德·本·扎耶德人工智能大学(MBZUAI)。 💡 毒舌点评 这篇论文像一个聪明的“工具人”(编码代理)突然发现自己能干“多媒体专家”(原生全模态模型)的活,而且还干得又快又省(少令牌)。作者不仅展示了这个现象,还像产品经理一样分析了“工具人”的故障模式,并手把手教它(Code-X训练)以及设计了新的“技能考核标准”(TerminalBench-O)。优点是思路清晰,实证充分,对“原生感知必要性”这个假设发起了有价值的挑战。缺点在于,部分实验设计有“田忌赛马”的嫌疑,比较基准的选择和设置可能对原生模型不够公平;结论的普适性被自身承认的局限性所削弱;且“处理”任务的新基准(TerminalBench-O)虽然立意好,但目前结果过于惨淡,难以支撑起“下一个前沿”的宏大宣言。总体是一篇扎实的系统性工作,但离改变范式还有一段距离。 📌 核心摘要 本文挑战了“全模态任务必须由原生全模态模型解决”的传统假设。研究发现,仅具备文本+图像访问能力的沙箱化编码代理,通过编写代码、调用ffmpeg、Whisper等工具从原始媒体中提取证据,能够将全模态任务转化为检索与信息处理问题。在OmniGAIA等多个基准上,此类代理(如GPT-5.4 xhigh)的性能可匹配甚至超越Gemini 3.1 Pro等原生全模态模型,同时消耗的令牌更少。论文通过失败分类法和过程级评估分析了代理的局限,并提出三种技能注入方法以提升性能。为探索开源能力,论文提出Code-X训练方案(SFT+可验证奖励RL)和OmniCoding数据集,并在Qwen开源模型上获得提升。此外,论文引入了首个面向全模态处理任务的基准TerminalBench-O,揭示当前代理在该任务上的不足。 ...

2026-06-03 · 更新于 2026-06-12 · 4 min · 720 words

语音/音乐/音频论文速递 2026-06-03

语音/音乐/音频论文速递 2026-06-03 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 7篇 ███████ #语音识别 7篇 ███████ #音乐生成 3篇 ███ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Ev 10.0分 前10% #语音合成 🥈 Cosmos 3: Omnimodal World Models for Physical AI 10.0分 前10% #音频生成 🥉 WavTTS: Towards High-Quality Zero-Shot TTS via Direct R 9.2分 前25% #语音合成 4. CoughSense: Five-Class Respiratory Disease Classificati 9.1分 前25% #数据增强 5. SoulX-Transcriber: A Robust End-to-End Framework for Mu 8.8分 前50% #语音识别 6. SVHalluc: Benchmarking Speech-Vision Hallucination in A 8.7分 前25% #语音识别 7. Benchmarking Speech-to-Speech Translation Models 8.7分 前25% #语音合成 8. The DeepSpeak-Agentic Dataset 8.7分 前50% #语音合成 9. EntangleCodec: A Unified Discrete Audio Tokenizer via S 8.6分 前10% #语音合成 10. SketchSong: Hierarchical Song Generation with Sketch Pl 8.6分 前25% #音乐生成 11. SegTune: Structured and Fine-Grained Control for Song G 8.5分 前25% #音乐生成 12. Exploiting Noise Inseparability for Weakly-Supervised D 8.5分 前50% #语音增强 13. A Comparison of Generative and Discriminative Methods f 8.3分 前25% #语音增强 14. FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demons 8.1分 前50% #语音识别 15. Tonal parsimony in chord-sequence analysis: combining m 8.1分 前25% #音乐信息检索 16. Efficient ASR Training with Conversations that Never Ha 8.0分 前50% #语音识别 17. LiveBand: Live Accompaniment Generation in the Audio Do 8.0分 前25% #音乐生成 18. Sandboxed Coding Agents are Competitive Omni-modal Task 7.9分 前25% #强化学习 19. OmniHalluc-L: Counterfactual Benchmarking and Modality- 7.8分 前25% #多模态模型 20. BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR 7.8分 前25% #语音识别 21. Speech Emotion Recognition using Attention-based LSTM-N 7.5分 前50% #语音情感识别 22. SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpu 7.4分 前25% #说话人验证 23. C2GA: A Class-Controllable Generative Augmentation Fram 7.3分 前50% #音频分类 24. AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IW 7.3分 前50% #语音翻译 25. Before Fusion, Ask What to Keep: Contextual Calibration 7.2分 前50% #语音情感识别 26. Diffusion-Based Heart Sound Generation: Evaluation with 7.1分 前50% #语音合成 27. SiamCTC: Learning Speech Representations through Monoto 7.0分 前50% #语音识别 28. Foley-Omni: A Unified Multimodal Generation Model from 7.0分 前25% #音频生成 29. Inference-Time Scaling for Joint Audio-Video Generation 6.9分 前50% #语音合成 30. Breaking the Pair: Evaluating Dyadic Interaction via Sp 6.9分 前50% - 31. Localizing broadband noise sources using the Loève spec 6.9分 前50% #声源定位 32. A Pocket Offline Model for Simultaneous Speech Translat 6.8分 前50% #语音翻译 33. Stable Hybrid Cross-Attention Fusion for Audio-Visual E 6.7分 后50% #自监督学习 34. A Training-Efficient Transformer-Based Anti-Spoofing Ne 6.7分 后50% #Transformer 35. MoDAl: Self-Supervised Neural Modality Discovery via De 6.6分 前25% #自监督学习 36. Audio Spotforming via Post-Filtering Using Cross-Array 6.6分 前50% #维纳滤波 37. Logit Distillation on Manifolds: Mapping by Learning 6.5分 前50% #语音识别 38. Domain-Agnostic Incremental Learning for Sound Classifi 6.1分 前50% - 39. Wavelet as Tokenizer: Preliminary Results on a Shared W 5.4分 后50% #多模态模型 40. In-the-Loop Training of Deep Feedback Cancellation for 5.3分 前50% #自适应滤波 📋 论文列表 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following 10.0/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-03 · 更新于 2026-06-12 · 26 min · 5337 words