基准测试 | 语音/音乐/音频论文速递

语音/音乐/音频论文速递 2026-06-04

语音/音乐/音频论文速递 2026-06-04 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 3篇 ███ #音频分类 2篇 ██ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #空间音频 1篇 █ #音乐生成 1篇 █ 📊 论文评分排行榜（22 篇，按分数降序）排名论文总分分档主任务 🥇 Multilingual Long-Form Speech Instruction Following: KI 10.0分前10% #语音识别 🥈 Drift-Augmented Scoring: Text-Derived Noise Robustness 10.0分前25% #音频分类 🥉 DetectZoo: A Unified Toolkit for AI-Generated Content D 9.3分前25% #多模态模型 4. CleanCodec: Efficient and Robust Speech Tokenization vi 8.8分前25% #语音编码 5. Read What You Hear: Reference-Free Hypotheses Evaluatio 8.6分前25% #语音识别 6. UAT: Unified Audio-Text Diffusion for Audio Generation, 8.5分前25% #音频生成 7. Flow-HOA: Generative Joint Optimization for Ambisonics 7.9分前25% #空间音频 8. Test-Time Compute Scaling for ASR with Depth-Conditione 7.8分前25% #语音识别 9. Channel-Oriented Design for EEG-to-Music Reconstruction 7.7分前25% #音乐生成 10. Entity Binding Failures in Speech LLM Reasoning: Diagno 7.5分前25% #语音问答 11. Video2LoRA: Parametric Video Internalization for Vision 7.5分前50% #参数高效微调 12. Feasibility of Time-Domain DNN-Based Speech Enhancement 7.2分前50% #语音增强 13. Differentiable Articulatory Copy-Synthesis of Biphonic 7.1分前50% #音频生成 14. The Differentiable Auditory Loop (DAL): An ML Framework 7.1分前50% #语音增强 15. Masked Wavelet Scattering Transform Neural Field for So 6.7分前50% #音频质量评估 16. SHB-AE: Spherical harmonic beamforming based Ambisonics 6.7分前50% #音频编码 17. SURF: Separation via Unsupervised Remixing Flow 6.4分前25% #无监督学习 18. Gauss Circle Lattices with Geometric Convolutions for S 6.0分前50% - 19. Plan First, Judge Later, Run Better: A DMAIC-Inspired A 5.8分前50% #工业应用 20. Representation Matters in Randomized Smoothing for Audi 5.7分前50% #音频分类 21. Neural Radiated-Noise Fields for Unmanned Underwater Ve 5.1分前50% - 22. A Second-Order Cepstral Signature of Contact-Vibration 4.8分后50% #信号处理基础 📋 论文列表 🥇 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 10.0/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

Benchmarking Speech-to-Speech Translation Models

📄 Benchmarking Speech-to-Speech Translation Models #语音合成 #语音识别 #基准测试 #多模态模型 #低资源 8.7/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.7/10 | 前25% | #语音合成 | #语音识别 | #基准测试 #多模态模型 | arxiv 👥 作者与机构 Alkis Koudounas†, Hayato Futami†, Quentin Jodelet†, Osamu Take†, Shinji Watanabe‡, Emiru Tsunoo† †Sony Group Corporation, Japan ‡Carnegie Mellon University, USA 💡 毒舌点评这是一篇扎实的“元研究”（meta-research）论文。优点很明显：S2ST领域确实急需一个统一的评估标准，作者们以惊人的工程量（1248个配置！）构建并发布了这个COMPASS框架，这种“苦力活”对于社区发展的价值毋庸置疑。然而，审稿人需要清醒地认识到，这篇论文的核心贡献在于“测量工具”和“大规模实证”，而非提出新的翻译或合成算法。因此，它的“创新性”应相对于评估框架领域来评判，而非模型架构领域。论文的实验设计非常全面，但其结论在某种程度上依赖于特定的基准数据集（FLEURS， CVSS），这在作者自己提出的局限性中已经承认。最大的短板在于开源状态：承诺的工具包代码尚未公开，这严重影响了论文的即时可用性和可复现性。总体而言，这是一篇对社区有用的基础设施论文，但距离一个“完美”的基准评估还存在距离。 ...

Sandboxed Coding Agents are Competitive Omni-modal Task Solvers

📄 Sandboxed Coding Agents are Competitive Omni-modal Task Solvers #强化学习 #基准测试 7.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.9/10 | 前25% | #强化学习 | #强化学习 | #基准测试 | arxiv 👥 作者与机构论文作者为Dongping Chen, Xuanao Huang, Zhihan Hu, Qingyuan Shi, Dianqi Li, Tianyi Zhou。机构包括马里兰大学（University of Maryland）和穆罕默德·本·扎耶德人工智能大学（MBZUAI）。 💡 毒舌点评这篇论文像一个聪明的“工具人”（编码代理）突然发现自己能干“多媒体专家”（原生全模态模型）的活，而且还干得又快又省（少令牌）。作者不仅展示了这个现象，还像产品经理一样分析了“工具人”的故障模式，并手把手教它（Code-X训练）以及设计了新的“技能考核标准”（TerminalBench-O）。优点是思路清晰，实证充分，对“原生感知必要性”这个假设发起了有价值的挑战。缺点在于，部分实验设计有“田忌赛马”的嫌疑，比较基准的选择和设置可能对原生模型不够公平；结论的普适性被自身承认的局限性所削弱；且“处理”任务的新基准（TerminalBench-O）虽然立意好，但目前结果过于惨淡，难以支撑起“下一个前沿”的宏大宣言。总体是一篇扎实的系统性工作，但离改变范式还有一段距离。 📌 核心摘要本文挑战了“全模态任务必须由原生全模态模型解决”的传统假设。研究发现，仅具备文本+图像访问能力的沙箱化编码代理，通过编写代码、调用ffmpeg、Whisper等工具从原始媒体中提取证据，能够将全模态任务转化为检索与信息处理问题。在OmniGAIA等多个基准上，此类代理（如GPT-5.4 xhigh）的性能可匹配甚至超越Gemini 3.1 Pro等原生全模态模型，同时消耗的令牌更少。论文通过失败分类法和过程级评估分析了代理的局限，并提出三种技能注入方法以提升性能。为探索开源能力，论文提出Code-X训练方案（SFT+可验证奖励RL）和OmniCoding数据集，并在Qwen开源模型上获得提升。此外，论文引入了首个面向全模态处理任务的基准TerminalBench-O，揭示当前代理在该任务上的不足。 ...

语音/音乐/音频论文速递 2026-06-03

语音/音乐/音频论文速递 2026-06-03 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 7篇 ███████ #语音识别 7篇 ███████ #音乐生成 3篇 ███ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ 📊 论文评分排行榜（40 篇，按分数降序）排名论文总分分档主任务 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Ev 10.0分前10% #语音合成 🥈 Cosmos 3: Omnimodal World Models for Physical AI 10.0分前10% #音频生成 🥉 WavTTS: Towards High-Quality Zero-Shot TTS via Direct R 9.2分前25% #语音合成 4. CoughSense: Five-Class Respiratory Disease Classificati 9.1分前25% #数据增强 5. SoulX-Transcriber: A Robust End-to-End Framework for Mu 8.8分前50% #语音识别 6. SVHalluc: Benchmarking Speech-Vision Hallucination in A 8.7分前25% #语音识别 7. Benchmarking Speech-to-Speech Translation Models 8.7分前25% #语音合成 8. The DeepSpeak-Agentic Dataset 8.7分前50% #语音合成 9. EntangleCodec: A Unified Discrete Audio Tokenizer via S 8.6分前10% #语音合成 10. SketchSong: Hierarchical Song Generation with Sketch Pl 8.6分前25% #音乐生成 11. SegTune: Structured and Fine-Grained Control for Song G 8.5分前25% #音乐生成 12. Exploiting Noise Inseparability for Weakly-Supervised D 8.5分前50% #语音增强 13. A Comparison of Generative and Discriminative Methods f 8.3分前25% #语音增强 14. FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demons 8.1分前50% #语音识别 15. Tonal parsimony in chord-sequence analysis: combining m 8.1分前25% #音乐信息检索 16. Efficient ASR Training with Conversations that Never Ha 8.0分前50% #语音识别 17. LiveBand: Live Accompaniment Generation in the Audio Do 8.0分前25% #音乐生成 18. Sandboxed Coding Agents are Competitive Omni-modal Task 7.9分前25% #强化学习 19. OmniHalluc-L: Counterfactual Benchmarking and Modality- 7.8分前25% #多模态模型 20. BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR 7.8分前25% #语音识别 21. Speech Emotion Recognition using Attention-based LSTM-N 7.5分前50% #语音情感识别 22. SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpu 7.4分前25% #说话人验证 23. C2GA: A Class-Controllable Generative Augmentation Fram 7.3分前50% #音频分类 24. AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IW 7.3分前50% #语音翻译 25. Before Fusion, Ask What to Keep: Contextual Calibration 7.2分前50% #语音情感识别 26. Diffusion-Based Heart Sound Generation: Evaluation with 7.1分前50% #语音合成 27. SiamCTC: Learning Speech Representations through Monoto 7.0分前50% #语音识别 28. Foley-Omni: A Unified Multimodal Generation Model from 7.0分前25% #音频生成 29. Inference-Time Scaling for Joint Audio-Video Generation 6.9分前50% #语音合成 30. Breaking the Pair: Evaluating Dyadic Interaction via Sp 6.9分前50% - 31. Localizing broadband noise sources using the Loève spec 6.9分前50% #声源定位 32. A Pocket Offline Model for Simultaneous Speech Translat 6.8分前50% #语音翻译 33. Stable Hybrid Cross-Attention Fusion for Audio-Visual E 6.7分后50% #自监督学习 34. A Training-Efficient Transformer-Based Anti-Spoofing Ne 6.7分后50% #Transformer 35. MoDAl: Self-Supervised Neural Modality Discovery via De 6.6分前25% #自监督学习 36. Audio Spotforming via Post-Filtering Using Cross-Array 6.6分前50% #维纳滤波 37. Logit Distillation on Manifolds: Mapping by Learning 6.5分前50% #语音识别 38. Domain-Agnostic Incremental Learning for Sound Classifi 6.1分前50% - 39. Wavelet as Tokenizer: Preliminary Results on a Shared W 5.4分后50% #多模态模型 40. In-the-Loop Training of Deep Feedback Cancellation for 5.3分前50% #自适应滤波 📋 论文列表 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following 10.0/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions

📄 JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions #音乐生成 #多模态模型 #大语言模型 #基准测试 7.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.3/10 | 前25% | #音乐生成 | #多模态模型 | #大语言模型 #基准测试 | arxiv 👥 作者与机构作者：Jiashuo Yu, Yao Yao, Boyu Chen, Alex Wang 机构：Jen Music AI 💡 毒舌点评这篇论文试图解决一个实际且重要的问题——长视频的连贯配乐，并提出了一个模块化的框架。其核心创意“LLM导演自适应过渡”确实新颖且吸引眼球，构建新基准的贡献也值得肯定。然而，论文在将这一创意落实为坚实技术贡献时，暴露出明显的短板。首先，对核心的LLM Agent决策能力的评估过于粗糙，缺乏对其鲁棒性和失败案例的深入剖析，仅凭几个精心挑选的定性案例和整体分数提升，难以证明其在复杂现实场景下的有效性。其次，作为技术核心的“生成式过渡模型”，其具体实现细节（如何将ControlNet用于音乐修补、‘无训练适配’的具体含义）语焉不详，这直接影响了方法的可复现性和技术深度。再者，完全忽略视频中已存在的音频信息（如对话），使得这个号称“端到端”的框架在面对真实世界复杂内容时显得天真和不完整。最后，对视频分割这一起始步骤的潜在影响缺乏任何敏感性分析，这是一个不可忽视的系统漏洞。总的来说，论文提出了一个有趣的系统框架，但未能充分证明其核心组件的鲁棒性和全面性，技术细节的缺失也削弱了其严谨性。 📌 核心摘要针对长视频配乐中场景切换时音乐连贯性差的挑战，本文提出了JenBridge框架。该框架采用模块化设计，首先将长视频分割为语义片段，然后为每个片段独立生成音乐，最后通过一个自适应过渡机制将音乐片段连接成连贯的长片段。其核心创新点在于设计了一种新颖的自适应过渡机制：该机制包含一个提供四种过渡风格（突变、静音、淡入淡出、生成式过渡）的“工具包”，并独特地利用一个大语言模型（LLM）作为“导演”，根据前后片段的视觉和音乐上下文智能选择最合适的过渡方式。此外，为评估该任务，论文提出了首个专门的长视频配乐基准测试集（LVS Benchmark），包含精心策划的数据和新的评估范式。实验证明，JenBridge在客观指标和主观评估上均显著优于现有方法，尤其在“过渡自然度”和“制作复杂度”上优势明显。 ...

RRP-Voice: A Longitudinal Dataset and Benchmark for Recurrent Respiratory Papillomatosis Detection

📄 RRP-Voice: A Longitudinal Dataset and Benchmark for Recurrent Respiratory Papillomatosis Detection #数据集 #基准测试 8.3/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.3/10 | 前50% | #数据集 | #自监督学习 | #基准测试 | arxiv 👥 作者与机构 Wenze Ren¹, Ke-Han Lu¹, Kai-Wei Chang⁴, Tiantian Feng⁷, Ching Fang⁸, Zhi-Chi Liao², Dao Thi Hai Yen², Syu-Siang Wang⁶, Yu Tsao³, Chi-Te Wang⁵, Shih-Hau Fang² ¹ National Taiwan University, ² National Taiwan Normal University, ³ Academia Sinica, ⁴ Massachusetts Institute of Technology, ⁵ Far Eastern Memorial Hospital, ⁶ Yuan Ze University, ⁷ University of Southern California, ⁸ Taipei Municipal Zhongshan Girls High School ...

语音/音乐/音频论文速递 2026-06-02

语音/音乐/音频论文速递 2026-06-02 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 9篇 █████████ #语音合成 5篇 █████ #自监督学习 2篇 ██ #多模态模型 2篇 ██ #音频分类 2篇 ██ #计算机视觉 1篇 █ #音乐推荐 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Project SPARROW and the Future of Conservation Technolo 10.0分前50% #计算机视觉 🥈 Multimodal Music Recommendation System using LLMs 10.0分前50% #音乐推荐 🥉 Sympatheia: Emotionally Adaptive Voice Assistant with C 9.6分前25% #语音合成 4. MOSS-Audio Technical Report 9.2分前25% #语音识别 5. UniVocal: Unified Speech-Singing Code-Switching Synthes 8.9分前25% #语音合成 6. PolySpeech-100: A Large-Scale Benchmark for Speech Unde 8.8分前50% #语音识别 7. SpeechEditBench: A Bilingual Multi-Attribute Benchmark 8.7分前25% #语音编辑 8. Context-aware child-directed speech detection from long 8.5分前25% #自监督学习 9. RRP-Voice: A Longitudinal Dataset and Benchmark for Rec 8.3分前50% #数据集 10. MURMUR: An Efficient Inference System for Long-Form ASR 8.3分前50% #语音识别 11. Local Diagnostics of Continuous Normalizing Flow for Ou 8.1分前50% #语音合成 12. WAXAL-NET: Finetuned Edge ASR Across 19 African Languag 8.0分前25% #语音识别 13. Dynamic Interaction-Aware and Causality-Disentangled Fr 7.8分前25% #多模态模型 14. Temporally-Aligned Evaluation for Audio-Driven Talking 7.6分前25% #语音合成 15. HAIM: Human-AI Music Datasets for AI Music Production T 7.5分前50% - 16. Spiking and Event-driven Neuromorphic Mamba Models for 7.5分前50% #语音识别 17. JenBridge: Adaptive Long-Form Video Soundtracking acros 7.3分前25% #音乐生成 18. MelT: GEMM-Native NDFT for Efficient Single-Stage Audio 7.3分前50% #信号处理基础 19. Description and Discussion on DCASE 2026 Challenge Task 7.2分前50% #无监督学习 20. SALSA: Speech Aware LLM Adaptation via Learned Steering 7.2分前25% #语音识别 21. Advancing Electrolaryngeal Speech Enhancement Through S 7.1分前50% #语音增强 22. DUET: Unified Dual-Space Emotion Control for Diffusion 7.1分前25% #语音合成 23. When Tabular Foundation Models Transfer Across Modaliti 7.1分前50% #音频分类 24. Echo: A Joint-Embedding Predictive Architecture for Spe 7.0分前50% #语音识别 25. AnyMo: Scaling Any-Modality Conditional Motion Generati 7.0分前50% #多模态模型 26. Kinship Verification Using Voice 6.9分前50% #声纹识别 27. Quality Audio Prototyping: a prototype system for unifi 6.9分前50% #音频检索 28. A Lightweight Slot-Attention Framework for Multi-Instru 6.7分前50% #音乐信息检索 29. A 1000-hour EEG-EMG-audio dataset of Japanese speech pr 6.5分前50% - 30. DAStatFormer: A Hybrid Multibranch Transformer with Sta 6.4分前50% #音频事件检测 31. Parameter-efficient Dual-encoder Architecture with Diff 6.4分前25% #音频分类 32. Beyond the Mouth: Upper-Face Affective Cues in Audiovis 5.5分前50% #语音识别 33. SN-WER: Script-Normalized WER for Multi-Script Indic AS 5.3分前50% #语音识别 34. Privacy-preserving Prosody Representation Learning 4.9分前50% #自监督学习 35. AI Slop or AI-enhancement? Student perceptions of AI-ge 3.7分后50% - 📋 论文列表 🥇 Project SPARROW and the Future of Conservation Technology 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

3DAE: Binaural Quality Assessment for Audio Novel View Synthesis with Spatial Maps and Benchmark

📄 3DAE: Binaural Quality Assessment for Audio Novel View Synthesis with Spatial Maps and Benchmark #音频质量评估 #基准测试 ✅ 6.5/10 | 前50% | #音频质量评估 | #基准测试 | arxiv 学术质量 6.5/7 | 影响力 6.0/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构作者：Jialu Xu, Yifan Zhou (共同一作) 机构：滑铁卢大学 💡 毒舌点评这篇论文解决了一个真实存在的痛点：现有全局指标（如 RMSE）掩盖了错误来源，让模型调优如同盲人摸象。提出的框架在诊断性和可视化上做得不错，尤其是“警告感知”的逻辑是个贴心设计，避免将时间偏移误诊为频谱问题。然而，作为一篇工具论文，其技术深度和实验广度都稍显不足。框架的核心是多个误差指标的“打包”与一个启发式的归因规则，缺乏理论上的突破。实验部分仅在一个模型（ViGAS）和两个数据集上进行了演示，虽然展示了问题，但说服力有限。最大的遗憾是未开源代码，这让一个以“基准测试”为名的工作大打折扣——谁来用你的基准？此外，讨论部分有些自说自话，与传统指标的对比停留在定性层面，缺乏定量的对比实验。总的来说，它是一个有用的工具雏形，但距离成为一个被广泛采纳的“标准”还有相当距离。 📌 核心摘要本文针对音频新视角合成（Audio Novel View Synthesis）模型评估中全局指标（如波形 RMSE、STFT 误差）无法定位和解释双耳预测误差具体来源的问题，提出了一个全参考的诊断框架。该框架包含两个核心组件：1）3DAE Map：一个交互式的三维时频诊断工具，可生成包括幅度、ILD、IPD、时间对齐、响度、高频损失在内的多种误差图。2）3DAE Bench：一个模型无关的基准测试系统，可自动计算多维误差分数向量，识别主导故障模式（如时间偏移、ILD 失配），并输出包含“警告”的分析报告，以避免将严重的时间或响度偏差错误归因于频谱误差。实验使用 ViGAS 模型在 Replay-NVAS（真实场景）和 SoundSpaces-NVAS（合成场景）数据集上进行评估，揭示了同一模型在不同数据集上主导故障模式的差异（时间偏移 vs. ILD 失配），证明了单一全局指标的不足。 🔗 开源详情代码：论文中未提供任何代码链接或仓库。尽管详细描述了 3DAE Bench 的设计和流程，但未提供可执行代码。模型权重：论文中未提及提供 ViGAS 或其他模型的权重下载链接。实验使用的是开源模型 ViGAS 的输出。数据集：论文中引用了两个开源数据集，但未在文中提供直接的下载链接。获取这些数据集需要查阅对应的原始论文。 Replay-NVAS [17] SoundSpaces-NVAS [6] Demo：论文中未提及在线演示或本地可运行的 Demo。复现材料：论文中未提供。尽管方法部分足够详细，理论上可以复现核心算法，但未提供训练配置、检查点、环境配置或可直接运行的脚本。可视化界面（附录 A）的具体实现代码也未提供。论文中引用的开源项目： ViGAS [5]：论文使用了该模型的输出进行评估，但未提供其代码或主页链接。 Replay-NVAS [17]：论文引用了该数据集，但未提供链接。 SoundSpaces-NVAS [6]：论文引用了该数据集，但未提供链接。 3D Gaussian splatting [10]：仅作为类比提及，未提供链接。其他在相关工作中引用的项目（如文献 [2], [3], [4], [7], [8], [11], [12], [13], [14], [16]），论文中均未提供对应的开源项目链接。 🏗️ 方法概述和架构本文提出的方法是一个由诊断可视化工具（3DAE Map）和基准测试系统（3DAE Bench）构成的全参考评估框架。其核心设计遵循“验证-诊断-评分-归因”的流程，旨在系统性地揭示双耳预测错误的具体来源。 ...

A Unified and Reproducible Experimentation Framework for Speech Understanding

📄 A Unified and Reproducible Experimentation Framework for Speech Understanding #语音识别 #语音合成 #语音情感识别 #语音翻译 #低资源 #基准测试 📝 5.5/10 | 前50% | #语音识别 | #语音合成 | #语音情感识别 #语音翻译 | arxiv 学术质量 5.5/7 | 影响力 5.0/2 | 可复现性 1.5/2 | 置信度中 👥 作者与机构论文作者来自上海交通大学X-LANCE实验室、南京大学、杭州电子科技大学、香港中文大学（深圳）以及AISpeech Ltd。主要联系人为上海交通大学的Peng Du和Kai Yu。 💡 毒舌点评这篇工作本质上是一份详尽的“实验工具使用说明”和“初步评测报告”，而非一篇技术方法论或系统性突破的论文。它正确地指出了语音理解领域评测标准不统一、结果不可比和训练难复现的痛点，但给出的解决方案——一个评测框架和一套转换脚本——更像是一个工程团队或社区维护的“基础设施”，而非NeurIPS级别论文应有的理论或算法贡献。核心“创新”在于“统一”和“标准化”，但这些都是朴素且早该做的事情。最大的亮点是那个“智能体辅助转换流水线”，这听起来很时髦，但论文里只用了两个模型做了个“概念验证”，说服力严重不足。整篇论文读起来像是一个大型项目README的学术化版本，充满了链接、格式说明和“我们发布了…”的宣告。给5.5分，是对其指出正确问题并迈出第一步的鼓励，但其学术贡献的深度和广度远未达到顶会论文的标准。 📌 核心摘要针对语音理解领域模型评估标准不统一、结果不可比以及训练过程难以复现的问题，本文提出了一个名为SURE的统一实验框架。该框架通过三个核心赛道进行设计：1) 面向真实场景的前端语音任务压力测试（Track I）；2) 全栈语音理解能力的横向对比评估（Track II）；3) 通过智能体辅助的代码转换流程，实现基于统一协议和开源数据的受控从头训练初步探索（Track III）。框架提供了统一的预测格式、归一化方法、评分脚本及动态的相对性能评分（RPS）指标。实验发现，在干净条件下级联管道在核心感知任务上仍有竞争力，情感识别是普遍挑战，且初步的受控训练结果显示不同模型在各任务上表现与其设计重点相关。 🔗 开源详情代码：项目主页：https://sure-eval-framework.github.io/speechllm_series/ 统一评估流水线：https://anonymous.4open.science/r/evaluation-pipeline-839C 代理辅助训练转换流水线：https://anonymous.4open.science/r/ReproAgent-9898 模型权重：论文中未提及开源模型权重。数据集：论文中提及了多个开源数据集（VoxPopuli-en, AISHELL-5, AMI, AliMeeting, CS-Dialogue, KeSpeech, ContextASR, LibriSpeech, AISHELL-1, CoVoST2, IEMOCAP, MELD, SLURP, MMSU-Reason），并指出测试和训练套件已发布在ModelScope：https://modelscope.cn/datasets/SUREBenchmark/SURE_Test_Suites。 Demo：论文中未提及。复现材料：论文未提供具体的训练配置、检查点或附录链接。但论文详细描述了代理辅助转换流程，该流程可将论文和代码转换为可运行的swift训练流程，并提供版本化的转换计划和验证报告。论文中引用的开源项目： meeteval：用于计算DER和cpWER的后端工具。 sacrebleu：用于计算BLEU和chrF2的工具。 swift：用于可控训练的开源框架。（注：以上工具在论文脚注中提供了链接） 🏗️ 方法概述和架构 SURE是一个端到端的实验套件，其核心架构分为统一评估流水线和智能体辅助训练转换流水线两大部分。 ...

语音/音乐/音频论文速递 2026-06-01

语音/音乐/音频论文速递 2026-06-01 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 6篇 ██████ #音乐生成 3篇 ███ #语音翻译 2篇 ██ #语音识别 2篇 ██ #自监督学习 1篇 █ #口音识别 1篇 █ #生成对抗网络 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜（23 篇，按分数降序）排名论文评分分档主任务 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for 10.0分前25% #语音合成 🥈 UniAudio-Token: Empowering Semantic Speech Tokenizers w 10.0分前25% #语音合成 🥉 Escaping the Linearity Trap: Manifold Detours for Black 9.7分前25% #自监督学习 4. ImmersiveTTS: Environment-Aware Text-to-Speech with Mul 9.3分前25% #语音合成 5. SwanVoice: Expressive Long-Form Zero-Shot Speech Synthe 8.9分前50% #语音合成 6. AnchorSteer: Self-Discovered Concept Injection for Stru 8.6分前50% #音乐生成 7. MindVoice: Reconstructing Intelligible Speech from Non- 8.5分前25% #语音合成 8. Extracting accent features in spoken Brazilian Portugue 8.3分前50% #口音识别 9. UNISON: A Unified Sound Generation and Editing Framewor 8.2分前25% #语音合成 10. FiPA-SR – FiLM-Conditioned Perceptually Informed Audio 8.1分前25% #生成对抗网络 11. DOA: Training-Free Decoder-Only Attention Policy for Lo 7.8分前25% #语音翻译 12. GaMi: Geometry-Agnostic Material Identification via Cro 7.8分前50% - 13. Improving acoustic drone detection generalization throu 7.7分前50% #音频事件检测 14. Audio Pirates: Black-box Audio Watermark Removal via Di 7.4分前25% #扩散模型 15. Latent Space Disentanglement via Activation Steering fo 7.3分后50% #音乐生成 16. Scaling Conversational Hungarian ASR: The BEA-Dialogue+ 7.2分前50% #语音识别 17. On the Use of Dereverberation for Acoustic Feedback Can 6.7分前50% #语音增强 18. Towards Streaming Synchronized Spatial Audio Generation 6.5分前50% #自回归模型 19. 3DAE: Binaural Quality Assessment for Audio Novel View 6.5分前50% #音频质量评估 20. OpenSTBench: Beyond Semantic Evaluation for Speech Tran 6.0分前50% #语音翻译 21. Sound effects in media:A comparative analysis of record 5.7分前50% #音频生成 22. Mental Damage: Caption Poisoning Attacks on Retrieval-A 5.6分前50% #音乐生成 23. A Unified and Reproducible Experimentation Framework fo 5.5分前50% #语音识别 📋 论文列表 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS 🔥 10.0/10 | 前25% | #零样本语音合成 | #Transformer | #块扩散解码 #流式处理 | arxiv ...