论文速递 | 语音/音乐/音频论文速递

Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation

📄 Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation #语音识别 #语音翻译 #扩散模型 #流匹配 8.3/10 | 创新 1.7/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.3/10 | 前25% | #语音识别 | #语音翻译 | #扩散模型 #流匹配 | arxiv 👥 作者与机构论文作者包括 Xuanchen Li（共同第一作者）， Tianrui Wang（共同第一作者）， Yuheng Lu， Zikang Huang， Yu Jiang， Chenghan Lin， Chenrui Cui， Ziyang Ma， Xingyu Ma， Chunyu Qiang， Guochen Yu， Xie Chen， Longbiao Wang， Jianwu Dang（通讯作者）。机构在作者列表中未明确标注，但根据通讯作者信息及论文常见模式，推测主要来自小米和相关合作机构。 ...

SSL-GMMVC: Interpretable Voice Conversion via Locally Linear GMM Transforms in Self-Supervised Representation Space

📄 SSL-GMMVC: Interpretable Voice Conversion via Locally Linear GMM Transforms in Self-Supervised Representation Space #语音转换 #高斯混合模型 #自监督学习 #低资源 6.8/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 6.8/10 | 前50% | #语音转换 | #高斯混合模型 | #自监督学习 #低资源 | arxiv 👥 作者与机构作者：Tomoya Tanabu, Hiroshi Nishijima, Daisuke Saito, Nobuaki Minematsu 机构：The University of Tokyo, Japan (东京大学) 邮箱：{tanabu,hiroshi,dsk_saito,mine}@gavo.t.u-tokyo.ac.jp ...

Time-frequency localization of bird calls in dense soundscapes

📄 Time-frequency localization of bird calls in dense soundscapes #迁移学习 #信号处理基础 8.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.5/10 | 前25% | #信号处理基础 | #迁移学习 | arxiv 👥 作者与机构 Simen Hexeberg1,2, Fanghui Tong3, Hari Vishnu1, and Mandar Chitre1,2 Acoustic Research Laboratory, National University of Singapore Tropical Marine Science Institute, National University of Singapore 未在作者列表中明确机构 💡 毒舌点评这篇论文像一个勤恳的工程师，而不是一个富有想象力的科学家。它将一个成熟的计算机视觉模型（YOLO）直接“移植”到一个音频任务上，并为此提供了一个不错的标注工具。主要贡献是“证明了可行性”和“提出了一个可能有用的评估指标（IoMin）”。然而，创新性显得薄弱，技术深度有限，实验分析可以更深入。论文读起来更像是一个应用报告，而非一篇能推动领域理论或方法前进的顶会论文。它解决了“如何做”，但对于“为什么这样做特别好”或“如何做得根本性更好”的回答不够有力。 ...

Towards Deep Contextual Reasoning from Broad Descriptions for ASR with Speech-LLM via Metadata-Driven Reasoning Chains

📄 Towards Deep Contextual Reasoning from Broad Descriptions for ASR with Speech-LLM via Metadata-Driven Reasoning Chains #语音识别 #参数高效微调 #多任务学习 #数据增强 6.2/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 6.2/10 | 前50% | #语音识别 | #参数高效微调 | #多任务学习 #数据增强 | arxiv 👥 作者与机构 Jakob Poncelet, Hugo Van hamme，来自比利时鲁汶大学电气工程系ESAT-PSI。 💡 毒舌点评这篇论文的核心想法——让语音大模型通过“推理”来利用宽泛的元数据进行纠错——听起来很美好，但更像是把传统的“关键词偏置”包装成了“深度推理”。其“推理”链的生成完全依赖于一个离线的文本LLM，训练时模型只是在模仿这个固定链条的输出，这与模型自身进行多步逻辑推断的“深度”相去甚远。实验上，评估集（M³AV）与训练数据来源高度重合（同为YouTube学术视频），这让人怀疑其改进是否仅仅是过拟合到了特定领域和说话风格。更关键的是，论文声称解决“音频与上下文冲突”，但并未提供任何实验或分析来展示模型在这种情况下会如何决策，这使得其核心论证之一成了空中楼阁。总的来说，工作扎实但缺乏真正的突破性，将“链式思维监督”等同于“学会推理”是一个需要更严格论证的强假设。 📌 核心摘要本文针对自动语音识别（ASR）在罕见词和领域特定术语上表现不佳的问题，提出了一种利用广泛上下文描述（如视频标题、描述）进行“深度上下文推理”的方法。核心思路是构建一个两阶段流程：首先，通过流水线将音频、其错误转录文本、上下文元数据以及文本LLM生成的“推理链”配对，构建一个“推理增强”的语音数据集（约400小时）。其次，训练语音LLM（如Qwen2-Audio-7B）以链式思维（CoT）格式输出：先生成初始转录，然后基于上下文进行推理，最后输出修正后的转录。实验在M³AV、SlideSpeech和SlideAVSR等测试集上进行，表明该方法在稀有词和命名实体识别上相比多种基线（如无微调、仅ASR微调、带上下文直接微调）均有提升。然而，论文的“推理”主要依赖预生成的监督信号，模型是否真正进行了多步推理存疑。评估数据集与训练数据同源，泛化能力有待验证。论文开源了构建的数据集，但未提供代码或模型权重。 ...

Towards Robust Arabic Speech Emotion Recognition with Deep Learning

📄 Towards Robust Arabic Speech Emotion Recognition with Deep Learning #自监督学习 #数据增强 #低资源 6.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.4/10 | 前50% | #语音情感识别 | #自监督学习 | #数据增强 #低资源 | arxiv 👥 作者与机构 Youcef S. Gheffari, Samiya Silarbi ADASCA Laboratory – Advanced Data Science and Cognitive Applications, Université des Sciences et de la Technologie d’Oran Mohamed Boudiaf (USTO-MB), Oran, Algeria ...

TRADE: Transducer-Augmented Decoder for Speech LLM

📄 TRADE: Transducer-Augmented Decoder for Speech LLM #语音识别 #大语言模型 7.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.1/1.5 | 复现 0.2/0.5 | 工程 1/1.5 ✅ 7.4/10 | 前25% | #语音识别 | #大语言模型 | arxiv 👥 作者与机构作者：Yun Tang, Shanil Puri, Shinji Watanabe, Subhabrata Mukherjee 机构：Hippocratic AI, Carnegie Mellon University 💡 毒舌点评这篇论文试图解决一个关键痛点：给已经很强的语音大模型（Speech LLM）加上实时听写的能力。作者的思路很直接，既然LLM自己没法“听音辨位”，那就外挂一个天生就有时间感的“耳朵”（转录器/Transducer）。这种“LLM负责想，转录器负责听和对齐”的混合架构（TRADE）想法确实巧妙，尤其是在共享编码器和隐藏状态上的设计，体现了工程上的巧思。然而，论文最大的槽点在于“闭源”——代码、模型、数据统统不给。在当下这个强调复现和开源的时代，这简直是在审稿人雷区蹦迪。文章报告的性能看起来不错，但缺乏可验证的实现细节（比如“Decoder-to-Joint Adaptor”具体是什么网络？），让整个工作的可信度打了个折扣。创新性有，但更多是系统工程上的整合创新；理论深度一般；实验还算全面，但局限性部分提到的“英语限制”和“计算需求”在顶级会议上几乎是标配批评，缺乏更犀利的自我剖析。 📌 核心摘要本文提出TRADE，一种将转录器（Transducer）与多模态大语言模型（LLM）紧密耦合的架构，旨在解决语音LLM缺乏帧同步对齐、难以进行流式推理和端点检测的问题。TRADE通过共享音频编码器，并将LLM的隐藏状态直接用作转录器的预测网络，实现了声学对齐与语言推理的紧密耦合。其关键设计包括：1) 从LLM词表派生的紧凑转录器词表，实现零成本分数融合；2) 分块同步训练与梯度阻断，消除训练-推理不匹配；3) 局部解码器音频注意力（LDAA），用因果滑动窗口限制LLM对音频注意力的内存占用。单一检查点支持离线、流式及长语音解码。在Open ASR Leaderboard上，离线WER为6.71%，流式（960ms块）WER为8.40%；长语音无需外部分割即在TED-LIUM和Earnings-22上分别取得3.64%和10.88%的WER。此外，转录器输出的标点可与声学VAD融合，提升端点检测F1值0.03。 ...

ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning

📄 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning #自监督学习 #低资源 #语音识别 #语音情感识别 #说话人验证 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.7/10 | 前25% | #语音识别 | #自监督学习 | #低资源 #语音情感识别 | arxiv 👥 作者与机构作者：Khanh Le, Kiet Anh Ha, Bao Duy Le, Dung Thai, Linh Khoa Tran, D Doan 机构：VinUniversity, Vietnam; UNEY, Switzerland ...

What Do Deepfake Speech Detectors Actually Hear?

📄 What Do Deepfake Speech Detectors Actually Hear? 7.6/10 ✅ 7.6/10 | 前25% | arxiv 🔗 开源详情代码：https://github.com/Security-FIT/IG_for_SSL_detectors 模型权重：论文中未提及具体的模型权重链接（论文仅提及使用了预训练的WavLM Base+模型，但未提供其权重存储库的直接链接）。数据集：ASVspoof 5 (论文中提及，但未提供具体获取链接；这是一个公开的学术基准数据集，可通过其官方渠道获取)。 Demo：论文中未提及。复现材料：论文提供了详细的训练配置（优化器、学习率、数据增强策略等），并在其GitHub仓库中包含了实施细节。未单独提供检查点链接。论文中引用的开源项目： WavLM (Base+)：论文中提及的预训练模型。论文中未提供权重链接。 Captum：用于实现集成梯度方法的库。链接：https://captum.ai/ AASIST：论文中分析的一种检测器架构。论文引用 [jung22aasist] 和 [borodin24_asvspoof]。 Context-Aware MHFA (CA-MHFA)：论文中分析的一种检测器架构。论文引用 [BUT198050] 和 [rohdin24_asvspoof]。 Sensitive Layer Selection (SLS)：论文中分析的一种检测器架构。论文引用 [sls]。 RawBoost：一种数据增强方法 (LnL-ISD)。论文中提及但未提供链接。 Wav2Vec 2.0：提及的预训练模型。论文中未提供权重链接。 ASVspoof 5：提及的评估数据集。论文中未提供具体获取链接。 YourTTS：提及的语音合成模型 (论文中提及为攻击A28)。论文中未提供链接。 📷 论文图片 ← 返回 2026-06-10 语音/音乐/音频论文速递

语音/音乐/音频论文速递 2026-06-10

语音/音乐/音频论文速递 2026-06-10 共分析 45 篇论文 ⚡ 今日概览 📥 抓取 45 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 13篇 █████████████ #数据增强 3篇 ███ #自监督学习 2篇 ██ #语音合成 2篇 ██ #多模态模型 1篇 █ #语音对话系统 1篇 █ #语音生成 1篇 █ #参数高效微调 1篇 █ 📊 论文评分排行榜（45 篇，按分数降序）排名论文总分分档主任务 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining M 9.7分前25% #语音识别 🥈 Spatial-Omni: Spatial Audio Understanding Integration i 9.4分前25% #多模态模型 🥉 Multi-Faceted Interactivity Alignment in Full-Duplex Sp 9.3分前25% #语音对话系统 4. OmniCap-IF: Benchmarking and Improving Instruction Foll 9.1分前25% #语音生成 5. RAT: Reference-Augmented Training for ASV Anti-Spoofing 8.8分前25% #数据增强 6. Recovering the Zipfian Distribution in Unsupervised Ter 8.7分前50% #自监督学习 7. LLM can Read Spectrogram: Encoder-free Speech-Language 8.6分前25% #语音识别 8. ParaBridge: Bridging Paralinguistic Perception and Dial 8.6分前25% #参数高效微调 9. Time-frequency localization of bird calls in dense soun 8.5分前25% #信号处理基础 10. Ethical and Technical Limits of Deepfake Speech Dataset 8.4分前25% - 11. Speech Meets ELF: Audio Conditional Continuous-Target D 8.3分前25% #语音识别 12. DeRA-MOS: Optimizing Text-to-Music Evaluation via Decou 8.2分前25% #音乐评估 13. Anchoring the Unknown: Open-Set Model Attribution via P 8.0分前25% #多语言 14. ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refi 8.0分前25% #语音质量评估 15. ContextCodec: Content-Focused Context Guidance for Ultr 7.9分前25% #语音编码 16. GlobeAudio: A Multilingual Multicultural Benchmark for 7.9分前25% #语音识别 17. Dual-Branch Gated Fusion for Open-Set Audio Deepfake So 7.8分前25% #音频深度伪造检测 18. Data Journalist Agent: Transforming Data into Verifiabl 7.7分前25% - 19. GC-LoRA: Gated Convolutional LoRA for Parameter-Efficie 7.6分前25% #语音识别 20. What Do Deepfake Speech Detectors Actually Hear? 7.6分前25% - 21. KFC-KWS: Keyframe Fusion with CTC for User-Defined Keyw 7.6分前25% #关键词检测 22. Entropy-Aware Domain-Routed Mixture-of-Experts Speech-L 7.5分前25% #语音识别 23. Linguistically Augmented Audio Speech Data (LinguAS) 7.5分后50% #语音伪造检测 24. AudioProcessBench: Benchmark for Identifying Process Er 7.5分前50% - 25. Cross-Modal Knowledge Distillation without Paired Data: 7.5分前50% #语音识别 26. AuRA: Internalizing Audio Understanding into LLMs as Lo 7.5分前25% #语音问答 27. TRADE: Transducer-Augmented Decoder for Speech LLM 7.4分前25% #语音识别 28. Inside the Latent Flow: Causal Deciphering of Attention 7.3分前50% #语音分离 29. Optimality of FSQ Tokens for Continuous Diffusion for C 7.3分前50% #语音合成 30. Speech Encoder Fusion for LLM-based Automatic Speech Re 7.2分后50% #语音识别 31. Enhancing Multilingual LLM-based ASR with Mixture of Ex 7.0分前50% - 32. Phoneme-First Prediction for LLM-Based Speech Recogniti 6.9分前50% #语音识别 33. Profy: Interpretable Visualization of Expertise-Depende 6.9分前50% #音乐信息检索 34. Optimizing 2D Input Representations and Sub-phase Fusio 6.8分前50% #数据增强 35. SSL-GMMVC: Interpretable Voice Conversion via Locally L 6.8分前50% #语音转换 36. Deploying Speech-Driven 3D Facial Animation in Unreal E 6.6分前50% #语音合成 37. RespiraMFM: A Multimodal Foundation Model with Contrast 6.5分前50% #对比学习 38. From Senses to Decisions: The Information Flow of Audit 6.5分前50% #语音识别 39. Speaker Group Encoding in Self-supervised Speech Recogn 6.5分前50% #语音识别 40. Towards Robust Arabic Speech Emotion Recognition with D 6.4分前50% #语音情感识别 41. Multilingual Word-Level Forced Alignment with Self-Supe 6.3分前50% #自监督学习 42. Overview of ESDD2: Environment-Aware Speech and Sound D 6.3分前50% #数据增强 43. Towards Deep Contextual Reasoning from Broad Descriptio 6.2分前50% #语音识别 44. A Lightweight Dual-Factor Acoustic Authentication Syste 6.0分前50% #说话人验证 45. Automated Pronunciation Evaluation for Korean Toddler S 6.0分前50% #说话人日志 📋 论文列表 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

A Comparative Study of Pre-trained Speech Encoders and Training Objectives for Large-Scale Indic Spoken Language Identification

📄 A Comparative Study of Pre-trained Speech Encoders and Training Objectives for Large-Scale Indic Spoken Language Identification #自监督学习 #对比学习 #低资源 #多语言 8.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.9/10 | 前50% | #自监督学习 | #自监督学习 | #对比学习 #低资源 | arxiv 👥 作者与机构 Agneedh Basu1, Pavan Kumar J1, Sujith P1, Visruth Sanka1, Nihar Desai1, Prasanta Kumar Ghosh2 ...