论文速递 | 语音/音乐/音频论文速递

语音/音乐/音频论文速递 2026-06-25

语音/音乐/音频论文速递 2026-06-25 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 6篇 ██████ #语音合成 5篇 █████ #语音增强 2篇 ██ #音乐生成 1篇 █ #语音翻译 1篇 █ #语音伪造检测 1篇 █ #自监督学习 1篇 █ #端到端 1篇 █ 📊 论文评分排行榜（27 篇，按分数降序）排名论文总分分档主任务 🥇 Fully Differentiable Neural Forced Alignment via Soft D 8.3分前25% - 🥈 Attractive and Repulsive Pattern Control in Sequence Ge 8.1分前25% #音乐生成 🥉 STEB: A Speech-to-Speech Translation Expressiveness Ben 7.8分前50% #语音翻译 4. Supervised Post-training of Speech Foundation Models fo 7.6分前50% #语音伪造检测 5. Joint Residual Reweighting for Classifier Free Guidance 7.5分前50% #语音合成 6. Velocity Prediction in Automatic Guitar Transcription 7.5分前25% - 7. SE-AGCNet: An End-to-End Framework for Joint Speech Enh 7.4分前50% #语音增强 8. MJEPA: A Simple and Scalable Joint-Embedding Predictive 7.4分前25% #自监督学习 9. Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese 7.3分前50% #语音合成 10. One Model, Many Latencies: Universal Speech Enhancement 7.2分前50% #语音增强 11. From Sounds to Scenes: A Benchmark for Evaluating Conte 7.2分前50% #语音识别 12. Wan-Streamer v0.1: End-to-end Real-time Interactive Fou 7.2分前25% #语音合成 13. Does Translation-Enhanced Speech Encoder Pre-training A 7.1分前50% #语音识别 14. Adaptive Oscillatory Inductive Bias for Modeling Sharp 7.0分前50% #语音合成 15. End-to-End Voice Intent Recognition for Spontaneous Hum 7.0分前50% #端到端 16. Real-Time Voice AI Hears but Does Not Listen 7.0分前50% - 17. FoleySet: A Multi-Level Human-Annotated Foley Sound Dat 7.0分前50% #音频分类 18. EmotionAI: A Privacy-Preserving Computational Intellige 6.9分前50% #语音情感识别 19. Frequency-Aware Self-Supervised Music Representation Le 6.8分前50% #音乐信息检索 20. BCoughBench: Benchmarking Respiratory Acoustic Foundati 6.7分前50% #基准测试 21. SpeechEQ: Benchmarking Emotional Intelligence Quotient 6.7分前25% #语音对话系统 22. Graph-Based Phonetic Error Correction of Noisy ASR 6.7分前50% #语音识别 23. What Does a Pathological Speech Assessment Model Know a 6.4分前50% #语音可懂度评估 24. Phoneme-Level Mispronunciation Screening in Polish-Spea 6.2分前50% #语音识别 25. Error-Aware TF-IDF Retrieval-Augmented Generation for A 6.1分前50% #语音识别 26. Evaluating Japanese Dialect Robustness Across Speech an 5.8分前50% #语音识别 27. CrossAccent-TTS: Cross-Lingual Accent-Intensity Control 5.5分前50% #语音合成 📋 论文列表 🥇 Fully Differentiable Neural Forced Alignment via Soft Dynamic Programming 8.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ...

A Fusion-Aware Two-Stage Framework for Mispronunciation Detection and Diagnosis in Low-Resource Modern Standard Arabic

📄 A Fusion-Aware Two-Stage Framework for Mispronunciation Detection and Diagnosis in Low-Resource Modern Standard Arabic #语音识别 #低资源 #自监督学习 #集成学习 7/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前25% | #语音识别 | #自监督学习 | #低资源 #集成学习 | arxiv 👥 作者与机构论文作者包括Yang, Zhang, Deng, Li, Dang, Huang, Chen, Benesty, Jing, Shuqing, Yongyi, Pan, Ting, Gongping, Jingdong, Jacob。主要机构为武汉大学、墨尔本大学、西北工业大学和魁北克大学。 ...

A Methodology for Characterizing Underwater Radiated Noise from Submerged Electric Vehicles in a Coastal Environment: An AUV Test Case

📄 A Methodology for Characterizing Underwater Radiated Noise from Submerged Electric Vehicles in a Coastal Environment: An AUV Test Case #信号处理基础 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7/10 | 前50% | #信号处理基础 | #信号处理基础 | arxiv 👥 作者与机构作者：Mark Shipton， Amir Boag， Roee Diamant 机构：以色列海法大学海洋技术系、克罗地亚萨格勒布大学电气工程与计算学院、以色列特拉维夫大学电气与计算机工程学院 💡 毒舌点评这篇论文提供了一个极其系统化的“菜谱式”方法论，步骤清晰，公式完备，堪称工程实践的典范。然而，其主要贡献在于“如何测量”而非“测出了什么新物理”。论文的核心更像是为特定类型平台（无空化、电驱）量身定做的测量SOP，并用一个案例验证了该SOP“跑得通”。其学术深度和普适性论证（如仅在一个平静海况、单一AUV上验证）略显不足。结论中“为未来标准化工作提供重要参考”的说法，比方法论本身的创新性更为宏大。对于追求机理突破或普适性理论的读者，可能会觉得“就这？”。 📌 核心摘要本文针对水下电动交通工具（SEV）声辐射特征化缺乏标准方法的问题，提出了一套系统的八步法方法论。该方法论特别针对SEV的非空化电动推进特性，整合了校准的声学测量、同步的车辆元数据、环境噪声评估和传播校正的源级估计，旨在解决现有水面船舶噪声标准不适用于SEV的痛点。论文以A18D自主水下航行器（AUV）作为测试案例，在以色列海法沿海水域进行了实地验证。研究成功识别并高置信度地归属了AUV的声学特征，包括与速度环、电流环和PWM载波相关的音调群（约5.56 kHz， 11.11 kHz， 22.2 kHz），其谐波结构延伸至105 kHz。源级估计范围为77-120 dB re 1 µPa²/Hz @ 1m。结果表明，该框架能够有效分辨与电机控制相关的窄带特征，并分析其随速度和观测角度的变化，为SEV的声学特征化和被动探测提供了可重复的实用工具。 ...

A Multi-Stage Separation-and-Classification Framework Guided by Complementary Acoustic-to-Semantic Clues

📄 A Multi-Stage Separation-and-Classification Framework Guided by Complementary Acoustic-to-Semantic Clues #音频分类 #数据增强 7.5/10 | 创新 1/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ✅ 7.5/10 | 前50% | #音频分类 | #数据增强 | arxiv 👥 作者与机构作者: Younghoo Kwon, Junwoo Park, Han Yin, Jung-Woo Choi 单位: 未在论文中明确提供。领域: eess.AS (音频和语音处理) 会议/期刊: DCASE 2026 Challenge Task 4 参赛系统报告代码: 未提供。 💡 毒舌点评这篇论文本质上是一个精心打磨的竞赛系统报告，而非一篇旨在推进科学边界的学术论文。其核心价值在于工程整合与针对性优化，而非方法论创新。作者坦率地承认站在DeepASA和DCASE 2025 Task 4系统（[6]）的肩膀上，但增量贡献（AF-Whisper条件化、持续时间增强、阈值优化）的理论深度有限。最令人不安的是“类别特定阈值优化”——这无异于在测试集上进行“作弊式”调参以最大化排行榜指标，其泛化性和科学严谨性严重存疑。此外，核心组件DeFT-Mamba的细节完全黑箱，使得论文几乎不可复现，这在顶会标准下是重大缺陷。总结：一份优秀的工程实践报告，但一篇不合格的学术论文。 ...

A Variational-Flow Analysis of StoRM under Noise-Power Mismatch

📄 A Variational-Flow Analysis of StoRM under Noise-Power Mismatch #语音增强 #扩散模型 #理论分析 4.4/10 | 创新 1.4/2 | 严谨 1/1.5 | 实验 0.2/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 0.2/1.5 📝 4.4/10 | 前50% | #语音增强 | #扩散模型 | #理论分析 | arxiv 👥 作者与机构作者：Shubham Ojha 机构：未提及 💡 毒舌点评这是一篇结构清晰、野心勃勃的理论工作，试图为StoRM模型在噪声功率失配下的“Kink”现象提供一个严格的数学解释。其核心洞察——将输出敏感性分解为下游放大矩阵和上游预测器敏感性的乘积——在理论上是优雅且有潜力的。然而，该工作目前的完成度远未达到顶会标准。它本质上是一份“研究纲领”或“初步报告”，而非一篇完整的论文。所有核心假设（假设2、3）和关键定理（定理2）的证明都未完成或仅有提纲，而论文中声称的实验验证被完全推迟。这导致整个理论框架如同空中楼阁，其有效性完全依赖于未来（且未保证的）配套报告。如果这是一篇投稿，其状态更接近于“在进行中的工作”，而非“已完成的研究”。 📌 核心摘要本文针对混合扩散语音增强模型（以StoRM为实例）在噪声功率偏离训练条件时性能急剧下降的“Kink”现象，提出了一种基于变分流动的理论分析框架。核心贡献是推导了一个精确的、逐路径的参数敏感性乘积分解：输出对噪声功率参数M的敏感性，等于一个由分数雅可比矩阵决定的连续矩阵值泛函K(M)，与预测器输出对M的敏感性的乘积。在三个关于逆向过程流的假设下，论文证明了一个“当且仅当”定理，将增强输出的C1光滑性失效（Kink）归因于预测器映射的C1光滑性失效。该结论被推广到离散欧拉-丸山采样器。论文明确指出，所有假设验证和实验评估均被推迟到一份配套的实验报告中，当前版本仅呈现理论框架和实验计划。 🔗 开源详情代码：论文中未提及代码链接或仓库。模型权重：论文中未提及模型权重链接。数据集：论文中未提及具体数据集名称、链接或协议。 Demo：论文中未提及。复现材料：论文中未提及复现材料（如训练配置、检查点、附录等具体信息）。论文中引用的开源项目： StoRM: 未提供具体链接（论文中将其作为所研究的“canonical instance”进行引用）。 SGMSE+: 未提供具体链接（论文中作为相关工作进行引用）。 🏗️ 方法概述和架构本文提出了一种用于分析噪声功率失配下扩散增强模型行为的变分流动分析框架，其架构和方法可逐层展开如下： ...

Aligning MusicLLM with Emotion using Instruction Tuning and Feedback-Driven Alignment

📄 Aligning MusicLLM with Emotion using Instruction Tuning and Feedback-Driven Alignment #音乐情感识别 #指令微调 #强化学习 4.9/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.2/1.5 📝 4.9/10 | 后50% | #音乐情感识别 | #指令微调 | #强化学习 | arxiv 👥 作者与机构作者：Takuya Hasumi, Welly Naptali 机构：LY Corporation 💡 毒舌点评这篇论文的动机尚可，但执行和论证的深度令人失望。它本质上是一次技术应用的报告，而非方法论上的创新。所谓“反馈驱动对齐”不过是将已有的GRPO算法直接套用到一个新任务上，论文未提供任何为何该算法在此场景有效的深度洞察或实验分析。更糟糕的是，实验结果明确显示，即使应用了这一“对齐”，模型的性能依然被简单的MusicFM probing基线轻松碾压。这不禁让人质疑整个工作的必要性——如果一个专门为情感回归设计的、更简单的模型已经表现更好，我们为何要耗费数倍的资源去训练一个庞大、低效且性能更差的多任务模型？论文反复强调“保持了MusicQA能力”，但这更像是一个为了合理化低回归性能的借口。如果回归是主要目标，那么在主要目标上不及格，而次要目标上“达标”，并不能构成一个强有力的故事。 📌 核心摘要本文探讨了如何通过指令微调和反馈驱动对齐（FDA）来提升音乐大语言模型（MusicLLM）在情感回归任务上的表现。作者基于SLAM-LLM架构，构建了由MusicFM编码器和Vicuna解码器组成的模型。实验对比了仅指令微调、指令微调后接FDA（采用GRPO算法）等策略。结果表明，单独的指令微调对效度（valence）预测提升有限，而引入基于回归误差的数值奖励的FDA后，唤醒度和效度预测均得到显著提升，并且模型的通用音乐问答能力得以维持。然而，该方法最终的回归性能仍低于传统的MusicFM probing基线和部分编码器专用模型。 🔗 开源详情代码：论文中未提及代码链接。模型权重：音乐编码器 (MusicFM): https://huggingface.co/ExponentialML/MusicFM-LMS-256 文本解码器 (Vicuna): https://huggingface.co/lmsys/vicuna-7b-v1.5 作为基线评估的开源模型: Qwen2-Audio: https://huggingface.co/Qwen/Qwen2-Audio-7B-Instruct Phi-4-Multimodal: https://huggingface.co/microsoft/Phi-4-multimodal-instruct 数据集： DEAM: http://cvml.unige.ch/databases/DEAM/ MERGE: https://github.com/wangsixu/MERGE MusicQA: https://github.com/RuslanLukashen/MusicQA （用于评估通用音乐问答能力） Demo：论文中未提及。复现材料：论文中提及了详细的训练配置（如优化器、批次大小、梯度累积步数、LoRA参数、GRPO参数等），但未提供具体的训练脚本、配置文件或预训练检查点。论文中引用的开源项目： SLAM-LLM: https://github.com/fanhuashuo/SLAM-LLM （本工作基于的模型架构） GRPO (Group Relative Policy Optimization): https://github.com/airobotlab-KoGrPO/GRPO （论文中采用的对齐算法） LoRA (Low-Rank Adaptation): https://github.com/microsoft/LoRA （训练时使用的技术）作者与机构作者：Takuya Hasumi, Welly Naptali 机构：LY Corporation ...

Audio--Image Alignment as a Continued-Pretraining Stage Improves Low-Resource ASR

📄 Audio–Image Alignment as a Continued-Pretraining Stage Improves Low-Resource ASR #语音识别 #自监督学习 #对比学习 #低资源 #多模态模型 6.2/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.6/1.5 ✅ 6.2/10 | 前50% | #语音识别 | #自监督学习 | #对比学习 #低资源 | arxiv 👥 作者与机构作者：Sujith Pulikodan, Nihar Desai, Prasanta Kumar Ghosh。机构：论文中未明确说明作者所属机构。根据作者姓名和研究领域推测，可能来自印度的相关研究机构（例如印度科学研究所 IISc Bangalore）。 💡 毒舌点评改进幅度的“相对性”：论文在FLEURS上的21.26%相对WER降低听起来很惊人，但这主要是因为基线模型在FLEURS（未见语言）上表现极差（WER 67.78%）。从绝对数值看，最佳模型将WER从0.68降到0.53，仍属于“不可用”到“勉强可读”的范畴。在资源更丰富的Vaani上，改进仅在1-2%之间，这种“蚊子腿”级别的增益在实际部署中几乎无感。数据集依赖性过强：核心假设——易获取的音频-图像对——严重依赖于Vaani这个特定收集范式（图片提示说话）。在绝大多数真实低资源场景中，这种精心配对的多模态数据并不存在。方法泛化能力存疑。成本转嫁而非消除：声称“无需转录”，但获取数十万小时高质量且配对的音频-图像数据，其成本真的远低于获取转录文本吗？Vaani数据集本身的收集就是一项巨大的工程。这更像是将一种稀缺资源（转录文本）的成本转嫁到了另一种稀缺资源（配对多模态数据）上。消融不足：声称改进来自“对齐阶段”而非更多数据，但对比实验仅用了三个检查点的微小差异。更彻底的消融应包括：a) 使用相同音频但随机配对图像的模型；b) 使用相同音频但无图像（纯文本描述）的模型。现有证据链不够强。工程细节模糊：虽然描述了架构，但关键超参数（如对齐阶段各组件的学习率缩放因子0.05的具体依据）未解释。三种对齐配置的对比更像是超参搜索，而非对不同模态交互机制的深度分析。 📌 核心摘要本文针对低资源语音识别问题，提出了一种在自监督音频预训练和监督微调之间引入“音频-图像对齐”的中间适应阶段。该方法利用预先冻结的视觉编码器（如SigLIP2、Qwen3-VL）提取图像语义特征，通过对比学习（SigLIP损失）训练音频编码器，使其输出表示与图像特征对齐，全程无需转录文本。实验在Vaani（48种语言）和FLEURS（14种南亚语言）数据集上进行。结果表明，经过对齐的模型在两个基准上均优于直接微调的基线，尤其是在FLEURS这种更极端低资源场景下，最佳模型的词错误率（WER）实现了21.26%的相对下降，且统计检验显示该提升具有显著性。论文认为，此对齐阶段有效提升了音频表示的鲁棒性和泛化能力。 ...

Audio-visual Contrastive Alignment for Diffusion-based Visual-conditioned Speech Enhancement

📄 Audio-visual Contrastive Alignment for Diffusion-based Visual-conditioned Speech Enhancement #扩散模型 #对比学习 #多模态模型 #语音增强 8.1/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.1/10 | 前25% | #语音增强 | #对比学习 | #扩散模型 #多模态模型 | arxiv 👥 作者与机构 Colombe Mboungou, Mostafa Sadeghi, Jean-Eudes Ayilo, Romain Serizel Université de Lorraine, CNRS, Inria, Loria, Nancy, France 💡 毒舌点评这篇论文做了一件相对简单但合理的“缝合”工作：在一个现有的扩散式无监督视听语音增强（AV-UDiffSE+/DiffUSEEN）框架上，增加了一个训练时的对比损失来强化视听对齐。想法直接，实验也显示了收益。但作者似乎对这项工作的定位过于乐观。它本质上是一个模块化改进，而非架构或范式上的突破。论文在讨论中声称“明确研究了跨模态对齐的作用”，但其实验主要展示了“增加对比损失能提升性能”，对于“为何现有交叉注意力机制不够”以及“对比损失具体如何改善表示空间”的深层机制探讨不足。将这样一个相对增量的工作发表在顶会，需要更强的洞察力和更全面的分析来支撑。 ...

Autoencoder based optimized SSL representations: Complexity Minimization and improved Dysarthric ASR

📄 Autoencoder based optimized SSL representations: Complexity Minimization and improved Dysarthric ASR #语音识别 #自监督学习 #低资源 5.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 📝 5.5/10 | 前50% | #语音识别 | #自监督学习 | #低资源 | arxiv 👥 作者与机构 Paban Sapkota (作者), Hemant Kumar Kathania (作者), Mikko Kurimo (作者), Shrikanth Narayanan (作者), Sudarsana Reddy Kadiri (通讯作者) ...

AVOC: Enhancing Hour-Level Audio-Video Understanding in Omni-Modal LLMs via Retrieval-Inspired Token Compression

📄 AVOC: Enhancing Hour-Level Audio-Video Understanding in Omni-Modal LLMs via Retrieval-Inspired Token Compression #多模态模型 #模型压缩 8.4/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.4/10 | 前25% | #多模态模型 | #模型压缩 | arxiv 👥 作者与机构作者：Yijing Chen, Wenhui Tan, Xiaoyi Yu, Yuyue Wang, Xin Cheng, Kaisi Guan, Hao Jiang, Xiangyang Li, Guojie Zhu, Ruihua Song 机构：中国人民大学高瓴人工智能学院，华为技术有限公司 ...