动态规划 | 语音/音乐/音频论文速递

Precise and Simple Audio-to-Score Alignment

📄 Precise and Simple Audio-to-Score Alignment #音乐信息检索 #音乐转录 #节拍跟踪 #动态规划 #信号处理 ✅ 6.8/10 | 前50% | #音乐信息检索 | #动态规划 | #音乐转录 #节拍跟踪 | arxiv 学术质量 4.3/7 | 影响力 1.0/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构第一作者：Silvan Peter（Johannes Kepler University, Linz, Austria; Institute of Computational Perception; LIT AI Lab）通讯作者：未说明作者列表：Silvan Peter（Johannes Kepler University, Linz, Austria; Institute of Computational Perception; LIT AI Lab）、Patricia Hu（Johannes Kepler University, Linz, Austria; Institute of Computational Perception）、Gerhard Widmer（Johannes Kepler University, Linz, Austria; Institute of Computational Perception; LIT AI Lab） 💡 毒舌点评该文提出了一种巧妙且实用的音频到乐谱对齐方法，直接将音频的音高激活特征作为“转录原型”与乐谱匹配，避免了显式转录步骤。方法在钢琴数据集上表现出色，显著优于传统DTW基线，证明了“桥接”思路的有效性。然而，其宣称的“优越性”因对比基线选择过于保守（仅与传统DTW方法对比）而大打折扣，且缺乏对方法内部组件贡献的消融实验，使得其核心创新点（如动态节拍估计、混合特征）的实际增益成谜。此外，该方法强依赖于钢琴和特定调律，其普适性存疑。 ...

Precise and Simple Audio-to-Score Alignment

📄 Precise and Simple Audio-to-Score Alignment #音乐信息检索 #动态规划 #信号处理 #开源工具 ✅ 6.2/10 | 前50% | #音乐信息检索 | #动态规划 | #信号处理 #开源工具 | arxiv 学术质量 4.8/8 | 影响力 0.7/1 | 可复现性 0.7/1 | 置信度中 👥 作者与机构第一作者：Silvan Peter（Johannes Kepler University, Institute of Computational Perception; LIT AI Lab）通讯作者：未说明作者列表：Silvan Peter（Johannes Kepler University, Institute of Computational Perception; LIT AI Lab）、Patricia Hu（Johannes Kepler University, Institute of Computational Perception）、Gerhard Widmer（Johannes Kepler University, Institute of Computational Perception; LIT AI Lab） 💡 毒舌点评该工作提出了一种将信号处理与符号对齐相结合的混合范式，用以直接进行音频到乐谱的对齐，思路清晰且实用。其优势在于避免了复杂的转录步骤，并在线性时间内实现了较高的对齐精度。然而，论文的“简单”声明可能掩盖了实际调参的复杂性，且实验评估存在明显短板，如完全缺乏消融实验，这使得其方法有效性的归因和泛化性评估大打折扣。仅在钢琴音乐上的验证也限制了其宣称的普适性。 ...

语音/音乐/音频论文速递 2026-05-20

语音/音乐/音频论文速递 2026-05-20 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #语音分离 2篇 ██ #声源定位 2篇 ██ #音频事件检测 1篇 █ #音视频 1篇 █ #视频理解 1篇 █ #音频深度伪造检测 1篇 █ #语音伪造检测 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文评分分档主任务 🥇 Executable Boundary Contracts for Sound Event Traces 8.4分前25% #音频事件检测 🥈 Cross-Talk Speech Reduction, by Separation, for Separat 8.3分前10% #语音分离 🥉 When Vision Speaks for Sound 7.7分前25% #音视频 4. Can Large Language Models Reliably Correct Errors in Lo 7.5分前25% #语音识别 5. OmniPro: A Comprehensive Benchmark for Omni-Proactive S 7.3分前25% #视频理解 6. EMO-BOOST: Emotion-Augmented Audio-Visual Features for 7.2分前25% #音频深度伪造检测 7. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.0分前25% #语音伪造检测 8. Optimising Neural Speech Codecs for 300bps Communicatio 7.0分前30% #音频编码 9. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分前50% #音频问答 10. Sparse Fluid Antenna Arrays: Continuous Position Design 7.0分前25% #声源定位 11. Mega-ASR: Towards In-the-wild^2 Speech Recognition via 6.8分前35% #语音识别 12. GroupAffect-4: A Multimodal Dataset of Four-Person Coll 6.8分前50% #数据集 13. Fast Multichannel NMF with Block-Diagonal Spatial Covar 6.5分前50% #语音分离 14. MSAVBench: Towards Comprehensive and Reliable Evaluatio 6.5分前40% #基准测试 15. Precise and Simple Audio-to-Score Alignment 6.2分前50% #音乐信息检索 16. Benchmarking Commercial ASR Systems on Code-Switching S 6.2分前50% #语音识别 17. CounterFlow: A Two-Phase Inference-Time Sampling for Co 6.0分前25% #音频生成 18. FormalASR: End-to-End Spoken Chinese to Formal Text 6.0分前35% #语音识别 19. Towards Trust Calibration in Socially Interactive Agent 5.9分前50% #社交智能体 20. A conceptual framework for learning to listen by reward 5.0分前50% #声源定位 📋 论文列表 🥇 Executable Boundary Contracts for Sound Event Traces 🔥 8.4/10 | 前25% | #音频事件检测 | #基准测试 | #形式化验证 #数据增强 | arxiv ...