分布式阵列

📄 Fast Multichannel NMF with Block-Diagonal Spatial Covariance Matrices for Efficient Blind Source Separation Using Distributed Microphone Arrays #语音分离 #麦克风阵列 #信号处理 #多通道 #高效推理 #分布式阵列 ✅ 6.5/10 | 前50% | #语音分离 | #麦克风阵列 #信号处理 | #麦克风阵列 #信号处理 | arxiv 学术质量 5/8 | 影响力 0.5/1 | 可复现性 1/1 | 置信度高 👥 作者与机构第一作者：Hirotaka Nishikori (东京大学) 通讯作者：论文中未明确指定，但第一作者隶属于东京大学作者列表：Hirotaka Nishikori (东京大学)，Nobutaka Ito (日本产业技术综合研究所 AIST)，Kouei Yamaoka (东京大学)，Norihiro Takamune (东京大学)，Hiroshi Saruwatari (东京大学) 💡 毒舌点评这篇论文为成熟的FastMNMF框架引入了一个针对分布式阵列的“块对角”结构约束，其工程动机明确，理论支撑（附录定理1）严谨，旨在为全阵列处理和单子阵列处理之间提供一个高效的中间选项。然而，其实验验证如同一场精心控制的温室实验——所有条件（同步、无噪、固定几何）都被完美设定，且基线选择仅限于自身变体，这严重限制了其结论在充满噪声、异步和动态的真实世界部署中的适用性。 📌 核心摘要本文旨在解决将快速多通道非负矩阵分解（FastMNMF）应用于由多个子阵列组成的分布式麦克风阵列时的计算效率瓶颈。核心方法是为源的空间协方差矩阵（SCM）施加一个块对角结构约束，每个块对应一个子阵列。该约束使得矩阵求逆等昂贵操作仅在子阵列内部进行，同时通过在所有子阵列间共享源频谱图的NMF模型来聚合源活动信息。其目标不是超越全阵列FastMNMF，而是在其与单子阵列FastMNMF之间取得计算效率与分离性能的平衡。实验表明，与使用全部麦克风的全阵列方法相比，该方法计算时间减少至33.9%（快约2.95倍）；与使用单个子阵列的方法相比，其源-失真比改善量（SDR improvement）在3源和5源情况下分别提升0.8 dB和0.5 dB。该方法的主要意义在于为分布式阵列BSS提供了高效的计算方案，其主要局限性在于所有评估均在同步、无噪、固定几何的理想模拟环境中进行。 ...

语音/音乐/音频论文速递 2026-05-20 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #语音分离 2篇 ██ #声源定位 2篇 ██ #音频事件检测 1篇 █ #音视频 1篇 █ #视频理解 1篇 █ #音频深度伪造检测 1篇 █ #语音伪造检测 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文评分分档主任务 🥇 Executable Boundary Contracts for Sound Event Traces 8.4分前25% #音频事件检测 🥈 Cross-Talk Speech Reduction, by Separation, for Separat 8.3分前10% #语音分离 🥉 When Vision Speaks for Sound 7.7分前25% #音视频 4. Can Large Language Models Reliably Correct Errors in Lo 7.5分前25% #语音识别 5. OmniPro: A Comprehensive Benchmark for Omni-Proactive S 7.3分前25% #视频理解 6. EMO-BOOST: Emotion-Augmented Audio-Visual Features for 7.2分前25% #音频深度伪造检测 7. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.0分前25% #语音伪造检测 8. Optimising Neural Speech Codecs for 300bps Communicatio 7.0分前30% #音频编码 9. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分前50% #音频问答 10. Sparse Fluid Antenna Arrays: Continuous Position Design 7.0分前25% #声源定位 11. Mega-ASR: Towards In-the-wild^2 Speech Recognition via 6.8分前35% #语音识别 12. GroupAffect-4: A Multimodal Dataset of Four-Person Coll 6.8分前50% #数据集 13. Fast Multichannel NMF with Block-Diagonal Spatial Covar 6.5分前50% #语音分离 14. MSAVBench: Towards Comprehensive and Reliable Evaluatio 6.5分前40% #基准测试 15. Precise and Simple Audio-to-Score Alignment 6.2分前50% #音乐信息检索 16. Benchmarking Commercial ASR Systems on Code-Switching S 6.2分前50% #语音识别 17. CounterFlow: A Two-Phase Inference-Time Sampling for Co 6.0分前25% #音频生成 18. FormalASR: End-to-End Spoken Chinese to Formal Text 6.0分前35% #语音识别 19. Towards Trust Calibration in Socially Interactive Agent 5.9分前50% #社交智能体 20. A conceptual framework for learning to listen by reward 5.0分前50% #声源定位 📋 论文列表 🥇 Executable Boundary Contracts for Sound Event Traces 🔥 8.4/10 | 前25% | #音频事件检测 | #基准测试 | #形式化验证 #数据增强 | arxiv ...