协作交互 | 语音/音乐/音频论文速递

📄 GroupAffect-4: A Multimodal Dataset of Four-Person Collaborative Interaction #数据集 #多模态模型 #情感识别 #基准测试 #协作交互 #过程建模 ✅ 6.8/10 | 前50% | #数据集 | #多模态模型 | #情感识别 #基准测试 | arxiv 学术质量 5.3/8 | 影响力 0.6/1 | 可复现性 0.9/1 | 置信度高 👥 作者与机构第一作者：Meisam Jamshidi Seikavandi（1GN Advanced Science, GN Group, Ballerup, Denmark；2IT University of Copenhagen, brAIn lab, Copenhagen, Denmark）。根据论文脚注“These authors contributed equally.”，Meisam Jamshidi Seikavandi、Alice Modica和Anna Obara为共同第一作者。通讯作者：未明确指定，但论文中将Meisam Jamshidi Seikavandi标注为“corresponding author”。作者列表：Meisam Jamshidi Seikavandi, Alice Modica, Anna Obara, Shan Ahmed Shaffi, Fabricio Batista Narcizo, Tanya Ignatenko, Ted Vucurevich, Karim Haddad, Daniel Barratt, Daniel Overholt, Jesper Bünsow Boldt, Paolo Burelli, Andrew Burke Dittberner。机构涉及GN Advanced Science (GN Group), IT University of Copenhagen, Copenhagen Business School, Aalborg University。 💡 毒舌点评这篇论文是一个扎实的“基础设施”工作。亮点在于其对数据集构建和发布的极高透明度要求：BIDS-inspired结构、Croissant元数据、详细的数据表、每会话质量报告，这为后续研究设立了一个可审计的标杆。它精准定位了多人、多模态、多层次（个体内/个体间/群体）情感分析数据集的空白，并通过精心设计的四个协作任务和同步的多传感器采集来填补。然而，短板也同样明显且根本：10组40人的样本量使得许多定义的“基准测试”在统计上形同虚设。论文中大量基准任务（特别是涉及个体间特质和群体动态的）的性能接近随机，其置信区间宽到无法得出任何稳健结论。这使得论文更像是一份“问题定义书”和“数据发布说明书”，而非一份能产出可靠科学发现的实验报告。基线模型的“失败”（如群体不平等性预测）更多暴露了数据量不足导致的过拟合，而非方法本身的缺陷。 ...

语音/音乐/音频论文速递 2026-05-20 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #语音分离 2篇 ██ #声源定位 2篇 ██ #音频事件检测 1篇 █ #音视频 1篇 █ #视频理解 1篇 █ #音频深度伪造检测 1篇 █ #语音伪造检测 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文评分分档主任务 🥇 Executable Boundary Contracts for Sound Event Traces 8.4分前25% #音频事件检测 🥈 Cross-Talk Speech Reduction, by Separation, for Separat 8.3分前10% #语音分离 🥉 When Vision Speaks for Sound 7.7分前25% #音视频 4. Can Large Language Models Reliably Correct Errors in Lo 7.5分前25% #语音识别 5. OmniPro: A Comprehensive Benchmark for Omni-Proactive S 7.3分前25% #视频理解 6. EMO-BOOST: Emotion-Augmented Audio-Visual Features for 7.2分前25% #音频深度伪造检测 7. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.0分前25% #语音伪造检测 8. Optimising Neural Speech Codecs for 300bps Communicatio 7.0分前30% #音频编码 9. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分前50% #音频问答 10. Sparse Fluid Antenna Arrays: Continuous Position Design 7.0分前25% #声源定位 11. Mega-ASR: Towards In-the-wild^2 Speech Recognition via 6.8分前35% #语音识别 12. GroupAffect-4: A Multimodal Dataset of Four-Person Coll 6.8分前50% #数据集 13. Fast Multichannel NMF with Block-Diagonal Spatial Covar 6.5分前50% #语音分离 14. MSAVBench: Towards Comprehensive and Reliable Evaluatio 6.5分前40% #基准测试 15. Precise and Simple Audio-to-Score Alignment 6.2分前50% #音乐信息检索 16. Benchmarking Commercial ASR Systems on Code-Switching S 6.2分前50% #语音识别 17. CounterFlow: A Two-Phase Inference-Time Sampling for Co 6.0分前25% #音频生成 18. FormalASR: End-to-End Spoken Chinese to Formal Text 6.0分前35% #语音识别 19. Towards Trust Calibration in Socially Interactive Agent 5.9分前50% #社交智能体 20. A conceptual framework for learning to listen by reward 5.0分前50% #声源定位 📋 论文列表 🥇 Executable Boundary Contracts for Sound Event Traces 🔥 8.4/10 | 前25% | #音频事件检测 | #基准测试 | #形式化验证 #数据增强 | arxiv ...