Benchmark

📄 OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding #Benchmark #StreamingVideoUnderstanding #ProactiveResponse #Multimodal ✅ 7.3/10 | 前50% | #音视频 | #数据集 | #Benchmark #StreamingVideoUnderstanding | arxiv 学术质量 5.0/7 | 影响力 1.0/2 | 可复现性 1.3/2 | 置信度 0.9 👥 作者与机构第一作者: Ruixiang Zhao 作者列表: Ruixiang Zhao, Jie Yang, Zijie Xin, Tianyi Wang, Fengyun Rao, Jing LYU, Xirong Li 机构: Renmin University of China, WeChat Vision, Tencent Inc. 通讯作者: Xirong Li (xirong@ruc.edu.cn), Jie Yang (cvjieyang@tencent.com) 💡 毒舌点评这篇论文像一个装修精良的“多模态能力考场”，把现有“学生”（模型）都拉来考了一遍，然后发榜说“你看，大家都不及格”。问题是，出卷老师（作者）的考题（OmniPro）虽然号称“综合”，但其核心创新点——一个新数据集和一个评估协议——在顶会标准下略显单薄。它更像是一次系统性的能力普查报告，而非一项提出突破性方法的技术研究。最“毒”的一点在于，它揭示了开源社区在长时序和非语音音频理解上的集体短板，但并未提供任何解决这些短板的“钥匙”，只留下一个“欢迎大家来刷榜”的测试集。对于追求方法创新的审稿人来说，这可能会被视为“增量贡献”。 ...

语音/音乐/音频论文速递 2026-05-22 共分析 15 篇论文 ⚡ 今日概览 📥 抓取 15 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐生成 2篇 ██ #跨模态 2篇 ██ #大语言模型 1篇 █ #声区控制 1篇 █ #语音合成 1篇 █ #统计信号处理 1篇 █ #语音去噪 1篇 █ #关键词检测 1篇 █ 📊 论文评分排行榜（15 篇，按分数降序）排名论文评分分档主任务 🥇 Do Factual Recall Mechanisms Carry over from Text to Sp 10.0分前10% #大语言模型 🥈 Academic Text-to-Music Grand Challenge: Datasets, Basel 9.9分前10% #音乐生成 🥉 LatentOmni: Rethinking Omni-Modal Understanding via Uni 9.0分前10% #跨模态 4. Neighbor-Consistent Neural Filters for Robust Personal 8.5分前25% #声区控制 5. RobustSpeechFlow: Learning Robust Text-to-Speech Trajec 7.8分前10% #语音合成 6. From Volterra Series to Kunchenko Stochastic Polynomial 7.8分前25% #统计信号处理 7. Automatic Contextual Audio Denoising 7.5分前25% #语音去噪 8. Effective User-defined Keyword Spotting with Dual-stage 7.4分前50% #关键词检测 9. OmniPro: A Comprehensive Benchmark for Omni-Proactive S 7.3分前50% #音视频 10. Beyond Acoustic Emotion Recognition: Multimodal Pathos 7.0分前50% #语音情感识别 11. Real-time, EDM-inspired sonfication of the activity of 6.5分前50% #数据声化 12. In Silico Modeling of the RAMPHO Buffer: Dissociating I 6.5分前50% #认知科学 13. MM-Conv: A Multimodal Dataset and Benchmark for Context 6.5分前50% #跨模态 14. Live Music Diffusion Models: Efficient Fine-Tuning and 5.9分前50% #音乐生成 15. Plug-in Losses for Evidential Deep Learning: A Simplifi 3.5分后50% #模型评估 📋 论文列表 🥇 Do Factual Recall Mechanisms Carry over from Text to Speech in Multimodal Language Models? 🔥 10.0/10 | 前10% | #大语言模型 | #模型评估 | #语音语言模型 #机制可解释性 | arxiv ...