冷启动 | 语音/音乐/音频论文速递

📄 Affective Music Recommendation: A Rollout-Based World Model for Offline Preference Optimization #音乐推荐 #冷启动 ✅ 7/10 | 前50% | #音乐推荐 | #冷启动 | arxiv 学术质量 5.1/7 | 影响力 1.5/2 | 可复现性 0.4/2 | 置信度高 👥 作者与机构论文作者共7位，分属两家机构： Audrey Chan (LUCID Inc., Toronto, Canada) Aaron Labbé (LUCID Inc., Montréal, Canada) Jacob Lavoie (Mila — Québec AI Institute, Montréal, Canada) Jordan Bannister (Mila — Québec AI Institute, Montréal, Canada) Arsène Fansi Tchango (Mila — Québec AI Institute, Montréal, Canada) Guillaume Lajoie (Mila — Québec AI Institute, Montréal, Canada) Laurent Charlin (Mila — Québec AI Institute, Montréal, Canada) 💡 毒舌点评本文动机明确且具有重要的社会价值（为临床用户提供安全的情感音乐推荐），但作为一篇顶会论文，其技术贡献和实验验证显得过于“温和”与“内部”。世界模型的核心是标准的因果Transformer，其创新点更多在于将现有组件（行为克隆、DPO、世界模型）进行组合以解决一个特定应用问题，而非提出全新的模型架构或理论。最大的软肋在于“自指验证”：整个离线策略（DPO）是在世界模型上训练和评估的，而世界模型本身的预测能力（\(R^2\)约40%）只能说尚可，这导致所有下游结论（如DPO的增益）都建立在“如果世界模型是准确的，那么…”的假设之上，缺乏与真实世界交互的闭环验证。论文对此有明确讨论，但这确实削弱了其结论的强度。此外，完全不公开的代码、数据和模型权重，使得这项在伦理约束场景下的“早期部署验证”几乎无法被同行复现或扩展，其“验证”价值打了很大折扣。实验设计相对完整，但部分关键对比（如与Moodify）因对方未开源而缺失，且情感预测任务的基线（如MER基准）比较显得有些笼统。 ...

语音/音乐/音频论文速递 2026-05-28 共分析 30 篇论文 ⚡ 今日概览 📥 抓取 30 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 8篇 ████████ #语音合成 4篇 ████ #音频问答 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ #多模态模型 2篇 ██ #语音生成 1篇 █ #音频检索 1篇 █ 📊 论文评分排行榜（30 篇，按分数降序）排名论文评分分档主任务 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Ada 10.0分前50% #语音识别 🥈 TARQ: Tail-Aware Reconstruction Quantization for Rare-W 10.0分前10% #语音识别 🥉 Comprehensive Benchmarking of Long-Form Speech Generati 9.9分前25% #语音合成 4. MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic 9.9分前25% #语音生成 5. OmniRetriever: Any-to-Any Audio-Video-Text Retrieval vi 9.2分前25% #音频检索 6. Audio-Mind: An Auditable Agentic Framework for Audio Un 8.7分前50% #音频问答 7. From Talking to Singing: A New Challenge for Audio-Visu 8.7分前50% #语音伪造检测 8. SMILE-Next: Teaching Large Language Models to Detect, C 8.7分前25% #语音情感识别 9. Dasheng AudioGen: A Unified Model for Generating Cohere 8.6分前25% #音频生成 10. Why We Need Speech to Evaluate Speech Translation 8.3分前50% #语音翻译 11. Bandwidth-Efficient and Privacy-Preserving Edge-Cloud M 8.1分前25% #语音翻译 12. EigeNet: Geometry-Informed Multi-Modal Learning for Few 8.0分前50% #多模态模型 13. Unified Synthesis of Compositional Speech and Sound fro 8.0分前25% #语音合成 14. Gemini Embedding 2: A Native Multimodal Embedding Model 7.9分前25% #语音识别 15. HOME-KGQA: A Benchmark Dataset for Multimodal Knowledge 7.5分后50% - 16. Building Community-Centred NLP Resources for Puno Quech 7.2分前50% #语音识别 17. Utilizing Missed Detections in Directional Sensitivity- 7.1分前50% #语音识别 18. Diffusion Large Language Models for Visual Speech Recog 7.0分前25% #语音识别 19. LoSATok: Low-dimensional Semantic-Acoustic Tokenizer fo 7.0分前50% #语音合成 20. Affective Music Recommendation: A Rollout-Based World M 7.0分前50% #音乐推荐 21. VoiceGiraffe: A Benchmark for Extreme Long-Context Audi 7.0分前25% #音频问答 22. AgenticVBench: Can AI Agents Complete Real-World Post-P 7.0分前50% #基准测试 23. Do Audio LLMs Listen or Read? Analyzing and Mitigating 6.8分前50% #语音情感识别 24. A Conflict-Aware Penalty and Statistical Loss Framework 6.8分前50% #多模态模型 25. I Hear, Therefore I Trust: A Socio-Technical Investigat 6.5分前50% #语音合成 26. DEMON: Diffusion Engine for Musical Orchestrated Noise 6.0分前50% #音乐生成 27. Breaking the Script Barrier: Enabling Automatic Alignme 6.0分前50% #语音识别 28. Robust Quantum-MUSIC for DoA Estimation Using Rydberg A 5.7分前50% - 29. Benchmarking AI for low-resource contexts: Thinking bey 5.1分后50% #语音识别 30. Cross-modal characterization of infant cry: validation 5.0分前50% #信号处理基础 📋 论文列表 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR 🔥 10.0/10 | 前50% | #语音识别 | #迁移学习 | #隐私安全 #领域自适应 | arxiv ...