Affective Music Recommendation: A Rollout-Based World Model for Offline Preference Optimization

📄 Affective Music Recommendation: A Rollout-Based World Model for Offline Preference Optimization #音乐推荐 #冷启动 ✅ 7/10 | 前50% | #音乐推荐 | #冷启动 | arxiv 学术质量 5.1/7 | 影响力 1.5/2 | 可复现性 0.4/2 | 置信度 高 👥 作者与机构 论文作者共7位,分属两家机构: Audrey Chan (LUCID Inc., Toronto, Canada) Aaron Labbé (LUCID Inc., Montréal, Canada) Jacob Lavoie (Mila — Québec AI Institute, Montréal, Canada) Jordan Bannister (Mila — Québec AI Institute, Montréal, Canada) Arsène Fansi Tchango (Mila — Québec AI Institute, Montréal, Canada) Guillaume Lajoie (Mila — Québec AI Institute, Montréal, Canada) Laurent Charlin (Mila — Québec AI Institute, Montréal, Canada) 💡 毒舌点评 本文动机明确且具有重要的社会价值(为临床用户提供安全的情感音乐推荐),但作为一篇顶会论文,其技术贡献和实验验证显得过于“温和”与“内部”。世界模型的核心是标准的因果Transformer,其创新点更多在于将现有组件(行为克隆、DPO、世界模型)进行组合以解决一个特定应用问题,而非提出全新的模型架构或理论。最大的软肋在于“自指验证”:整个离线策略(DPO)是在世界模型上训练和评估的,而世界模型本身的预测能力(\(R^2\)约40%)只能说尚可,这导致所有下游结论(如DPO的增益)都建立在“如果世界模型是准确的,那么…”的假设之上,缺乏与真实世界交互的闭环验证。论文对此有明确讨论,但这确实削弱了其结论的强度。此外,完全不公开的代码、数据和模型权重,使得这项在伦理约束场景下的“早期部署验证”几乎无法被同行复现或扩展,其“验证”价值打了很大折扣。实验设计相对完整,但部分关键对比(如与Moodify)因对方未开源而缺失,且情感预测任务的基线(如MER基准)比较显得有些笼统。 ...

2026-05-28 · 更新于 2026-06-12 · 3 min · 434 words

语音/音乐/音频论文速递 2026-05-28

语音/音乐/音频论文速递 2026-05-28 共分析 30 篇论文 ⚡ 今日概览 📥 抓取 30 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 8篇 ████████ #语音合成 4篇 ████ #音频问答 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ #多模态模型 2篇 ██ #语音生成 1篇 █ #音频检索 1篇 █ 📊 论文评分排行榜(30 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Ada 10.0分 前50% #语音识别 🥈 TARQ: Tail-Aware Reconstruction Quantization for Rare-W 10.0分 前10% #语音识别 🥉 Comprehensive Benchmarking of Long-Form Speech Generati 9.9分 前25% #语音合成 4. MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic 9.9分 前25% #语音生成 5. OmniRetriever: Any-to-Any Audio-Video-Text Retrieval vi 9.2分 前25% #音频检索 6. Audio-Mind: An Auditable Agentic Framework for Audio Un 8.7分 前50% #音频问答 7. From Talking to Singing: A New Challenge for Audio-Visu 8.7分 前50% #语音伪造检测 8. SMILE-Next: Teaching Large Language Models to Detect, C 8.7分 前25% #语音情感识别 9. Dasheng AudioGen: A Unified Model for Generating Cohere 8.6分 前25% #音频生成 10. Why We Need Speech to Evaluate Speech Translation 8.3分 前50% #语音翻译 11. Bandwidth-Efficient and Privacy-Preserving Edge-Cloud M 8.1分 前25% #语音翻译 12. EigeNet: Geometry-Informed Multi-Modal Learning for Few 8.0分 前50% #多模态模型 13. Unified Synthesis of Compositional Speech and Sound fro 8.0分 前25% #语音合成 14. Gemini Embedding 2: A Native Multimodal Embedding Model 7.9分 前25% #语音识别 15. HOME-KGQA: A Benchmark Dataset for Multimodal Knowledge 7.5分 后50% - 16. Building Community-Centred NLP Resources for Puno Quech 7.2分 前50% #语音识别 17. Utilizing Missed Detections in Directional Sensitivity- 7.1分 前50% #语音识别 18. Diffusion Large Language Models for Visual Speech Recog 7.0分 前25% #语音识别 19. LoSATok: Low-dimensional Semantic-Acoustic Tokenizer fo 7.0分 前50% #语音合成 20. Affective Music Recommendation: A Rollout-Based World M 7.0分 前50% #音乐推荐 21. VoiceGiraffe: A Benchmark for Extreme Long-Context Audi 7.0分 前25% #音频问答 22. AgenticVBench: Can AI Agents Complete Real-World Post-P 7.0分 前50% #基准测试 23. Do Audio LLMs Listen or Read? Analyzing and Mitigating 6.8分 前50% #语音情感识别 24. A Conflict-Aware Penalty and Statistical Loss Framework 6.8分 前50% #多模态模型 25. I Hear, Therefore I Trust: A Socio-Technical Investigat 6.5分 前50% #语音合成 26. DEMON: Diffusion Engine for Musical Orchestrated Noise 6.0分 前50% #音乐生成 27. Breaking the Script Barrier: Enabling Automatic Alignme 6.0分 前50% #语音识别 28. Robust Quantum-MUSIC for DoA Estimation Using Rydberg A 5.7分 前50% - 29. Benchmarking AI for low-resource contexts: Thinking bey 5.1分 后50% #语音识别 30. Cross-modal characterization of infant cry: validation 5.0分 前50% #信号处理基础 📋 论文列表 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR 🔥 10.0/10 | 前50% | #语音识别 | #迁移学习 | #隐私安全 #领域自适应 | arxiv ...

2026-05-28 · 更新于 2026-06-12 · 15 min · 3187 words