Live Music Diffusion Models: Efficient Fine-Tuning and Post-Training of Interactive Diffusion Music Generators

📄 Live Music Diffusion Models: Efficient Fine-Tuning and Post-Training of Interactive Diffusion Music Generators #DiffusionModels #InteractiveMusicGeneration #MusicGeneration #FlowMatching #AutoregressiveGeneration #KV-Caching #RealTimeSystem 📝 5.9/10 | 前50% | #音乐生成 | #扩散模型 | #DiffusionModels #InteractiveMusicGeneration | arxiv 学术质量 3.9/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 High 👥 作者与机构 Zachary Novack (UC San Diego & MIT, equal contribution, correspondence), Stephen Brade (MIT, equal contribution), Haven Kim (UC San Diego), Hugo Flores García (Adobe), Nithya Shikarpur (MIT), Chinmay Talegaonkar (UC San Diego), Suwan Kim (MIT), Valerie K. Chen (MIT), Julian McAuley (UC San Diego), Taylor Berg-Kirkpatrick (UC San Diego), Cheng-Zhi Anna Huang (MIT)。 ...

2026-05-22 · 更新于 2026-06-12 · 3 min · 541 words

语音/音乐/音频论文速递 2026-05-22

语音/音乐/音频论文速递 2026-05-22 共分析 15 篇论文 ⚡ 今日概览 📥 抓取 15 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐生成 2篇 ██ #跨模态 2篇 ██ #大语言模型 1篇 █ #声区控制 1篇 █ #语音合成 1篇 █ #统计信号处理 1篇 █ #语音去噪 1篇 █ #关键词检测 1篇 █ 📊 论文评分排行榜(15 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Do Factual Recall Mechanisms Carry over from Text to Sp 10.0分 前10% #大语言模型 🥈 Academic Text-to-Music Grand Challenge: Datasets, Basel 9.9分 前10% #音乐生成 🥉 LatentOmni: Rethinking Omni-Modal Understanding via Uni 9.0分 前10% #跨模态 4. Neighbor-Consistent Neural Filters for Robust Personal 8.5分 前25% #声区控制 5. RobustSpeechFlow: Learning Robust Text-to-Speech Trajec 7.8分 前10% #语音合成 6. From Volterra Series to Kunchenko Stochastic Polynomial 7.8分 前25% #统计信号处理 7. Automatic Contextual Audio Denoising 7.5分 前25% #语音去噪 8. Effective User-defined Keyword Spotting with Dual-stage 7.4分 前50% #关键词检测 9. OmniPro: A Comprehensive Benchmark for Omni-Proactive S 7.3分 前50% #音视频 10. Beyond Acoustic Emotion Recognition: Multimodal Pathos 7.0分 前50% #语音情感识别 11. Real-time, EDM-inspired sonfication of the activity of 6.5分 前50% #数据声化 12. In Silico Modeling of the RAMPHO Buffer: Dissociating I 6.5分 前50% #认知科学 13. MM-Conv: A Multimodal Dataset and Benchmark for Context 6.5分 前50% #跨模态 14. Live Music Diffusion Models: Efficient Fine-Tuning and 5.9分 前50% #音乐生成 15. Plug-in Losses for Evidential Deep Learning: A Simplifi 3.5分 后50% #模型评估 📋 论文列表 🥇 Do Factual Recall Mechanisms Carry over from Text to Speech in Multimodal Language Models? 🔥 10.0/10 | 前10% | #大语言模型 | #模型评估 | #语音语言模型 #机制可解释性 | arxiv ...

2026-05-22 · 更新于 2026-06-12 · 8 min · 1596 words