Fast Text-to-Audio Generation with One-Step Sampling via Energy-Scoring and Auxiliary Contextual Representation Distillation

📄 Fast Text-to-Audio Generation with One-Step Sampling via Energy-Scoring and Auxiliary Contextual Representation Distillation #音频生成 #自回归模型 #扩散模型 #知识蒸馏 #一步生成 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #自回归模型 #知识蒸馏 | arxiv 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kuan-Po Huang (未明确说明所属机构) 通讯作者:未明确说明 作者列表:Kuan-Po Huang (未说明), Bo-Ru Lu (未说明), Byeonggeun Kim (未说明), Mihee Lee (未说明), Zalan Fabian (未说明), Renard Korzeniowski (未说明), Qingming Tang (未说明), Greg Ver Steeg (未说明), Hung-yi Lee (未说明), Chieh-Chi Kao (未说明), Chao Wang (未说明)。论文中未提供任何作者的具体机构信息。 💡 毒舌点评 亮点:论文巧妙地将能量距离这一分布匹配目标引入文本到音频生成,实现了真正意义上的“一步”潜变量合成,同时通过从强大的多步扩散模型(IMPACT)中进行表示蒸馏,有效弥补了单步生成的质量损失,是一次“既要速度又要质量”的成功工程实践。 短板:尽管在AudioCaps基准上表现优异,但研究完全局限于该数据集,缺乏在更大规模、更多样化音频(如音乐、长时叙事音频)或真实用户场景下的验证,其泛化能力和实际应用鲁棒性存疑;更关键的是,未开源代码与模型,大大削弱了其可复现性和社区影响力。 ...

2026-05-04 · 更新于 2026-05-19 · 4 min · 669 words

语音/音频论文速递 2026-05-04

语音/音频论文速递 2026-05-04 共分析 14 篇论文 ⚡ 今日概览 📥 抓取 14 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频生成 2篇 ██ #说话人验证 1篇 █ #声源定位 1篇 █ #音频深度伪造检测 1篇 █ #模型评估 1篇 █ #多模态模型 1篇 █ #主动噪声控制 1篇 █ #音乐理解 1篇 █ 📊 论文评分排行榜(14 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 LASE: Language-Adversarial Speaker Encoding for Indic C 8.5分 前25% #说话人验证 🥈 Towards Improving Speaker Distance Estimation through G 8.5分 前25% #声源定位 🥉 Alethia: A Foundational Encoder for Voice Deepfakes 8.0分 前25% #音频深度伪造检测 4. Beyond Decodability: Reconstructing Language Model Repr 7.5分 前25% #模型评估 5. Fast Text-to-Audio Generation with One-Step Sampling vi 7.5分 前25% #音频生成 6. MMAudio-LABEL: Audio Event Labeling via Audio Generatio 7.5分 前25% #音频生成 7. Group Cognition Learning: Making Everything Better Thro 7.5分 前25% #多模态模型 8. Transformer-based End-to-End Control Filter Generation 7.0分 前25% #主动噪声控制 9. GaMMA: Towards Joint Global-Temporal Music Understandin 7.0分 前25% #音乐理解 10. RoboKA: KAN Informed Multimodal Learning for RoboCall S 7.0分 前25% #语音伪造检测 11. From Birdsong to Rumbles: Classifying Elephant Calls wi 6.5分 前50% #音频分类 12. Timing is Everything: Temporal Scaffolding of Semantic 6.5分 前50% #音频事件检测 13. CustomDancer: Customized Dance Recommendation by Text-D 6.5分 前50% #音频检索 #音乐理解 14. MMAudioReverbs: Video-Guided Acoustic Modeling for Dere 6.0分 前50% #语音增强 📋 论文列表 🥇 LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation 🔥 8.5/10 | 前25% | #说话人验证 | #领域适应 | #多语言 #开源工具 | arxiv ...

2026-05-04 · 更新于 2026-05-19 · 9 min · 1720 words