生成模型 | 语音/音乐/音频论文速递

Music of Changing Lines: Toward a Culturally Situated Approach to the I-Ching

📄 Music of Changing Lines: Toward a Culturally Situated Approach to the I-Ching #音乐生成 #大语言模型 #生成模型 #交互设计 #文化计算 📝 5.5/10 | 前50% | #音乐生成 | #生成模型 | #大语言模型 #交互设计 | arxiv 学术质量 4.1/7 | 影响力 0.5/2 | 可复现性 0.8/2 | 置信度高 👥 作者与机构第一作者：Ling Qi（未说明机构）通讯作者：未明确说明作者列表：Ling Qi（未说明）、Aleksandra Teng Ma（未说明）、Alexandria Smith（未说明） 💡 毒舌点评亮点：论文提出了一个概念上有趣且具有批判性的框架，旨在纠正西方实验音乐（以Cage为代表）对《易经》的简化利用，通过构建一个将完整占卜仪式转化为参与式声音体验的系统，试图恢复其文化语义与过程性。短板：技术实现严重缺乏原创性和深度，完全依赖Google的商业API（Gemini, Lyria）和简单的规则化音序生成，未提出任何新的算法或模型。更致命的是，全文没有任何形式的用户研究或效果评估实验，使得其“提升参与感与意义感”的核心主张沦为空谈，学术严谨性严重不足。 📌 核心摘要要解决什么问题：解决西方实验音乐（如John Cage）在借用《易经》时，仅将其作为随机数生成器，而剥离其文化语义、仪式过程和哲学解释的问题。方法核心是什么：构建一个名为“Music of Changing Lines”的Web交互系统，将《易经》占卜（文王卦）的全流程（提问、投币、解卦）转化为一个参与式声音仪式。系统利用规则化概率音乐伴随投币过程，随后调用大语言模型（Gemini）生成基于用户问题的个性化卦象解读，再将此解读作为提示词，驱动生成式音乐模型（Lyria）创作响应式环境音乐。与已有方法相比新在哪里：与Cage等将《易经》作为纯粹随机数发生器不同，本系统强调AI作为“文化解释中介”而非“作曲权威”。其创新在于重新将《易经》的本卦、变卦、爻变等语义要素引入音乐生成流程，使音乐成为占卜仪式和意义阐释过程的伴随与体现，而非由卦象直接映射出的固定结构。主要实验结果如何：论文未提供任何量化实验结果。其结论主要基于系统构建的描述、定性讨论以及一个可访问的在线演示。文中没有用户研究、对比实验、或对生成音乐质量的评估。实际意义是什么：提出了一种将古老文化实践与现代生成式AI结合的新范式，展示了AI在交互艺术中作为“意义中介”而非“内容生成者”的角色，为文化敏感型交互系统和人机共创提供了案例参考。主要局限性：系统高度依赖特定商业API（Gemini， Lyria）的稳定性和解释质量，自身技术深度有限；缺乏任何形式的用户研究或效果验证，无法证明其设计是否真正达到了“提升参与感和意义感”的目标；对《易经》本身的复杂性和不同解经传统做了大幅简化。 🔗 开源详情代码：https://github.com/LingQi000809/iching-sonification 模型权重：论文中未提及模型权重的下载链接。系统使用了通过 API 调用的商业模型（Gemini 2.5 Flash， Lyria）。数据集：论文中未提及。 Demo：https://vimeo.com/1150693113?share=copy&fl=sv&fe=ci 复现材料：论文详细描述了系统的三个阶段（输入、投掷、解释）、声音引擎的实现方式（使用 Web Audio API 和 Tone.js）、用户界面设计，并提供了系统流程图（图3）。这些描述为复现提供了设计和架构信息，但关键实现细节（如提示词、概率模型）缺失。论文中引用的开源项目： Tone.js：一个用于Web音频API的框架。 MIDI.js Soundfonts：用于采样传统乐器声音的soundfont库。链接为：https://github.com/gleitz/midi-js-soundfonts 🏗️ 方法概述和架构整体流程概述：这是一个多阶段的交互式Web系统，端到端流程为：用户输入问题 → 执行文王卦投币模拟（伴随实时概率音乐） → 系统获取原始卦象、变爻与变卦 → 调用LLM生成个性化卦辞解释及音乐关键词 → 调用生成式音乐模型创作环境音乐 → 将音乐与卦象解释一并呈现给用户。 ...

Musical Attention Transformer: Music Generation Using a Music-Specific Attention Model

📄 Musical Attention Transformer: Music Generation Using a Music-Specific Attention Model #音乐生成 #生成模型 #自回归模型 #条件生成 📝 5.6/10 | 前50% | #音乐生成 | #自回归模型 | #生成模型 #条件生成 | arxiv 学术质量 4.2/7 | 影响力 0.8/2 | 可复现性 0.6/2 | 置信度高 👥 作者与机构作者：Shinnosuke Taksuka（明治大学理工学部计算机科学系），Hideo Mukai（明治大学理工学部计算机科学系）注：论文未明确指定通讯作者。所有作者邮箱均为 shin.takasuka@gmail.com 和 mukai@meiji.ac.jp。 💡 毒舌点评论文提出了一个直观且符合领域直觉的改进：将小节、调性、速度等元信息直接注入Transformer的注意力掩码，以引导生成更符合乐理的音乐。其亮点在于将符号音乐领域的结构化知识（如调性、节拍）显式地编码进了模型的注意力机制。然而，最大的短板在于评估体系严重缺乏对“音乐质量”本身的度量——仅报告了Token/Note/Bar/Key Error等“正确性”指标，却没有任何主观听感评估、多样性度量或与现有SOTA模型在人类偏好评分上的比较，使得“提升音乐生成质量”的核心论点难以被充分证实。 📌 核心摘要解决的问题：基于Transformer的符号音乐生成模型（如Music Transformer）常出现过度重复、旋律不协调等问题，部分原因在于模型未能充分利用音乐的结构性元信息（如小节数、调号、速度）。方法核心：提出“Musical Attention”机制，通过设计特定的注意力掩码，在计算注意力分数时，强制当前音符的某些特征（如音高、小节数）能够“看到”与其存在音乐理论依赖关系的特定历史音符或全局元信息（如调号KK、小节总数BB、速度TT）。与已有方法的区别：与标准Full Attention和Strided Attention不同，Musical Attention不是简单地限制注意力窗口或采用稀疏模式，而是基于音乐理论构建了具有先验知识的、有偏向性的注意力模式，使模型能更直接地学习音乐元素间的依赖关系。主要实验结果：在单轨和多轨音乐生成任务上，与Full Attention和Strided Attention相比，Musical Attention在保持相近训练精度（约78-81%）的同时，在Bar Error（小节错误）和Key Error（调性错误）上取得了显著更低的平均值和中位数，表明其生成音乐在结构（小节）和调性（和声）上更一致。例如，在单轨任务中，Musical Attention的Key Error均值（1.97）远低于Full Attention（4.69）。详细结果见下表。 Metric Attention Full (base) Strided Musical 单轨 - Accuracy (%) 78.12 77.98 78.07 单轨 - Token (mean) 0.03 0.10 0.04 单轨 - Note (mean) 0.42 0.18 0.25 单轨 - Bar (mean) 1.21 1.12 0.86 单轨 - Key (mean) 4.69 5.07 1.97 多轨 - Accuracy (%) 81.08 81.17 81.09 多轨 - Token (mean) 0.08 0.07 0.04 多轨 - Note (mean) 0.50 0.29 0.50 多轨 - Bar (mean) 1.04 0.80 0.62 多轨 - Key (mean) 5.18 5.56 2.55 实际意义：为符号音乐生成提供了一种简单有效的方法，通过整合音乐领域知识来约束生成过程，可能减少生成结果中的低级错误，使音乐听起来更“合理”。主要局限性：1）评估仅限于结构正确性指标，缺乏对音乐审美、多样性和流畅性的客观或主观评估；2）论文承认生成的音乐缺乏动态变化，和弦进行有时不自然；3）方法依赖于准确提取和量化元信息（如调性），可能限制其在更复杂或未标注数据上的应用。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：Lakh MIDI Dataset。链接：https://github.com/craffel/midi-dataset。论文指出原始数据集由该外部GitHub仓库提供。 Demo：论文中未提及。复现材料：论文中提供了详细的实验设置（如模型参数、训练步数、温度参数等）和评估指标，但未提供具体的检查点文件或配置文件链接。论文中提及生成的样本可向通讯作者申请获取（“available from the corresponding author upon reasonable request”）。论文中引用的开源项目： Lakh MIDI Dataset：https://github.com/craffel/midi-dataset （已在上方数据集条目列出）论文中提到使用工具“[26]”对MIDI文件进行分析和处理，但未提供该工具的具体名称或链接。 🏗️ 方法概述和架构本文提出的是一个端到端的符号音乐生成系统。其核心流程为：将原始MIDI文件预处理为包含多个离散事件（音高、小节、起始位置等）的序列，并附加上全局的元信息（总小节数、调性、速度）。该序列被送入一个基于Transformer的自回归模型进行训练，目标是预测下一个事件。关键的创新在于，模型在进行注意力计算时，使用了设计好的“Musical Attention”掩码，以显式地引入音乐结构的先验知识。 ...

MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

📄 MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation #基准测试 #模型评估 #音视频 #生成模型 #多模态模型 ✅ 6.5/10 | 前40% | #基准测试 | #模型评估 | #音视频 #生成模型 | arxiv 学术质量 5.5/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构共同第一作者：Yujie Wei（复旦大学），Yujin Han（香港大学），Zhekai Chen（香港大学），Yongming Li（复旦大学）项目负责人：Shiwei Zhang（阿里巴巴通义实验室）通讯作者：Hongming Shan（复旦大学），Xihui Liu（香港大学）作者列表（按原文顺序）： Yujie Wei (1，复旦大学) Yujin Han (2*，香港大学) Zhekai Chen (2*，香港大学) Yongming Li (1*，复旦大学) Kaixun Jiang (1，复旦大学) Zhihang Liu (3，阿里巴巴通义实验室) Quanhao Li (1，复旦大学) Zhiwu Qing (3，阿里巴巴通义实验室) Xiang Wang (3，阿里巴巴通义实验室) Zhen Xing (3，阿里巴巴通义实验室) Ruihang Chu (3，阿里巴巴通义实验室) Lingyi Hong (1，复旦大学) Yefei He (4，浙江大学) Junjie Zhou (3，阿里巴巴通义实验室) Junqiu Yu (1，复旦大学) Yang Shi (5，北京大学) Difan Zou (2，香港大学) Kai Zhu (3，阿里巴巴通义实验室) Shiwei Zhang (3†，阿里巴巴通义实验室，项目负责人) Yingya Zhang (3，阿里巴巴通义实验室) Yu Liu (3，阿里巴巴通义实验室) Xihui Liu (2🖂，香港大学，通讯作者) Hongming Shan (1🖂，复旦大学，通讯作者) 💡 毒舌点评亮点：论文精准切入“多镜头音视频（MSAV）生成”这一前沿评测空白，提出了首个综合性基准MSAVBench。其数据设计（四维度：视频、音频、镜头、参考）和评估框架（自校正、分层评分、工具增强代理）的系统性与前瞻性值得肯定，对19个模型的评估也提供了有价值的生态诊断。短板：论文的核心贡献在于构建一个评测“系统”和“报告”，而非提出新的生成模型或基础算法。其创新性更偏向工程设计和方法论集成，在追求算法理论突破的顶会中，原创性“硬度”不足。同时，对评估框架自身的深入分析（如不同VLM的影响、成本分析）略显仓促，对评测结果的解读存在过度泛化的风险。 ...

Bridging the Gap: Converting Read Text to Conversational Dialogue

📄 Bridging the Gap: Converting Read Text to Conversational Dialogue #语音转换 #生成模型 #语音合成 📝 3.1/10 | 后50% | #语音转换 | #生成模型 | #语音合成 | arxiv 学术质量 2.6/8 | 影响力 0.5/1 | 可复现性 0/1 | 置信度高 👥 作者与机构第一作者：Parshav Singla (Thapar Institute of Engineering and Technology, Patiala, India) 通讯作者：Dr. Shruti Aggarwal, Dr. Anil Kumar Verma (邮箱见原文) 作者列表：Parshav Singla, Agnik Banerjee, Aaditya Arora, Shruti Aggarwal, Anil Kumar Verma (均来自Thapar Institute of Engineering and Technology)， Vikram C M, Raj Prakash Gohil, Gopal Kumar Agarwal (均来自Samsung Research and Development Institute, Bangalore, India) 💡 毒舌点评亮点：论文选题直接，针对朗读语音单调性这一实际问题，明确应用了高性能的HiFi-GAN声码器进行语音合成，任务目标清晰。文献综述部分对语音转换的挑战和GAN的应用有较好的概述。短板：论文最大的缺陷是名不副实。标题和摘要声称提出“PACC”这一新颖方法，但全文未提供该方法的任何实质性技术描述、架构设计或实现细节。论文实质上是一篇关于使用标准HiFi-GAN模型进行语音合成的简短应用报告，创新性严重不足。实验部分设计粗糙，基线模糊，缺乏关键细节，导致结论可信度低。 ...

Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation

📄 Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation #音视频 #多模态模型 #语音克隆 #生成模型 #扩散模型 ✅ 7.3/10 | 前25% | #音视频 | #多模态模型 | #语音克隆 #生成模型 | arxiv 学术质量 6.2/8 | 影响力 0.8/1 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Yuheng Chen（上海交通大学）通讯作者：Qingdong He（电子科技大学，论文中标注为对应作者及项目负责人）作者列表：Yuheng Chen（上海交通大学，等同贡献）、Qingdong He（电子科技大学，等同贡献）、Teng Hu（上海交通大学）、Yuji Wang（上海交通大学）、Yabiao Wang（浙江大学）、Lizhuang Ma（上海交通大学）、Jiangning Zhang（浙江大学，对应作者） 💡 毒舌点评这篇论文为“多主体联合音视频定制”这一具体问题提出了一套工程实现相对完整的端到端框架，其针对“Caption Vocalization”问题设计的MTP-CA掩码机制简单有效，SA-MRoPE的位置编码设计思路也具启发性。然而，其核心的OCF模块本质上是标准Transformer块对拼接序列的处理，架构创新度有限，且论文在“Caption Vocalization”的成因分析和SA-MRoPE有效性的理论解释上均显薄弱，更像是一次成功的系统工程集成而非深度理论探索。 📌 核心摘要本文旨在解决在联合音视频生成中，为多个主体同时保持其视觉身份和声音音色，并实现精准绑定的难题。现有方法存在多主体身份混淆、无法有效跨模态绑定，以及基础模型固有的语音合成异常等问题。论文提出了Omni-Customizer，一个端到端框架。其核心方法包括：1) Omni-Context Fusion (OCF) 模块，将文本、视觉参考、音频参考和TTS嵌入拼接成统一序列，通过L层专用Transformer块进行深度跨模态交互，以富化文本表示；2) Semantic-Anchored Multimodal RoPE (SA-MRoPE)，为不同模态的参考token设计了基于其对应文本描述符位置的3D位置编码，实现语义锚定；3) Masked TTS Cross-Attention (MTP-CA)，通过二进制掩码机制，确保TTS语音信息仅注入到提示词中被<S>和<E>标签包裹的对话部分，消除“Caption Vocalization”异常。此外，论文提出了交错式模态解耦训练策略（交替进行联合音视频训练和纯音频训练）和渐进式课程学习（从单主体配对到多主体非配对数据），以在不损害基础模型能力的前提下，让模型适应多语言环境并学习鲁棒的身份特征。论文还详细描述了构建多主体多模态数据集的完整流程，并提出了新的评估基准OC-Bench。实验在OC-Bench上进行，结果表明，Omni-Customizer在视觉身份相似度、音色一致性、音视频同步和整体保真度上均达到了当前最佳水平。 ...

SAME: A Semantically-Aligned Music Autoencoder

📄 SAME: A Semantically-Aligned Music Autoencoder #音频编码 #Transformer #生成模型 #对比学习 #自监督学习 #开源模型 🔥 8.5/10 | 前25% | #音频编码 | #音频大模型 | #Transformer #生成模型 | arxiv 学术质量 6.8/8 | 影响力 0.8/1 | 可复现性 0.9/1 | 置信度高 👥 作者与机构第一作者：Julian D. Parker（Stability AI）通讯作者：未说明作者列表：Julian D. Parker（Stability AI）， Zach Evans（Stability AI）， CJ Carr（Stability AI）， Zachary Zukowski（Stability AI）， Josiah Taylor（Stability AI）， Matthew Rice（Stability AI）， Jordi Pons（Stability AI） 💡 毒舌点评亮点：在实现高达4096倍时域压缩比的同时，通过一系列精心设计的语义对齐损失和改进的架构，在主观听感（MUSHRA）上取得了SOTA，并显著提升了推理速度，展示了在压缩效率与重建质量之间新的平衡点。短板：消融实验在固定的低预算设置下进行（仅50k步），可能无法完全代表全规模训练下各组件的真实贡献；尽管声称适用于“通用音频”，但评估数据集（SDD）高度偏向音乐，对语音、环境声等其他音频类型的泛化能力验证不足。 📌 核心摘要要解决什么问题：传统的神经音频编解码器（NACs）通常在较高的时域压缩比下难以兼顾重建音频质量和下游生成模型的性能。现有方法多采用卷积结构，在推理速度和压缩极限上存在瓶颈。方法核心是什么：提出了SAME，一个基于Transformer的音乐和音频自编码器。核心在于结合了基于查询的Transformer重采样块（TRB）实现高效时域压缩，一个软归一化瓶颈配合多种辅助损失（生成对齐、语义回归、对比对齐）以优化潜空间几何结构，以及改进的多分辨率STFT损失和判别器设计。与已有方法相比新在哪里：a) 使用Transformer通过查询机制而非卷积/池化进行时域重采样，实现了极高的压缩比（4096×）和更快的推理速度；b) 提出了一套新颖的语义正则化框架，包括双轴KL约束的软归一化瓶颈、用于流匹配的生成对齐损失（\(\mathcal{L}_{\text{diff}}\)）、多属性语义回归损失（\(\mathcal{L}_{\text{sem}}\)）和跨模态对比对齐损失（\(\mathcal{L}_{\text{con}}\)），共同塑造了更适合生成的潜空间；c) 改进了频谱重构损失（如对称的光谱对比损失、自适应对数幅度损失、基于相量器的IF/GD损失）和判别器架构（引入了Transformer判别器）。主要实验结果如何：主实验：在Song Describer Dataset上，SAME-L（852M参数）在MUSHRA主观听感测试中得分最高（82.2），超越了所有基线；同时其推理速度（RTF 561）显著快于其他大模型基线。SAME-S（108M参数）在保持可比质量的同时，RTF达到2069，是速度最快的模型。消融实验：在固定50k步的轻量级设置下，添加\(\mathcal{L}_{\text{diff}}\)显著提升了生成质量（FAD-CLAP从1.061降至0.593），而加入\(\mathcal{L}_{\text{sem}}\)和\(\mathcal{L}_{\text{con}}\)进一步将FAD-CLAP降至0.576，并将音乐质量评分（MuQEval）从3.340提升至3.870，证明了这些辅助损失对改善下游生成性能的有效性。主要结果表格（表1）：模型 \(D_t\) \(d\) RTF ↑ SI-SDR ↑ STFT\(_{\text{log1p}}\) ↓ MEL\(_{\text{log1p}}\) ↓ CCPC ↑ MUSHRA ↑ \(\epsilon\)ar-VAE 1024 64 325 12.0 ±3.9 0.080 ±0.053 0.070 ±0.042 97.2 ±2.2 77.6 ±21.0 ACE-Step 1.5 1920 64 284 7.0 ±3.3 0.084 ±0.051 0.069 ±0.034 93.2 ±4.7 76.5 ±20.0 SAO VAE 2048 64 300 6.2 ±3.3 0.092 ±0.055 0.079 ±0.039 92.2 ±5.2 73.3 ±19.5 CoDiCodec† 4096 64 47 -0.3 ±3.1 0.096 ±0.057 0.096 ±0.044 81.7 ±10.6 — SAME-S 4096 256 2069 9.6 ±3.4 0.088 ±0.055 0.071 ±0.035 95.5 ±3.3 66.1 ±20.5 SAME-L 4096 256 561 11.9 ±4.2 0.081 ±0.053 0.057 ±0.031 96.6 ±3.0 82.2 ±16.6 实际意义是什么：为音乐和通用音频生成提供了一个高效（高压缩比、低延迟）且质量上乘的连续潜空间表示。开源的模型权重（SAME-L和SAME-S）可直接用于后续的音乐/音频生成、编辑或理解任务，降低了相关研究的门槛。主要局限性是什么：a) 训练和评估主要基于特定的音乐数据集（Audiosparx, SDD），对非音乐类音频（如语音、环境声）的性能验证不充分；b) 消融实验的训练预算（50k步）较小，可能无法完全揭示各模块在完整训练流程中的真实作用；c) 对比基线中缺少一些最新的、同样采用Transformer架构的NAC模型（如Tango等）。 🔗 开源详情代码：论文中未提及代码仓库链接，但提供了项目主页 https://stability-ai.github.io/SAME，代码信息可能包含其中。模型权重：模型权重通过项目主页发布：https://stability-ai.github.io/SAME。论文中未提及具体的 HuggingFace 或 ModelScope 链接。数据集：训练数据：使用商业数据集 Audiosparx (https://www.audiosparx.com)，论文中未提及公开获取方式。评估数据：使用了 Song Describer Dataset (SDD) [19] 进行评估。 Demo：在线演示链接为：https://stability-ai.github.io/SAME。复现材料：论文中提供了详细的模型配置、训练流程和损失函数描述，但未单独提供配置文件或检查点。具体复现信息需参考论文内容。论文中引用的开源项目： fadtk (用于计算 FAD-CLAP)：https://github.com/sony/sony-audio-eval-tools T5Gemma：论文中提及但未提供具体链接。论文中作为基线对比提到的开源模型（如 epsilon-ar-VAE、Stable Audio Open、CoDiCodec、ACE-Step 1.5）均为已发表工作，论文中未提供其具体开源仓库链接。 🏗️ 方法概述和架构整体流程概述 SAME是一个端到端的音频自编码器，遵循经典的编码器-瓶颈-解码器架构。输入为立体声音频波形，首先经过一个无参数的“分块预变换”进行初步的时域下采样，然后通过编码器中的Transformer重采样块（TRB）进一步压缩时间维度，得到一个潜表示序列。该潜表示经过一个轻度约束的“软归一化瓶颈”后，送入解码器。解码器中的TRB负责上采样，最后通过逆分块操作恢复原始波形。整个过程旨在实现极高的时域压缩比（4096×），同时通过大量辅助损失来保持重建质量和优化潜空间。 ...

PresentAgent-2: Towards Generalist Multimodal Presentation Agents

📄 PresentAgent-2: Towards Generalist Multimodal Presentation Agents #生成模型 #多模态模型 #大语言模型 #视频生成 #基准测试 #智能体 ✅ 6.5/10 | 前25% | #生成模型 | #多模态模型 | #大语言模型 #视频生成 | arxiv 学术质量 5.5/8 | 影响力 0.7/2 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Wei Wu（北京大学）通讯作者：Hao Tang（北京大学，邮箱：bjdxtanghao@gmail.com）作者列表：Wei Wu（北京大学），Ziyang Xu（北京大学），Zeyu Zhang（北京大学，项目负责人），Yang Zhao（La Trobe University），Hao Tang（北京大学）注：论文明确标注前三位作者（Wei Wu, Ziyang Xu, Zeyu Zhang）贡献相等（Equal contribution）。 💡 毒舌点评本文的亮点在于清晰地将演示生成任务从“文档到演示”拓展到更具挑战性的“查询到演示”，并设计了一个涵盖“深度研究”、内容生成和三种独立演示模式（单人演讲、多人讨论、交互问答）的完整框架。系统设计的完整性和对动态媒体处理的重视值得肯定。然而，其主要弱点在于核心贡献更偏向系统集成而非底层技术创新，关键模块（如视频合成、语音生成）的技术细节几乎完全依赖于未说明的外部模型，使得论文的“技术深度”存疑。同时，评估体系严重依赖于可能同源的VLM评判者，缺乏人类评估数据的校准，使得其高分结果的说服力大打折扣。 📌 核心摘要解决的问题：现有演示视频生成系统大多依赖用户提供完整的源文档（如论文、报告），无法处理简短、开放式的用户查询，并主动获取内容和视觉资源来生成演示视频。方法核心：提出PresentAgent-2，一个端到端的智能体框架。系统接收用户查询和选定的演示模式，首先将查询提炼为主题，并通过“深度研究”主动从互联网检索和筛选适合演示的多模态资源（文本、图片、GIF、视频）。随后，基于这些资源规划演示结构、生成幻灯片和对应模式的脚本（单人演讲为叙述脚本，多人讨论为角色对话脚本，交互问答为基于上下文的回答），合成音频，并将幻灯片、音频和动态媒体（保持GIF/视频的可播放性）合成为最终的演示视频。与已有方法相比的新颖之处：a) 任务设定开放：首次系统性地研究从开放查询到演示视频的生成，而非从给定文档转换。b) 内容获取主动：集成了针对演示场景优化的“深度研究”模块，主动收集多模态资源。c) 输出模式丰富：在统一框架下支持单人演讲、多人讨论和交互问答三种独立的演示模式。d) 动态媒体处理：在视频合成中保留了检索到的GIF和视频的动态特性，而非将其转换为静态截图。主要实验结果：论文构建了名为PresentEval的多模态演示基准测试集，包含60个查询-参考视频对（每种模式20对）。使用不同骨干模型（如Qwen3.5-VL-Plus）进行评估，结果显示系统在客观测验（满分5）和主观评估（满分5）上均取得较高分数（例如，使用Qwen3.5-VL-Plus时，客观测验得分均>4.8，主观评估均分均>4.3）。消融实验证明了多模态检索、动态媒体保留、角色感知的对话生成以及交互上下文接地等模块的有效性。实际意义：为教育、技术讲解、知识传播等场景提供了一种新的内容创作范式，降低了从问题到结构化多媒体演示视频的制作门槛。主要局限性：a) 生成质量高度依赖检索到的公开网络资源的质量。b) 交互模块的错误可能受上游检索和生成错误的影响。c) 当前基准测试规模有限（60例）。d) 论文中多个关键技术的实现细节未公开说明。 🔗 开源详情代码：https://github.com/AIGeeksGroup/PresentAgent-2 模型权重：论文中未提及模型权重的具体下载链接（如HuggingFace/ModelScope）。数据集：论文中未提及公开数据集的下载链接。论文中描述了自行构建的PresentEval基准数据集（60个查询-参考视频对），但未提供其公开获取地址。 Demo：https://aigeeksgroup.github.io/PresentAgent-2 复现材料：论文中未提及提供训练配置、模型检查点、提示模板、评测脚本等复现材料的具体下载链接。论文中引用的开源项目： Paper2Video、PresentAgent、Paper2Poster、VideoAgent、Doc2PPT, SlideGen, VideoDirectorGPT, VideoStudio, LVD：论文中仅在相关工作或表格中提及项目名称和引用，未提供具体项目链接。 🏗️ 方法概述和架构 PresentAgent-2是一个多阶段、模块化的智能体系统，旨在完成从自然语言查询到演示视频的端到端生成。其核心流程如图4所示：接收用户的自然语言查询q和选定的演示模式m，首先将查询提炼为主题t并执行“深度研究”以检索多模态资源集ℛ，随后基于(q, t, ℛ, m)生成最终的演示视频V_m。整个过程可形式化为两步：q → (t, ℛ) 和 (q, t, ℛ, m) → V_m。演示模式m主要决定了生成的脚本结构和交付风格。 ...

Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs

📄 Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs #音乐生成 #生成模型 #音频编码 📝 4.0/10 | 前50% | #音乐生成 | #生成模型 | #音频编码 | arxiv 学术质量 4.0/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度中 👥 作者与机构第一作者：Konstantinos Soiledis（University of Ioannina, University of Patras）通讯作者：未说明作者列表：Konstantinos Soiledis（University of Ioannina, University of Patras）、Maximos Kaliakatsos-Papakostas（University of Ioannina）、Dimos Makris（University of Ioannina）、Konstantinos Tsamis（University of Ioannina, University of Patras） 💡 毒舌点评本文系统性地比较了三种神经音频编解码器在鼓网格到音频生成任务中的表现，为后续工作选择目标表示提供了有价值的实证参考，这是其亮点。然而，论文主要贡献是将已有技术（神经编解码器+Transformer）进行组合应用，且核心实验发现（增大模型反而导致性能下降）未能给出深入分析或有效解决方案，显得方法部分的创新深度和工程鲁棒性有所不足。 📌 核心摘要问题：如何从包含微时值和力度信息的鼓网格（Expressive Drum Grid）生成真实、富有表现力的鼓音频，以捕捉人类演奏的细微感觉（“groove”）。方法核心：采用“编解码器token预测”范式。系统将鼓网格输入到一个非自回归Transformer编码器中，预测预训练神经音频编解码器（EnCodec, DAC, X-Codec）的离散token序列，然后使用固定的编解码器解码器将token序列转换为波形音频。创新点：与现有方法相比，本文的主要创新在于：提出了一个完整的从表达性鼓网格到音频的生成系统（DrumGrid2Audio）。在一个受控的、统一的建模框架下，首次（原文描述为“one of the first”）对EnCodec、DAC和X-Codec三种主流神经音频编解码器作为中间表示的效能进行了系统比较。在公开的大规模鼓数据集E-GMD上进行了多方面的客观评估。主要实验结果：在Base模型设置下，EnCodec在大多数指标上表现最优：token准确率最高（单套鼓42.7%，全套鼓43.4%），感知距离（FAD）最低（单套鼓0.281，全套鼓0.193）。 DAC在样本级误差（RMSE/MAE）上最低，但token预测难度极大（困惑度高达500+），感知质量最差（FAD最高，全套鼓0.405）。 X-Codec性能介于两者之间。反常发现：将模型容量从Base增大到Large后，所有编解码器的性能均显著下降，表明训练过程不稳定。实际意义：为音乐制作和音频生成领域提供了一种新的从符号化鼓谱（MIDI+表情信息）渲染逼真音频的途径，并为如何选择神经音频编解码器作为生成目标提供了实践指导。主要局限性：论文明确承认缺乏主观听感评估和正式统计检验；Large模型训练不稳定，原因未深究；研究仅限于鼓音频，结论的泛化性未验证。 🔗 开源详情代码：https://github.com/kostantinos-soiledis/midigroove_poc 模型权重： EnCodec: facebook/encodec_32khz (HuggingFace预训练检查点) DAC: descript/dac_44khz (HuggingFace预训练检查点) X-Codec: hf-audio/xcodec-hubert-general (HuggingFace预训练检查点，配置为2.0 kbps带宽) 数据集：Expanded Groove MIDI Dataset (E-GMD)。论文中未提供该数据集的具体下载链接。 Demo：论文中未提及在线演示链接。复现材料：项目页面：https://github.com/kostantinos-soiledis/midigroove_poc（包含生成的音频示例和扩展结果/图表，如所有套件的完整评估细分）。训练配置：Base模型 (d_model=768, L=6, H=8) 和 Large模型 (d_model=1536, L=10, H=12) 的详细架构参数；优化器为AdamW，学习率 6×10^{-5}，全局梯度裁剪1.0，最大200,000步，早停5000步。训练硬件：所有模型均在单个NVIDIA GeForce RTX 3080 GPU (10 GB VRAM)上训练。评估协议：具体评估指标（NLL, PPL, Acc, RMSE, MAE, MR-STFT SC, Env RMS corr, TTER MAE, Onset P/R/F1, FAD）的定义和计算方法。论文中引用的开源项目： EnCodec (神经音频编解码器): https://github.com/facebookresearch/encodec （论文引用 [4]） DAC (神经音频编解码器): https://github.com/descriptinc/descript-audio-codec （论文引用 [6]） X-Codec (神经音频编解码器): https://github.com/zhangzwfcn/xcodec （论文引用 [5]） AudioLM (基于编解码器令牌的语言模型): https://github.com/google-research/audioLM （论文引用 [1]） MusicLM (文本到音乐生成): https://github.com/google-research/musiclm （论文引用 [2]） SoundStream (神经音频编解码器): https://arxiv.org/abs/2107.10759 （论文引用 [11]） GrooVAE (表达性节奏建模): https://github.com/wayne391/beat-dance-datasets （论文引用 [8]，数据集链接） CRASH (基于分数的扩散模型): https://github.com/hugoflorentino/CRASH （论文引用 [10]） MIDI-VALLE (符号到音频合成): https://github.com/yangdongchao/MIDI-VALLE （论文引用 [12]） STAGE (伴奏生成): https://github.com/facebookresearch/audiocraft （论文引用 [13]） DARC (鼓生成): https://github.com/DARG/darc （论文引用 [14]） TRIA (基于令牌的鼓合成): https://github.com/ZiyueXu77/TRIA （论文引用 [15]） madmom (用于起点检测): https://github.com/CPJKU/madmom （论文引用 [16]，隐含） fadtk (用于计算FAD): https://github.com/AudioLDM/fadtk （论文引用 [17]，隐含） 🏗️ 方法概述和架构本文提出的方法（命名为DrumGrid2Audio）是一个条件生成系统，旨在将输入的表达性鼓网格转换为对应的鼓音频波形。整个系统可以看作一个两阶段流水线：首先是一个由Transformer构成的“网格到token”预测器，然后是一个固定的神经音频编解码器解码器。 ...

PoDAR: Power-Disentangled Audio Representation for Generative Modeling

📄 PoDAR: Power-Disentangled Audio Representation for Generative Modeling #语音合成 #自监督学习 #音频编码 #表示解耦 #生成模型 ✅ 7.3/10 | 前25% | #语音合成 | #自监督学习 #表示学习 #扩散模型 | #自监督学习 #音频编码 | arxiv 置信度高 👥 作者与机构第一作者：Alejandro Luebs（Descript）通讯作者：未明确指定（所有作者均来自Descript并提供了邮箱）作者列表：Alejandro Luebs, Mithilesh Vaidya, Ishaan Kumar, Sumukh Badam, Stephen W. Bailey, Matthew Bendel, Jose Sotelo, Xingzhe He (所有作者均来自 Descript) 💡 毒舌点评论文的核心思路——通过简单的功率扰动和一致性损失来“强迫”自编码器学会解耦——方法设计直接且有效，在下游生成任务上取得了令人信服的收敛速度与性能提升，这本身就是一个扎实的工程化insight。不过，其理论深度有限，对于“为何这种简单的功率解耦能如此显著提升模型可建模性”的解释更多停留在实证层面，且对解耦后各通道的物理意义与信息流分析不足，使得方法在学术创新性上略显平实。 📌 核心摘要问题：音频潜扩散模型的性能受生成器表达力和潜空间“可建模性”（modelability）双重制约。现有工作多聚焦于提升重建保真度，但高保真重建并不必然带来易于建模的潜空间。例如，信号功率等与语义内容无关的扰动因素在潜空间中的纠缠，会增加下游生成器学习分布的复杂度。方法核心：提出PoDAR框架，通过在自编码器（如VAE）训练中引入随机功率增强（在[-6, +6] dB范围内随机调整增益）和潜空间一致性损失（惩罚内容通道对功率增强的敏感度），显式地将音频表示分解为“功率子空间”（前k个通道）和“功率不变语义子空间”（剩余通道）。创新性：与当前主流的表示对齐（如REPA，使用预训练编码器）方法正交，PoDAR提供了一条自监督的、针对特定干扰因素的解耦路径来提升潜空间模型性，无需外部预训练模型。主要实验结果：在LibriSpeech-PC等数据集上，使用F5-TTS作为生成器，PoDAR表示相比基线（相同架构的VAE）显著提升了生成性能。例如，在VAE1上，收敛到基线最佳性能所需训练步数减少约2倍；说话人相似度（Speaker SIM）提升0.055；语音质量（UTMOS）提升0.22。具体结果见表2。模型 WER ↓ Speaker SIM ↑ UTMOS ↑ LibriSpeech-PC VAE1-Baseline 0.023±0.003 0.592±0.005 3.75±0.03 VAE1-PoDAR 0.023±0.003 0.647±0.005 3.97±0.02 VAE2-Baseline 0.024±0.003 0.559±0.005 4.10±0.02 VAE2-PoDAR 0.025±0.003 0.595±0.005 4.17±0.01 Seed-TTS (EN) VAE1-Baseline 0.017±0.003 0.613±0.006 3.69±0.02 VAE1-PoDAR 0.017±0.003 0.660±0.005 3.72±0.02 VAE2-Baseline 0.017±0.003 0.594±0.006 3.87±0.02 VAE2-PoDAR 0.019±0.003 0.615±0.006 3.89±0.02 Seed-TTS (ZH) VAE1-Baseline 0.016±0.002 0.713±0.003 2.79±0.02 VAE1-PoDAR 0.017±0.002 0.761±0.002 2.87±0.02 VAE2-Baseline 0.020±0.002 0.688±0.003 2.98±0.02 VAE2-PoDAR 0.018±0.002 0.701±0.003 2.96±0.02 图1（论文Fig. 1）展示了训练过程中，基于PoDAR的生成器在Speaker SIM和UTMOS指标上持续优于基线，且收敛更快。 5. 实际意义：该方法提供了一种即插即用的框架，可加速音频生成模型训练并提升最终性能。其解耦特性还催生了Partial CFG，允许仅对语义内容通道进行引导，增强了在高引导尺度下的生成鲁棒性。 6. 主要局限性：自编码器训练计算开销增加（需双前向传播）；有效性仅在语音域验证；解耦主要针对功率因素，未探讨其他声学因素。 ...

Do Joint Audio-Video Generation Models Understand Physics?

📄 Do Joint Audio-Video Generation Models Understand Physics? #基准测试 #模型评估 #音视频 #跨模态 #生成模型 ✅ 7.5/10 | #基准测试 #模型评估 | arxiv 👥 作者与机构第一作者：Zijun Cui (University of Texas at Dallas) 通讯作者：Yapeng Tian (University of Texas at Dallas) 作者列表：Zijun Cui (University of Texas at Dallas), Xiulong Liu (University of Washington), Hao Fang (University of Washington), Mingwei Xu (University of Washington), Jiageng Liu (University of California, Los Angeles), Zexin Xu (University of Texas at Dallas), Weiguo Pian (University of Texas at Dallas), Shijian Deng (University of Texas at Dallas), Feiyu Du (University of Texas at Dallas), Chenming Ge (University of Washington), Yapeng Tian (University of Texas at Dallas) 💡 毒舌点评本文首次系统性地构建了评估联合音视频生成模型物理常识理解的基准AV-Phys Bench，其场景演进分类法（稳态、事件转换、环境转换）和反物理子类别设计为评估工作带来了急需的、结构化的维度。然而，其评估深度可能受限于“8秒短视频”和“纯感知物理”的框架，未能充分触及模型是否真正理解物理因果链，而非仅仅学会了感知层面的统计关联。 ...