音频生成 | 语音/音频论文速递

Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation

📄 Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation #音频生成 #流匹配 #生成模型 #语音合成 #模型比较 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #生成模型 #语音合成学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zengwei Yao (Xiaomi Corp., Beijing, China) 通讯作者：Daniel Povey (Xiaomi Corp., Beijing, China, dpovey@xiaomi.com) 作者列表：Zengwei Yao (小米公司), Wei Kang (小米公司), Han Zhu (小米公司), Liyong Guo (小米公司), Lingxuan Ye (小米公司), Fangjun Kuang (小米公司), Weiji Zhuang (小米公司), Zhaoqing Li (小米公司), Zhifeng Han (小米公司), Long Lin (小米公司), Daniel Povey (小米公司) 💡 毒舌点评论文创新性地将流匹配的稳定训练与GAN的细节增强能力结合，通过一个设计精巧的两阶段框架，实现了少步高保真音频生成，在质量和效率间取得了优异的平衡，这是一个扎实的工程优化工作。然而，其模型参数量（约79M）显著大于Vocos（13.5M）和RFWave（18.1M）等强基线，在资源敏感的部署场景下可能构成劣势。 ...

FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows

📄 FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows #跨模态 #流匹配 #多模态模型 #音频生成 #模型评估 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #跨模态 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yeonwoo Cha* (KAIST) 通讯作者：未说明作者列表：Yeonwoo Cha (KAIST), Semin Kim (KAIST), Jinhyeon Kwon (KAIST), Seunghoon Hong (KAIST) 💡 毒舌点评这篇论文用一个相当优雅的设计——引入一个可学习的共享潜空间作为“中央车站”，让每个模态通过自己的可逆流列车与之连接——漂亮地绕过了现有任意到任意生成模型对全配对数据和复杂多阶段训练的依赖，实现了效率上的巨大提升。然而，其核心贡献更偏向于工程框架的整合与效率优化，而非对生成模型基础理论的突破，且评估主要局限于文本、图像、音频三种模态，对“任意到任意”这一宏大目标的验证广度稍显不足。 🔗 开源详情代码：论文提供了项目页面链接：https://yeonwoo378.github.io/official_flowbind，暗示将开源代码。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：论文中明确说明不使用三元组数据，并列出了使用的三种配对数据集（LAION-COCO, Flickr-30k, AudioCaps v2, VGGSound）。这些数据集均为公开数据集，但论文未提供其具体预处理后的下载链接或说明。 Demo：未提及。复现材料：论文附录C（实现细节）和D（评估设置）提供了较详细的训练超参数、模型架构描述、评估协议和数据集划分，为复现提供了重要信息。引用的开源项目：依赖了多个预训练模型和工具，包括：EmbeddingGemma (Team et al., 2025)、CLIP (Radford et al., 2021)、Stable-UnCLIP (HuggingFace, 2025)、CLAP (Elizalde et al., 2023)、AudioLDM (Liu et al., 2023)、Gemma3-1B (Team et al., 2025) 用于文本解码器初始化、FLUX.1 (Black Forest Labs, 2024) 用于构建评估数据集。总体情况：论文有明确的开源意愿并提供了必要的复现细节，但具体代码和模型的开放状态在提供文本中未完全明确。 📌 核心摘要解决的问题：现有的基于流的任意到任意多模态生成方法（如CoDi, OmniFlow）存在效率瓶颈：依赖大规模、配对约束严格的数据集；建模联合分布导致计算成本高昂；训练流程复杂，通常需要多阶段优化。方法核心：提出FlowBind框架。其核心思想是引入一个可学习的共享潜空间，用于捕捉跨模态共性信息。每个模态通过一个独立的、可逆的流模型与这个共享潜空间相连。整个框架（共享潜空间编码器和所有模态的流网络）在单一的流匹配目标下进行端到端联合训练。与已有方法相比新在哪里：a) 解耦设计：将多模态交互分解为“共享潜空间”与“模态特定流”的连接，避免了直接建模高维联合分布。b) 训练灵活性：每个流网络只需学习其对应模态与共享潜空间的映射，因此天然支持利用任意部分配对数据进行训练，大幅降低了数据要求。c) 训练简化：所有组件通过一个统一的流匹配损失优化，无需CoDi或OmniFlow那样的多阶段、分组件训练流程。d) 推理直接性：推理时，每个模态的流网络既可当编码器（从模态到潜空间），也可当解码器（从潜空间到模态），实现了直接的跨模态翻译。主要实验结果：在文本、图像、音频的一对一生成（6种任务）和多对多生成任务上进行了评估。关键定量结果如下：效率对比：参数量仅为OmniFlow的1/6（568M vs 3.2B），训练耗时减少约10倍（48 GPU-hrs vs 480 GPU-hrs*），训练数据用量仅为CoDi的0.15%或OmniFlow的1.79%。质量对比：在表2（保真度）和表3（对齐度）中，FlowBind在多数一对一生成任务上取得了与基线模型相当或更优的指标。例如，在图像到音频(I→A)任务上，FAD达到2.50（优于CoDi的14.58和OmniFlow的5.67），AIS达到82.89（优于基线）。在表4（多对一）和表5（一对多）中，FlowBind在整合多个模态条件方面表现出更强的平衡性和对齐能力。消融与分析：实验验证了可学习共享潜空间相比固定文本锚点的优势（表6），并分析了共享潜空间具有更强的跨模态对齐性（表7，CKNNA指标）。实际意义：为构建高效、灵活、数据需求友好的通用多模态生成模型提供了一种新范式。其低计算和低数据门槛使得在实际场景中训练此类模型成为可能，推动了多模态AI从“专家”向“通才”的发展。主要局限性：a) 论文中的“任意模态”实验主要集中在文本、图像、音频三种模态，虽然扩展到了3D点云，但未涉及视频等其他重要模态，对普适性的验证有限。b) 在一些任务上（如文本到图像对齐），其性能未超越专门的单任务专家模型（如FLUX.1），表明在极致生成质量上仍有提升空间。c) 共享潜空间的具体可解释性有待进一步探索。 🏗️ 模型架构 FlowBind的整体架构如图1所示，包含训练阶段（图1a）和推理阶段（图1b）。 ...

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

📄 JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization #音频生成 #多模态模型 #扩散模型 #Transformer #基准测试 🔥 8.0/10 | 前25% | #音频生成 | #扩散模型 #Transformer | #多模态模型 #扩散模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kai Liu (Zhejiang University, National University of Singapore) (论文中Kai Liu标注为*，表示同等贡献，且为列出的第一个作者) 通讯作者：Hao Fei (National University of Singapore) (论文中标注为†) 作者列表： Kai Liu (Zhejiang University, National University of Singapore) Wei Li (University of Science and Technology of China) Lai Chen (Zhejiang University) Shengqiong Wu (National University of Singapore) Yanhao Zheng (Zhejiang University) Jiayi Ji (National University of Singapore) Fan Zhou (Zhejiang University) Jiebo Luo (University of Rochester) Ziwei Liu (Nanyang Technological University) Hao Fei (National University of Singapore) Tat-Seng Chua (National University of Singapore) 💡 毒舌点评这篇论文的亮点在于其“分层时空先验估计器”设计得相当巧妙，直指当前联合音视频生成“只知大概、不晓细节”的同步痛点，并为此精心打造了一个更具挑战性的真实世界基准数据集JavisBench。然而，短板也很明显：一个追求实时应用的生成模型，其推理效率在附录表格中暴露无遗（生成4秒视频需30秒），在“生成速度与质量”的权衡上显然更偏向了后者。 ...

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching #多模态模型 #流匹配 #音频生成 #语音对话系统 🔥 8.5/10 | 前25% | #多模态模型 | #流匹配 | #音频生成 #语音对话系统学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Run Luo（中国科学院深圳先进技术研究院，中国科学院大学）通讯作者：Xiaobo Xia（新加坡国立大学，中国科学技术大学）；Min Yang（中国科学院深圳先进技术研究院，深圳大学先进技术研究院）作者列表：Run Luo（中国科学院深圳先进技术研究院，中国科学院大学）、Xiaobo Xia（新加坡国立大学，中国科学技术大学）、Lu Wang（Rtizz-AI）、Longze Chen（中国科学院深圳先进技术研究院，中国科学院大学）、Renke Shan（Rtizz-AI）、Jing Luo（中国科学院深圳先进技术研究院，中国科学院大学）、Min Yang（中国科学院深圳先进技术研究院，深圳大学先进技术研究院）、Tat-Seng Chua（新加坡国立大学） 💡 毒舌点评亮点在于其架构的简洁与统一性，用单一DFM骨干取代了常见的AR+Diffusion混合或解耦设计，这在处理需要深度融合的多模态检索任务时确实显示出优势，实验也验证了这一点。短板则受限于“论文中未说明”训练硬件的具体规格和训练总时长，且其核心贡献——DFM在统一建模上的潜力——受限于仅7B的参数规模，大规模Scaling下的表现未知，使得“下一代范式”的论断稍显仓促。 🔗 开源详情代码：是，提供了GitHub仓库链接：https://github.com/ritzz-ai/Next-OMNI 模型权重：是，论文明确提到“开源”模型检查点，并提供了链接。数据集：部分公开。论文中使用的大部分数据集为公开数据集（如LAION, LibriSpeech等），但也包含“私有数据”。论文未提供统一的训练数据下载链接，但详细列出了数据来源和构成（表8）。 Demo：论文中未提及在线演示。复现材料：非常充分。附录中提供了模型设计细节（D）、数据策展详情（E）、训练配方（F，表9）和额外的实验与可视化结果（G, H, I）。论文中引用的开源项目：主要包括：Qwen2.5系列（骨干/对齐损失）、CLIP-ViT（视觉编码器初始化）、Whisper（音频编码器初始化）、FLUX（图像生成数据合成）、MMEvol（指令数据增强）、以及训练数据相关的多个公开数据集工具（如LAION, Common Crawl）。 📌 核心摘要本文旨在解决现有统一多模态模型在理解和生成任务间存在固有冲突、架构冗余（混合/解耦设计）导致难以支持跨模态检索等更通用场景的问题。核心方法是提出NExT-OMNI，首个完全基于离散流匹配（DFM）的开源全能态基础模型。与已有的自回归或混合架构相比，其新在：1）完全摒弃自回归范式，采用DFM进行并行去噪，原生支持双向信息融合；2）设计了带有重建损失的统一表征编码器，为生成、理解和检索任务提供一体化特征；3）引入动态长度生成策略和自适应缓存机制以提升效率。主要实验结果如下：在全能态理解基准（OmniBench, WorldSense, AV-Odyssey）上，平均得分39.7，优于OpenOmni（36.5）；在多轮视觉交互（OpenING）上，平均分55.0，显著高于前代模型；在多模态检索（MMEBEDIR子集）上，平均Top-5准确率32.9，优于所有对比模型（MMaDA为31.8）；在语音交互（Spoken QA）上取得有竞争力的结果。实际意义在于，它为构建更统一、高效的全能态基础模型提供了一个有前景的新范式。主要局限性在于，受限于计算资源，模型仅在7B规模上训练和验证，其在大规模下的潜力尚未证明。 ...

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

📄 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation #音频生成 #强化学习 #扩散模型 #多模态模型 #基准测试 ✅ 7.0/10 | 前25% | #音频生成 | #强化学习 | #扩散模型 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Huadai Liu（香港科技大学、阿里巴巴集团通义实验室）通讯作者：Wei Xue（香港科技大学）作者列表：Huadai Liu（香港科技大学、阿里巴巴集团通义实验室）、Kaicheng Luo（阿里巴巴集团通义实验室）、Wen Wang（阿里巴巴集团通义实验室）、Qian Chen（阿里巴巴集团通义实验室）、Peiwen Sun（香港中文大学）、Rongjie Huang（香港中文大学）、Xiangang Li（阿里巴巴集团通义实验室）、Jieping Ye（阿里巴巴集团通义实验室）、Wei Xue（香港科技大学） 💡 毒舌点评亮点在于将“分解的链式思维”与“多维强化学习奖励”进行耦合的框架设计思路，清晰且有效，为解决多目标生成中的“目标纠缠”提供了新颖且可解释的方案。短板是，其提出的全新AudioCanvas基准数据集虽然是必要的，但作为“裁判员”的同时，自己也是“运动员”，这使得核心结论的公信力部分依赖于数据集构建的客观性，且报告的部分指标（如在某些空间或美学指标上超越了真实音频）需要更谨慎的解释。 🔗 开源详情代码：论文承诺将开源完整训练脚本和配置文件，但当前未提供代码仓库链接。模型权重：论文承诺将公开所有模型权重（音频基础模型、微调后的VideoLLaMA2等），但未提供下载地址。数据集：论文承诺将公开AudioCanvas基准数据集，但未说明具体获取方式。 Demo：论文未提及在线演示。复现材料：附录D提供了极其详细的实现细节，包括训练各阶段的GPU型号、数量、时长、批大小、学习率等超参数，以及CoT生成和微调的提示词模板，复现信息非常充分。论文中引用的开源项目：VideoPrism, T5-Gemma, VideoLLaMA2, Gemini 2.5 Pro（API）, MS-CLAP, Synchformer, Meta Audiobox Aesthetics, StereoCRW, Stability AI的音频工具。 📌 核心摘要要解决什么问题：视频到音频生成需要同时优化语义一致性、时间同步性、美学质量和空间准确性四个维度，但现有方法使用单一损失函数导致目标相互纠缠，且缺乏与人类偏好对齐。方法核心是什么：提出PrismAudio框架，首次将强化学习引入视频到音频生成。其核心是将生成前的推理过程分解为四个专门的链式思维模块（语义、时间、美学、空间），并为每个模块设计对应的奖励函数，通过多维强化学习进行联合优化。与已有方法相比新在哪里：1) 首次在V2A中使用分解式CoT与多维RL奖励对应，解决目标纠缠并提升可解释性。2) 提出Fast-GRPO算法，通过随机窗口的混合ODE-SDE采样，在保证性能的同时大幅降低RL训练开销。3) 构建了更严谨、场景更多样的AudioCanvas基准数据集。主要实验结果如何：在自建的AudioCanvas基准和VGGSound测试集上，PrismAudio在所有四个感知维度上均达到了SOTA水平。例如，在AudioCanvas上，与基线ThinkSound相比，语义对齐度（CLAP）从0.48提升至0.52，时间同步性（DeSync）从0.80大幅改善至0.36，美学质量（CE）从4.10提升至4.26，空间误差（CRW）从22.82降低至12.87。消融实验证明分解式CoT优于单体式CoT，多维度奖励优于单维度奖励。实际意义是什么：为生成高质量、可控且与人类感知对齐的视频配音提供了一个新范式。其分解式推理框架和高效RL训练方法对其他多模态生成任务也有参考价值。主要局限性是什么：框架复杂度较高，依赖于多个预训练模型（如VideoLLaMA2、各种奖励模型）。实验中报告的部分客观指标（如空间/美学）超越了真实音频，这可能源于对不完美代理指标的过度优化，其实际感知质量需结合主观评估看。新提出的AudioCanvas基准的有效性和广泛接受度有待社区检验。 🏗️ 模型架构 PrismAudio的整体架构可分为三个主要阶段，建立在一个基于流匹配的扩散Transformer音频基础模型之上。 ...

Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

📄 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis #音频分类 #音频生成 #多模态模型 #流匹配 #大语言模型 🔥 8.5/10 | 前25% | #音频分类 | #多模态模型 | #音频生成 #流匹配学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Pengfei Zhang (香港科技大学（广州）) 通讯作者：Li Liu (香港科技大学（广州），邮箱：avrillliu@hkust-gz.edu.cn) 作者列表：Pengfei Zhang（香港科技大学（广州）），Tianxin Xie（未说明），Minghao Yang（未说明），Li Liu（香港科技大学（广州）） 💡 毒舌点评这篇论文最大的亮点是系统设计的“闭环”思想——用LLM规划器（Thinker）主动识别诊断弱点并指导生成器合成针对性数据，这比简单的过采样或数据增强要高明得多，且在数据集稀缺的医疗场景下思路很对路。短板则在于，虽然名为“Agent”，但其中的LLM规划器更多扮演了静态调度器的角色，论文对其“自主性”（如在线从诊断反馈中学习并调整策略）的展示和验证不足，削弱了Agent这一概念的冲击力；另外，多模态融合中，文本临床叙事的加入虽然带来了提升，但其具体贡献的“可解释性”与医生直觉的关联可以挖掘得更深。 🔗 开源详情代码：提供。论文中给出了GitHub仓库链接：https://github.com/zpforlove/Resp-Agent 模型权重：提供。论文中给出了HuggingFace模型权重链接：https://huggingface.co/AustinZhang/resp-agent-models 数据集：提供。论文中给出了HuggingFace数据集链接：https://huggingface.co/datasets/AustinZhang/resp-agent-dataset Demo：论文中未提及在线演示。复现材料：提供了训练和推理脚本、配置文件、完整的超参数设置（附录C）、训练细节和检查点，复现信息非常充分。论文中引用的开源项目：依赖的开源工具/模型包括：DeepSeek系列模型（V3.2-Exp, R1-Distill-Qwen-7B）、Qwen3-0.6B-Base、BEATs、Longformer、Vocos声码器、Conformer、AST、Whisper等。 📌 核心摘要这篇论文旨在解决深度学习在呼吸音听诊分析中面临的两个根本挑战：单模态表示的信息损失和标注数据的稀缺与不均衡。为此，论文提出了Resp-Agent，一个由中央规划器（Thinker-A2CA）编排的多智能体闭环系统。核心方法包括：1）一个可控生成器（Resp-MLLM），通过模态注入将大语言模型改造为多模态生成器，并结合流匹配解码器合成指定病理内容和声学风格的呼吸音；2）一个融合诊断器，通过模态编织将临床文本与音频嵌入在输入层融合，并利用稀疏全局注意力（音频锚点）捕捉瞬态声学事件。作为基础，论文构建了大规模多模态基准数据集Resp-229k（22.9万条记录）。主要实验结果表明，Resp-Agent在ICBHI数据集上以72.7的Score刷新了官方榜单记录，在Resp-229k跨域测试集上，其生成器配合规划器可将诊断器的宏F1分数从基线的0.212大幅提升至0.598。该工作为数据稀缺的医疗音频分析提供了整合生成与诊断的新范式，但其Agent的自主适应能力及系统在真实临床环境中的部署复杂度是其主要局限。模型/设置数据集指标数值备注 ICBHI 官方排行榜 (表2) 最佳先前方法 (Dong et al.) ICBHI Score (%) 67.55 SOTA Resp-Agent [Ours] ICBHI Score (%) 72.70 (+5.15) Resp-229k 跨域测试集 (表3, 表8) 音频基线 (Conformer) Test-CD Accuracy / Macro-F1 0.720 / 0.1935 仅音频，原始不平衡 Resp-Agent (无合成) Test-CD Accuracy / Macro-F1 0.849 / 0.212 多模态诊断器 Resp-Agent (Thinker-A2CA 合成) Test-CD Accuracy / Macro-F1 0.887 / 0.598 生成数据平衡后主要创新在于：1）首次提出并实现了针对呼吸音分析的“分析-生成”闭环Agent系统；2）创建了Resp-229k大规模、带临床文本的呼吸音基准，填补了数据空白；3）设计了融合文本与音频的模态编织诊断器，通过音频锚点机制提升了对瞬态病理性声音的捕捉能力。 ...

SCRAPL: Scattering Transform with Random Paths for Machine Learning

📄 SCRAPL: Scattering Transform with Random Paths for Machine Learning #音频生成 #信号处理 #时频分析 🔥 8.5/10 | 前25% | #音频生成 | #信号处理 | #时频分析学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Christopher Mitcheltree（Queen Mary University of London, Centre for Digital Music）通讯作者：未说明（从邮箱推测可能与通讯作者单位一致，但未在文中明确标注）作者列表：Christopher Mitcheltree（Queen Mary University of London, Centre for Digital Music）、Vincent Lostanlen（Nantes Université, LS2N）、Emmanouil Benetos（Queen Mary University of London, Centre for Digital Music）、Mathieu Lagrange（Nantes Université, LS2N） 💡 毒舌点评亮点：本文提出SCRAPL算法，巧妙地利用散射变换的树状结构，通过随机路径采样和定制化优化器（P-Adam， P-SAGA），将计算成本高昂的全树散射变换损失，成功转化为一种高效且无偏的随机近似，为在大规模神经网络训练中使用复杂感知损失扫清了障碍。短板：该方法本质上是一种采样近似，在最终精度上（如表1所示）依然无法超越计算成本高得多的全树散射变换（JTFS），且在处理信号衰减部分（如表9所示）时表现不佳，表明其对稀疏低频路径的捕捉能力有待加强。 ...

SmartDJ: Declarative Audio Editing with Audio Language Model

📄 SmartDJ: Declarative Audio Editing with Audio Language Model #音频生成 #扩散模型 #大语言模型 #空间音频 #音频编辑 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #大语言模型 #空间音频学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Zitong Lan（宾夕法尼亚大学WAVES实验室）通讯作者：未说明作者列表：Zitong Lan（宾夕法尼亚大学WAVES实验室）、Yiduo Hao（宾夕法尼亚大学）、Mingmin Zhao（宾夕法尼亚大学） 💡 毒舌点评论文最大的亮点是巧妙地将“声明式”这一更高阶的交互范式引入音频编辑，通过ALM作为“导演”将抽象指令拆解为具体“剧本”（原子操作），再由LDM作为“演员”执行，思路清晰且解决了实际痛点。然而，其评估完全依赖于一个精心设计但规模有限的合成数据集（240k训练对），这种“温室里的花朵”能否在真实世界杂乱、多变、充满语义歧义的音频场景中保持同样表现，要打一个大大的问号。 🔗 开源详情代码：论文中提供了项目主页链接（https://waves.seas.upenn.edu/projects/smartdj），并声明代码将在论文被接收后公开。论文中未提及具体的代码仓库链接（如GitHub）。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：论文中详细描述了数据合成管道，并声明将公开合成的数据集。 Demo：论文中未提及在线演示。复现材料：论文附录中包含了极其详细的训练细节、超参数配置、数据合成提示词、基线实现细节等，复现材料充分。论文中引用的开源项目：PyRoomAcoustics（声学模拟）、Audio Flamingo 2（ALM基础）、Stable-Audio-Open（部分基线生成器）、Diffusion Transformer架构等。 📌 核心摘要问题：现有的音频编辑方法依赖于模板化的低级指令（如“添加鸟鸣”），无法处理用户更高级、更抽象的“声明式”指令（如“让这个声音像晴朗的森林”），且绝大多数仅支持单声道音频，缺乏空间沉浸感。核心方法：提出SmartDJ框架，由两个核心组件构成：a) 音频语言模型（ALM）作为规划器，理解原始音频和声明式指令，将其分解为一系列原子编辑操作序列（如添加、移除、调整音量、改变方向等）；b) 潜在扩散模型（LDM）作为编辑器，按顺序执行这些原子操作，对立体声音频进行精确编辑。创新点：a) 首次实现支持声明式指令的立体声音频编辑；b) 设计了一个可扩展的数据合成管道，利用LLM生成指令和操作，并基于规则化音频合成生成成对的训练数据。主要实验结果：在自建的合成测试集上，SmartDJ在多项客观指标（FD、FAD、KL、LSD、CLAP）和主观用户研究中均显著优于多种基线方法（包括端到端Audit、SDEdit、AudioEditor等）。例如，在声明式编辑任务上，SmartDJ的CLAP分数（0.21）和LSD（1.40）均优于最强基线（CLAP 0.20, LSD 1.49）。用户研究显示，在音频质量和指令对齐度上，SmartDJ的胜率均超过87%。实际意义：该框架有望降低音频创作和编辑的门槛，使非专业用户能通过自然语言快速实现复杂的音频场景转换，对VR/AR、游戏、影视后期制作等领域具有应用价值。主要局限性：a) 训练和评估完全依赖于合成数据，其与真实世界录音在复杂性、噪声和语义丰富度上可能存在差距；b) 多步顺序编辑累积误差的可能性未深入探讨（论文通过“往返编辑”实验部分缓解）；c) 系统需要ALM和LDM分别训练和推理，整体延迟（约13秒）高于端到端方法。 🏗️ 模型架构图1展示了SmartDJ的整体工作流程：用户输入声明式指令（如“让这段音频听起来像晴朗的森林”）和原始立体声音频。ALM（规划器）首先感知原始音频中的事件（如猫叫、下雨），并推理出一系列原子编辑步骤（如步骤1：移除下雨；步骤2：添加树叶沙沙声…）。这些步骤被送入LDM（编辑器），逐步对音频进行修改，最终输出编辑后的立体声音频。 ...

Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers

📄 Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers #音频生成 #视频生成 #扩散模型 #Transformer #音视频 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #视频生成 #Transformer 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jibin Song（延世大学人工智能系， CineLingo）通讯作者：未说明（论文未明确指定通讯作者，根据邮箱格式推测 Youngjung Uh 为资深作者）作者列表：Jibin Song（延世大学人工智能系， CineLingo）、Mingi Kwon（延世大学人工智能系， CineLingo）、Jaeseok Jeong（延世大学人工智能系， CineLingo）、Youngjung Uh（延世大学人工智能系， CineLingo） 💡 毒舌点评本文的亮点在于巧妙地解决了音频驱动视频生成中“精细同步”这一核心难题，其提出的 Motion-aware Loss 和 Audio Sync Guidance 机制设计简洁、逻辑清晰，实验设计（特别是新指标 CycleSync）有力地支撑了其主张。然而，短板在于其应用场景目前仍聚焦于非语音声音驱动的通用视觉运动，在需要高度语义理解的复杂场景（如音乐视频、对口型）中的泛化能力未被充分验证，且“Motion-aware Loss”并未显式区分音频相关运动与背景运动，鲁棒性存疑。 🔗 开源详情代码：论文中未提及具体代码链接，但承诺“will release our code”。模型权重：论文中未提及具体权重链接，但承诺“will release… trained models”。数据集：使用的AVSync15和TheGreatestHits是公开数据集，论文中提供了获取说明。 Demo：论文提供了一个项目页面链接 (https://jibin86.github.io/syncphony_project_page)，但未明确说明是否有在线Demo。复现材料：论文提供了非常详细的补充材料，包括架构细节（D节）、损失函数说明（A节）、训练策略（I节）、超参数、消融实验设置、用户研究细节等，复现信息较为充分。论文中引用的开源项目：Pyramid Flow（视频骨干）、DenseAV（音频编码器）、CLIP/T5（文本编码器）、V-AURA（用于CycleSync的V2A模型）、librosa（用于峰值检测）。 📌 核心摘要问题：现有音频到视频（A2V）生成模型由于间接的条件注入机制或有限的时间建模能力，难以实现音频与视频运动之间精细的时间同步。方法核心：提出 Syncphony，一个基于预训练视频骨干（DiT架构）的 A2V 生成框架。其核心包括两个新组件：(1) Motion-aware Loss，通过在训练中赋予高运动区域更高的损失权重，强化模型对关键动作时机的学习；(2) Audio Sync Guidance，在推理时，通过一个禁用了音频层的“Off-sync模型”与完整模型进行引导插值，增强音频信号对运动的影响，同时保持视觉质量。创新：直接将音频特征通过交叉注意力注入视觉生成过程；在时间维度上使用 Audio RoPE 注入精确的相对位置信息；提出首个面向高帧率视频的、基于重建的同步评估指标 CycleSync。主要实验：在 AVSync15 和 The Greatest Hits 数据集上，Syncphony 在同步准确性（CycleSync 指标）和视觉质量（FID/FVD）上均优于现有方法。例如，在 TheGreatestHits 数据集上，CycleSync 分数达到 16.18±1.26，接近甚至超过真实视频的 15.99±1.5。实际意义：为生成高质量、音画精确同步的视频内容（如自动配乐动画、虚拟主播、多媒体创作）提供了有效技术路径。主要局限性：Motion-aware Loss 的加权基于真实运动幅度，并未显式过滤与音频无关的运动（如相机移动、背景晃动）；模型在非语音声音场景下验证，对语音或更复杂语义场景的泛化能力未展示；CycleSync 指标依赖于外部 V2A 模型的质量，可能存在偏差。 🏗️ 模型架构 Syncphony 基于一个预训练的自回归扩散 Transformer（DiT）视频骨干（Pyramid Flow）。整体流程如下： ...

SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation

📄 SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation #音乐生成 #音频生成 #扩散模型 #模型评估 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #音频生成 #模型评估学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hongrui Wang (香港科技大学数学系) 通讯作者：Can Yang (香港科技大学数学系/神经系统疾病国家重点实验室)， Yang Wang (香港大学) 作者列表： Hongrui Wang (香港科技大学数学系，*共同第一作者) Fan Zhang (香港科技大学数学系，*共同第一作者，†共同通讯) Zhiyuan Yu (浙江大学CAD&CG国家重点实验室) Ziya Zhou (香港科技大学交叉学科学院) Xi Chen (香港科技大学交叉学科学院) Can Yang (香港科技大学数学系/神经系统疾病国家重点实验室，†共同通讯) Yang Wang (香港大学，†共同通讯) 💡 毒舌点评亮点：论文精准击中了多轨音乐生成中“节奏打架”这一要害，并给出了“分而治之”的优雅解法（共享模块管节奏，特定模块管音色），提出的三个节奏评估指标（IRS, CBS, CBD）直击FAD指标的软肋，非常实用。短板：模型架构虽然有效，但创新性主要体现在针对性设计上，基础框架（U-Net, LDM）仍属借用，未在生成模型理论上实现根本性突破。此外，实验主要在Slakh2100这个相对干净的数据集上进行，对于更复杂、更自由的音乐风格，模型的表现有待进一步验证。 ...