NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching #多模态模型 #流匹配 #音频生成 #语音对话系统 🔥 8.5/10 | 前25% | #多模态模型 | #流匹配 | #音频生成 #语音对话系统 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Run Luo(中国科学院深圳先进技术研究院,中国科学院大学) 通讯作者:Xiaobo Xia(新加坡国立大学,中国科学技术大学);Min Yang(中国科学院深圳先进技术研究院,深圳大学先进技术研究院) 作者列表:Run Luo(中国科学院深圳先进技术研究院,中国科学院大学)、Xiaobo Xia(新加坡国立大学,中国科学技术大学)、Lu Wang(Rtizz-AI)、Longze Chen(中国科学院深圳先进技术研究院,中国科学院大学)、Renke Shan(Rtizz-AI)、Jing Luo(中国科学院深圳先进技术研究院,中国科学院大学)、Min Yang(中国科学院深圳先进技术研究院,深圳大学先进技术研究院)、Tat-Seng Chua(新加坡国立大学) 💡 毒舌点评 亮点在于其架构的简洁与统一性,用单一DFM骨干取代了常见的AR+Diffusion混合或解耦设计,这在处理需要深度融合的多模态检索任务时确实显示出优势,实验也验证了这一点。短板则受限于“论文中未说明”训练硬件的具体规格和训练总时长,且其核心贡献——DFM在统一建模上的潜力——受限于仅7B的参数规模,大规模Scaling下的表现未知,使得“下一代范式”的论断稍显仓促。 🔗 开源详情 代码:是,提供了GitHub仓库链接:https://github.com/ritzz-ai/Next-OMNI 模型权重:是,论文明确提到“开源”模型检查点,并提供了链接。 数据集:部分公开。论文中使用的大部分数据集为公开数据集(如LAION, LibriSpeech等),但也包含“私有数据”。论文未提供统一的训练数据下载链接,但详细列出了数据来源和构成(表8)。 Demo:论文中未提及在线演示。 复现材料:非常充分。附录中提供了模型设计细节(D)、数据策展详情(E)、训练配方(F,表9)和额外的实验与可视化结果(G, H, I)。 论文中引用的开源项目:主要包括:Qwen2.5系列(骨干/对齐损失)、CLIP-ViT(视觉编码器初始化)、Whisper(音频编码器初始化)、FLUX(图像生成数据合成)、MMEvol(指令数据增强)、以及训练数据相关的多个公开数据集工具(如LAION, Common Crawl)。 📌 核心摘要 本文旨在解决现有统一多模态模型在理解和生成任务间存在固有冲突、架构冗余(混合/解耦设计)导致难以支持跨模态检索等更通用场景的问题。核心方法是提出NExT-OMNI,首个完全基于离散流匹配(DFM)的开源全能态基础模型。与已有的自回归或混合架构相比,其新在:1)完全摒弃自回归范式,采用DFM进行并行去噪,原生支持双向信息融合;2)设计了带有重建损失的统一表征编码器,为生成、理解和检索任务提供一体化特征;3)引入动态长度生成策略和自适应缓存机制以提升效率。主要实验结果如下:在全能态理解基准(OmniBench, WorldSense, AV-Odyssey)上,平均得分39.7,优于OpenOmni(36.5);在多轮视觉交互(OpenING)上,平均分55.0,显著高于前代模型;在多模态检索(MMEBEDIR子集)上,平均Top-5准确率32.9,优于所有对比模型(MMaDA为31.8);在语音交互(Spoken QA)上取得有竞争力的结果。实际意义在于,它为构建更统一、高效的全能态基础模型提供了一个有前景的新范式。主要局限性在于,受限于计算资源,模型仅在7B规模上训练和验证,其在大规模下的潜力尚未证明。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 248 words

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

📄 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation #音频生成 #强化学习 #扩散模型 #多模态模型 #基准测试 ✅ 7.0/10 | 前25% | #音频生成 | #强化学习 | #扩散模型 #多模态模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Huadai Liu(香港科技大学、阿里巴巴集团通义实验室) 通讯作者:Wei Xue(香港科技大学) 作者列表:Huadai Liu(香港科技大学、阿里巴巴集团通义实验室)、Kaicheng Luo(阿里巴巴集团通义实验室)、Wen Wang(阿里巴巴集团通义实验室)、Qian Chen(阿里巴巴集团通义实验室)、Peiwen Sun(香港中文大学)、Rongjie Huang(香港中文大学)、Xiangang Li(阿里巴巴集团通义实验室)、Jieping Ye(阿里巴巴集团通义实验室)、Wei Xue(香港科技大学) 💡 毒舌点评 亮点在于将“分解的链式思维”与“多维强化学习奖励”进行耦合的框架设计思路,清晰且有效,为解决多目标生成中的“目标纠缠”提供了新颖且可解释的方案。短板是,其提出的全新AudioCanvas基准数据集虽然是必要的,但作为“裁判员”的同时,自己也是“运动员”,这使得核心结论的公信力部分依赖于数据集构建的客观性,且报告的部分指标(如在某些空间或美学指标上超越了真实音频)需要更谨慎的解释。 🔗 开源详情 代码:论文承诺将开源完整训练脚本和配置文件,但当前未提供代码仓库链接。 模型权重:论文承诺将公开所有模型权重(音频基础模型、微调后的VideoLLaMA2等),但未提供下载地址。 数据集:论文承诺将公开AudioCanvas基准数据集,但未说明具体获取方式。 Demo:论文未提及在线演示。 复现材料:附录D提供了极其详细的实现细节,包括训练各阶段的GPU型号、数量、时长、批大小、学习率等超参数,以及CoT生成和微调的提示词模板,复现信息非常充分。 论文中引用的开源项目:VideoPrism, T5-Gemma, VideoLLaMA2, Gemini 2.5 Pro(API), MS-CLAP, Synchformer, Meta Audiobox Aesthetics, StereoCRW, Stability AI的音频工具。 📌 核心摘要 要解决什么问题:视频到音频生成需要同时优化语义一致性、时间同步性、美学质量和空间准确性四个维度,但现有方法使用单一损失函数导致目标相互纠缠,且缺乏与人类偏好对齐。 方法核心是什么:提出PrismAudio框架,首次将强化学习引入视频到音频生成。其核心是将生成前的推理过程分解为四个专门的链式思维模块(语义、时间、美学、空间),并为每个模块设计对应的奖励函数,通过多维强化学习进行联合优化。 与已有方法相比新在哪里:1) 首次在V2A中使用分解式CoT与多维RL奖励对应,解决目标纠缠并提升可解释性。2) 提出Fast-GRPO算法,通过随机窗口的混合ODE-SDE采样,在保证性能的同时大幅降低RL训练开销。3) 构建了更严谨、场景更多样的AudioCanvas基准数据集。 主要实验结果如何:在自建的AudioCanvas基准和VGGSound测试集上,PrismAudio在所有四个感知维度上均达到了SOTA水平。例如,在AudioCanvas上,与基线ThinkSound相比,语义对齐度(CLAP)从0.48提升至0.52,时间同步性(DeSync)从0.80大幅改善至0.36,美学质量(CE)从4.10提升至4.26,空间误差(CRW)从22.82降低至12.87。消融实验证明分解式CoT优于单体式CoT,多维度奖励优于单维度奖励。 实际意义是什么:为生成高质量、可控且与人类感知对齐的视频配音提供了一个新范式。其分解式推理框架和高效RL训练方法对其他多模态生成任务也有参考价值。 主要局限性是什么:框架复杂度较高,依赖于多个预训练模型(如VideoLLaMA2、各种奖励模型)。实验中报告的部分客观指标(如空间/美学)超越了真实音频,这可能源于对不完美代理指标的过度优化,其实际感知质量需结合主观评估看。新提出的AudioCanvas基准的有效性和广泛接受度有待社区检验。 🏗️ 模型架构 PrismAudio的整体架构可分为三个主要阶段,建立在一个基于流匹配的扩散Transformer音频基础模型之上。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 397 words

Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

📄 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis #音频分类 #音频生成 #多模态模型 #流匹配 #大语言模型 🔥 8.5/10 | 前25% | #音频分类 | #多模态模型 | #音频生成 #流匹配 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Pengfei Zhang (香港科技大学(广州)) 通讯作者:Li Liu (香港科技大学(广州),邮箱:avrillliu@hkust-gz.edu.cn) 作者列表:Pengfei Zhang(香港科技大学(广州)),Tianxin Xie(未说明),Minghao Yang(未说明),Li Liu(香港科技大学(广州)) 💡 毒舌点评 这篇论文最大的亮点是系统设计的“闭环”思想——用LLM规划器(Thinker)主动识别诊断弱点并指导生成器合成针对性数据,这比简单的过采样或数据增强要高明得多,且在数据集稀缺的医疗场景下思路很对路。短板则在于,虽然名为“Agent”,但其中的LLM规划器更多扮演了静态调度器的角色,论文对其“自主性”(如在线从诊断反馈中学习并调整策略)的展示和验证不足,削弱了Agent这一概念的冲击力;另外,多模态融合中,文本临床叙事的加入虽然带来了提升,但其具体贡献的“可解释性”与医生直觉的关联可以挖掘得更深。 🔗 开源详情 代码:提供。论文中给出了GitHub仓库链接:https://github.com/zpforlove/Resp-Agent 模型权重:提供。论文中给出了HuggingFace模型权重链接:https://huggingface.co/AustinZhang/resp-agent-models 数据集:提供。论文中给出了HuggingFace数据集链接:https://huggingface.co/datasets/AustinZhang/resp-agent-dataset Demo:论文中未提及在线演示。 复现材料:提供了训练和推理脚本、配置文件、完整的超参数设置(附录C)、训练细节和检查点,复现信息非常充分。 论文中引用的开源项目:依赖的开源工具/模型包括:DeepSeek系列模型(V3.2-Exp, R1-Distill-Qwen-7B)、Qwen3-0.6B-Base、BEATs、Longformer、Vocos声码器、Conformer、AST、Whisper等。 📌 核心摘要 这篇论文旨在解决深度学习在呼吸音听诊分析中面临的两个根本挑战:单模态表示的信息损失和标注数据的稀缺与不均衡。为此,论文提出了Resp-Agent,一个由中央规划器(Thinker-A2CA)编排的多智能体闭环系统。核心方法包括:1)一个可控生成器(Resp-MLLM),通过模态注入将大语言模型改造为多模态生成器,并结合流匹配解码器合成指定病理内容和声学风格的呼吸音;2)一个融合诊断器,通过模态编织将临床文本与音频嵌入在输入层融合,并利用稀疏全局注意力(音频锚点)捕捉瞬态声学事件。作为基础,论文构建了大规模多模态基准数据集Resp-229k(22.9万条记录)。主要实验结果表明,Resp-Agent在ICBHI数据集上以72.7的Score刷新了官方榜单记录,在Resp-229k跨域测试集上,其生成器配合规划器可将诊断器的宏F1分数从基线的0.212大幅提升至0.598。该工作为数据稀缺的医疗音频分析提供了整合生成与诊断的新范式,但其Agent的自主适应能力及系统在真实临床环境中的部署复杂度是其主要局限。 模型/设置 数据集 指标 数值 备注 ICBHI 官方排行榜 (表2) 最佳先前方法 (Dong et al.) ICBHI Score (%) 67.55 SOTA Resp-Agent [Ours] ICBHI Score (%) 72.70 (+5.15) Resp-229k 跨域测试集 (表3, 表8) 音频基线 (Conformer) Test-CD Accuracy / Macro-F1 0.720 / 0.1935 仅音频,原始不平衡 Resp-Agent (无合成) Test-CD Accuracy / Macro-F1 0.849 / 0.212 多模态诊断器 Resp-Agent (Thinker-A2CA 合成) Test-CD Accuracy / Macro-F1 0.887 / 0.598 生成数据平衡后 主要创新在于:1)首次提出并实现了针对呼吸音分析的“分析-生成”闭环Agent系统;2)创建了Resp-229k大规模、带临床文本的呼吸音基准,填补了数据空白;3)设计了融合文本与音频的模态编织诊断器,通过音频锚点机制提升了对瞬态病理性声音的捕捉能力。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 346 words

SCRAPL: Scattering Transform with Random Paths for Machine Learning

📄 SCRAPL: Scattering Transform with Random Paths for Machine Learning #音频生成 #信号处理 #时频分析 🔥 8.5/10 | 前25% | #音频生成 | #信号处理 | #时频分析 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Christopher Mitcheltree(Queen Mary University of London, Centre for Digital Music) 通讯作者:未说明(从邮箱推测可能与通讯作者单位一致,但未在文中明确标注) 作者列表:Christopher Mitcheltree(Queen Mary University of London, Centre for Digital Music)、Vincent Lostanlen(Nantes Université, LS2N)、Emmanouil Benetos(Queen Mary University of London, Centre for Digital Music)、Mathieu Lagrange(Nantes Université, LS2N) 💡 毒舌点评 亮点:本文提出SCRAPL算法,巧妙地利用散射变换的树状结构,通过随机路径采样和定制化优化器(P-Adam, P-SAGA),将计算成本高昂的全树散射变换损失,成功转化为一种高效且无偏的随机近似,为在大规模神经网络训练中使用复杂感知损失扫清了障碍。 短板:该方法本质上是一种采样近似,在最终精度上(如表1所示)依然无法超越计算成本高得多的全树散射变换(JTFS),且在处理信号衰减部分(如表9所示)时表现不佳,表明其对稀疏低频路径的捕捉能力有待加强。 ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 487 words

SmartDJ: Declarative Audio Editing with Audio Language Model

📄 SmartDJ: Declarative Audio Editing with Audio Language Model #音频生成 #扩散模型 #大语言模型 #空间音频 #音频编辑 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #大语言模型 #空间音频 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Zitong Lan(宾夕法尼亚大学WAVES实验室) 通讯作者:未说明 作者列表:Zitong Lan(宾夕法尼亚大学WAVES实验室)、Yiduo Hao(宾夕法尼亚大学)、Mingmin Zhao(宾夕法尼亚大学) 💡 毒舌点评 论文最大的亮点是巧妙地将“声明式”这一更高阶的交互范式引入音频编辑,通过ALM作为“导演”将抽象指令拆解为具体“剧本”(原子操作),再由LDM作为“演员”执行,思路清晰且解决了实际痛点。然而,其评估完全依赖于一个精心设计但规模有限的合成数据集(240k训练对),这种“温室里的花朵”能否在真实世界杂乱、多变、充满语义歧义的音频场景中保持同样表现,要打一个大大的问号。 🔗 开源详情 代码:论文中提供了项目主页链接(https://waves.seas.upenn.edu/projects/smartdj),并声明代码将在论文被接收后公开。论文中未提及具体的代码仓库链接(如GitHub)。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:论文中详细描述了数据合成管道,并声明将公开合成的数据集。 Demo:论文中未提及在线演示。 复现材料:论文附录中包含了极其详细的训练细节、超参数配置、数据合成提示词、基线实现细节等,复现材料充分。 论文中引用的开源项目:PyRoomAcoustics(声学模拟)、Audio Flamingo 2(ALM基础)、Stable-Audio-Open(部分基线生成器)、Diffusion Transformer架构等。 📌 核心摘要 问题:现有的音频编辑方法依赖于模板化的低级指令(如“添加鸟鸣”),无法处理用户更高级、更抽象的“声明式”指令(如“让这个声音像晴朗的森林”),且绝大多数仅支持单声道音频,缺乏空间沉浸感。 核心方法:提出SmartDJ框架,由两个核心组件构成:a) 音频语言模型(ALM)作为规划器,理解原始音频和声明式指令,将其分解为一系列原子编辑操作序列(如添加、移除、调整音量、改变方向等);b) 潜在扩散模型(LDM)作为编辑器,按顺序执行这些原子操作,对立体声音频进行精确编辑。 创新点:a) 首次实现支持声明式指令的立体声音频编辑;b) 设计了一个可扩展的数据合成管道,利用LLM生成指令和操作,并基于规则化音频合成生成成对的训练数据。 主要实验结果:在自建的合成测试集上,SmartDJ在多项客观指标(FD、FAD、KL、LSD、CLAP)和主观用户研究中均显著优于多种基线方法(包括端到端Audit、SDEdit、AudioEditor等)。例如,在声明式编辑任务上,SmartDJ的CLAP分数(0.21)和LSD(1.40)均优于最强基线(CLAP 0.20, LSD 1.49)。用户研究显示,在音频质量和指令对齐度上,SmartDJ的胜率均超过87%。 实际意义:该框架有望降低音频创作和编辑的门槛,使非专业用户能通过自然语言快速实现复杂的音频场景转换,对VR/AR、游戏、影视后期制作等领域具有应用价值。 主要局限性:a) 训练和评估完全依赖于合成数据,其与真实世界录音在复杂性、噪声和语义丰富度上可能存在差距;b) 多步顺序编辑累积误差的可能性未深入探讨(论文通过“往返编辑”实验部分缓解);c) 系统需要ALM和LDM分别训练和推理,整体延迟(约13秒)高于端到端方法。 🏗️ 模型架构 图1展示了SmartDJ的整体工作流程:用户输入声明式指令(如“让这段音频听起来像晴朗的森林”)和原始立体声音频。ALM(规划器) 首先感知原始音频中的事件(如猫叫、下雨),并推理出一系列原子编辑步骤(如步骤1:移除下雨;步骤2:添加树叶沙沙声…)。这些步骤被送入LDM(编辑器),逐步对音频进行修改,最终输出编辑后的立体声音频。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 328 words

Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers

📄 Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers #音频生成 #视频生成 #扩散模型 #Transformer #音视频 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #视频生成 #Transformer 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jibin Song(延世大学人工智能系, CineLingo) 通讯作者:未说明(论文未明确指定通讯作者,根据邮箱格式推测 Youngjung Uh 为资深作者) 作者列表:Jibin Song(延世大学人工智能系, CineLingo)、Mingi Kwon(延世大学人工智能系, CineLingo)、Jaeseok Jeong(延世大学人工智能系, CineLingo)、Youngjung Uh(延世大学人工智能系, CineLingo) 💡 毒舌点评 本文的亮点在于巧妙地解决了音频驱动视频生成中“精细同步”这一核心难题,其提出的 Motion-aware Loss 和 Audio Sync Guidance 机制设计简洁、逻辑清晰,实验设计(特别是新指标 CycleSync)有力地支撑了其主张。然而,短板在于其应用场景目前仍聚焦于非语音声音驱动的通用视觉运动,在需要高度语义理解的复杂场景(如音乐视频、对口型)中的泛化能力未被充分验证,且“Motion-aware Loss”并未显式区分音频相关运动与背景运动,鲁棒性存疑。 🔗 开源详情 代码:论文中未提及具体代码链接,但承诺“will release our code”。 模型权重:论文中未提及具体权重链接,但承诺“will release… trained models”。 数据集:使用的AVSync15和TheGreatestHits是公开数据集,论文中提供了获取说明。 Demo:论文提供了一个项目页面链接 (https://jibin86.github.io/syncphony_project_page),但未明确说明是否有在线Demo。 复现材料:论文提供了非常详细的补充材料,包括架构细节(D节)、损失函数说明(A节)、训练策略(I节)、超参数、消融实验设置、用户研究细节等,复现信息较为充分。 论文中引用的开源项目:Pyramid Flow(视频骨干)、DenseAV(音频编码器)、CLIP/T5(文本编码器)、V-AURA(用于CycleSync的V2A模型)、librosa(用于峰值检测)。 📌 核心摘要 问题:现有音频到视频(A2V)生成模型由于间接的条件注入机制或有限的时间建模能力,难以实现音频与视频运动之间精细的时间同步。 方法核心:提出 Syncphony,一个基于预训练视频骨干(DiT架构)的 A2V 生成框架。其核心包括两个新组件:(1) Motion-aware Loss,通过在训练中赋予高运动区域更高的损失权重,强化模型对关键动作时机的学习;(2) Audio Sync Guidance,在推理时,通过一个禁用了音频层的“Off-sync模型”与完整模型进行引导插值,增强音频信号对运动的影响,同时保持视觉质量。 创新:直接将音频特征通过交叉注意力注入视觉生成过程;在时间维度上使用 Audio RoPE 注入精确的相对位置信息;提出首个面向高帧率视频的、基于重建的同步评估指标 CycleSync。 主要实验:在 AVSync15 和 The Greatest Hits 数据集上,Syncphony 在同步准确性(CycleSync 指标)和视觉质量(FID/FVD)上均优于现有方法。例如,在 TheGreatestHits 数据集上,CycleSync 分数达到 16.18±1.26,接近甚至超过真实视频的 15.99±1.5。 实际意义:为生成高质量、音画精确同步的视频内容(如自动配乐动画、虚拟主播、多媒体创作)提供了有效技术路径。 主要局限性:Motion-aware Loss 的加权基于真实运动幅度,并未显式过滤与音频无关的运动(如相机移动、背景晃动);模型在非语音声音场景下验证,对语音或更复杂语义场景的泛化能力未展示;CycleSync 指标依赖于外部 V2A 模型的质量,可能存在偏差。 🏗️ 模型架构 Syncphony 基于一个预训练的自回归扩散 Transformer(DiT)视频骨干(Pyramid Flow)。整体流程如下: ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 512 words

SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation

📄 SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation #音乐生成 #音频生成 #扩散模型 #模型评估 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #音频生成 #模型评估 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hongrui Wang (香港科技大学数学系) 通讯作者:Can Yang (香港科技大学数学系/神经系统疾病国家重点实验室), Yang Wang (香港大学) 作者列表: Hongrui Wang (香港科技大学数学系,*共同第一作者) Fan Zhang (香港科技大学数学系,*共同第一作者,†共同通讯) Zhiyuan Yu (浙江大学CAD&CG国家重点实验室) Ziya Zhou (香港科技大学交叉学科学院) Xi Chen (香港科技大学交叉学科学院) Can Yang (香港科技大学数学系/神经系统疾病国家重点实验室,†共同通讯) Yang Wang (香港大学,†共同通讯) 💡 毒舌点评 亮点:论文精准击中了多轨音乐生成中“节奏打架”这一要害,并给出了“分而治之”的优雅解法(共享模块管节奏,特定模块管音色),提出的三个节奏评估指标(IRS, CBS, CBD)直击FAD指标的软肋,非常实用。 短板:模型架构虽然有效,但创新性主要体现在针对性设计上,基础框架(U-Net, LDM)仍属借用,未在生成模型理论上实现根本性突破。此外,实验主要在Slakh2100这个相对干净的数据集上进行,对于更复杂、更自由的音乐风格,模型的表现有待进一步验证。 ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 497 words

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

📄 TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization #音频生成 #流匹配 #扩散模型 #模型评估 #开源工具 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #模型评估 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chia-Yu Hung(南洋理工大学) 通讯作者:未说明(论文未明确指定通讯作者) 作者列表:Chia-Yu Hung(南洋理工大学), Navonil Majumder(南洋理工大学), Zhifeng Kong(NVIDIA), Ambuj Mehrish(威尼斯卡福斯卡里大学), Amir Ali Bagherzadeh(Lambda Labs), Chuan Li(Lambda Labs), Rafael Valle(NVIDIA), Bryan Catanzaro(NVIDIA), Soujanya Poria(南洋理工大学) 💡 毒舌点评 亮点:在音频生成这个“缺乏裁判”(无标准答案和可靠奖励模型)的赛道上,CRPO方法巧妙地利用CLAP打分实现了“自我训练、自我提升”的闭环,效果显著且思路优雅。短板:其声称的“超快”优势,很大程度上依赖于50步推理和44.1kHz采样率的设定,与一些专为极低延迟设计的模型(如ConsistencyTTA)的定位不同,其“最快”的宣称存在语境限定。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 295 words

Token-Based Audio Inpainting via Discrete Diffusion

📄 Token-Based Audio Inpainting via Discrete Diffusion #音频生成 #扩散模型 #音乐生成 #离散表示 #音频修复 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音乐生成 #离散表示 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Tali Dror, Iftach Shoham (论文中为共同第一作者) 通讯作者:未说明 作者列表:Tali Dror (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering), Iftach Shoham (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center), Moshe Buchris (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering), Oren Gal (University of Haifa), Haim H. Permuter (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering), Gilad Katz (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center), Eliya Nachmani (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) 💡 毒舌点评 本文开创性地将离散扩散模型应用于音频修复,将问题转化为token序列补全,并通过精心设计的span masking和导数损失来模拟音频的连续性,实验结果在长空缺修复上显著超越传统方法,这无疑是其最大的亮点。然而,其性能天花板几乎被WavTokenizer这个“黑盒”tokenizer完全锁死,且训练时的“先tokenize再mask”与推理时的“先mask再tokenize”的不匹配可能引入难以量化的误差,这是两个明显的理论与实践短板。 ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 519 words

Toward Complex-Valued Neural Networks for Waveform Generation

📄 Toward Complex-Valued Neural Networks for Waveform Generation #语音合成 #生成模型 #对抗学习 #音频生成 #信号处理 ✅ 7.5/10 | 前25% | #语音合成 | #生成模型 | #对抗学习 #音频生成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hyung-Seok Oh(高丽大学人工智能系) 通讯作者:Seong-Whan Lee(高丽大学人工智能系) 作者列表:Hyung-Seok Oh(高丽大学人工智能系)、Deok-Hyeon Cho(高丽大学人工智能系)、Seung-Bin Kim(高丽大学人工智能系)、Seong-Whan Lee(高丽大学人工智能系) 💡 毒舌点评 这篇论文首次将复值神经网络完整地引入iSTFT基声码器的生成器和判别器,构建了一个优雅的复数域对抗框架,理论动机清晰,并通过详实的实验(尤其是消融研究)证明了复值建模相比简单参数扩增的优越性。然而,其主要短板在于工程实用性:复值网络内存占用翻倍,且论文坦承多GPU训练优化不足,导致其训练效率提升有限,实际部署时的内存与计算成本仍是显著瓶颈。 🔗 开源详情 代码:提供了代码仓库链接:https://hs-oh-prml.github.io/ComVo/。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:使用了公开的LibriTTS和MUSDB18-HQ数据集,论文中说明了获取和使用方式。 Demo:论文中未提及提供在线演示。 复现材料:提供了非常详细的训练配置、超参数表(表20)、架构细节、损失函数公式(附录C)、数值验证结果(附录F)和计算图可视化(附录G),复现材料充分。 论文中引用的开源项目:引用了iSTFTNet、HiFi-GAN、BigVGAN、Vocos、APNet、APNet2、FreeV等基线的开源实现;评估工具引用了UTMOS、auraloss(MR-STFT)、PESQ、cargan(Periodicity/V-UV);辅助工具引用了complextorch库用于实现高斯技巧。 📌 核心摘要 问题:现有iSTFT基声码器使用实值神经网络处理复数频谱图的实部和虚部,这种分离处理的方式限制了模型对频谱复数内在结构(实-虚部耦合关系)的建模能力。 方法核心:提出ComVo,一个端到端复值神经网络声码器。其生成器和判别器(复值多分辨率判别器cMRD)均采用原生复数运算。创新点包括:引入相位量化层作为非线性正则化;提出分块矩阵计算方案以减少冗余运算,提升训练效率。 新在何处:据作者所知,这是首个同时在生成器和判别器中使用复值神经网络进行iSTFT波形生成的声码器,建立了真正的复数域对抗训练框架。 主要实验结果:在LibriTTS数据集上,ComVo在多项客观指标(UTMOS 3.6901, PESQ 3.8239)和主观评价(MOS 4.07)上优于Vocos、BigVGAN等强基线。在MUSDB18-HQ音乐数据集上也表现最佳。消融实验表明,复值生成器+复值判别器(GCDC)组合效果最佳,且复值建模优于将参数量翻倍的实值模型。分块矩阵方案将训练时间减少25%。 实际意义:为语音合成中的频谱建模提供了新范式,有望通过更好地建模相位信息来生成更自然的语音波形。 主要局限性:模型内存占用约为实值模型的2倍;多GPU训练存在未优化的问题;相位量化等模块采用了“分离式”设计,尚未探索更深入的复数域非线性。 🏗️ 模型架构 ComVo是一个基于生成对抗网络(GAN)的iSTFT基声码器,整体架构如图2所示。 ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 446 words