Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation

📄 Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation #音频生成 #语音合成 #音乐生成 #多模态模型 #课程学习 #扩散模型 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 0/1.5 ✅ 7/10 | 前25% | #音频生成 | #课程学习 | #语音合成 #音乐生成 | arxiv 👥 作者与机构 作者:Ye Tao, Lupeng Liu, Xuenan Xu, Jiasun Feng, Jiarui Wang, Ying Qin, Shuiyang Mao, Wei Liu, Shuai Wang 机构:南京大学智能科学与技术学院,Video Rebirth,上海交通大学,北京交通大学,上海人工智能实验室 ...

2026-06-03 · 更新于 2026-06-16 · 3 min · 476 words

FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demonstrations

📄 FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demonstrations #语音识别 #低资源 #强化学习 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.1/10 | 前50% | #语音识别 | #强化学习 | #低资源 | arxiv 👥 作者与机构 Haolong Zheng (University of Illinois Urbana Champaign), Siyin Wang (Tsinghua University), Xulin Fan (University of Illinois Urbana Champaign), Zengrui Jin (Tsinghua University), Mark Hasegawa-Johnson (University of Illinois Urbana Champaign) ...

2026-06-03 · 更新于 2026-06-16 · 2 min · 366 words

In-the-Loop Training of Deep Feedback Cancellation for Hearing Aids

📄 In-the-Loop Training of Deep Feedback Cancellation for Hearing Aids #自适应滤波 5.3/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 📝 5.3/10 | 前50% | #自适应滤波 | #自适应滤波 | arxiv 👥 作者与机构 Svantje Voit, Simon Doclo Bielefeld University (比勒费尔德大学) 💡 毒舌点评 这篇文章解决了一个真实的工程痛点(开环训练的不稳定性),方法思路也足够直观(把网络塞进训练循环里)。但它的问题在于,这种“把模型放进优化环”的想法在元学习、可微分物理仿真等领域早已是常识,甚至在音频反馈消除领域,引用的NeuralAFC[20]也用了类似框架。论文没有清晰界定其与[20]的根本区别(一个是训练路径估计器,一个是训练步长控制器),导致核心贡献的“新颖性”大打折扣。更令人失望的是,全文几乎零理论分析,仅仅依靠实验表格就下了结论,这在顶会论文中显得深度不足。实验设计也存在硬伤,如DFC-OL与DFC-IL测试配置不一致造成的公平性疑问。总体而言,这是一篇扎实的领域应用论文,但离顶级机器学习会议的标准还有距离。 📌 核心摘要 本文针对深度神经网络训练的声反馈消除(DFC)方法中存在的训练-推理不匹配问题,提出了一种在环训练框架(DFC-IL)。该框架将DFC模型直接集成到包含反馈回路的训练过程中,使模型能够暴露于不稳定条件。采用两阶段训练策略(先在稳定系统上预训练,再在更宽增益范围上微调)以确保鲁棒性。实验在多种测量和合成的反馈路径上进行,结果表明:在低增益场景下,DFC-IL与开环训练的DFC-OL性能相似;在高增益场景下,DFC-IL通过维持系统稳定性显著优于DFC-OL,且平均有效闭环增益(ECLG)最低。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及模型权重链接 数据集:论文中提及了以下数据集,但未提供具体获取链接: Hearpiece 数据库:包含5,740条反馈路径脉冲响应。 LibriSpeech 语料库:作为源信号 v(n) 来源。 双麦克风助听器测量数据:420条反馈路径,录制于假头。 合成反馈路径:9,000条,根据[31]中的模型生成。 Demo:论文中未提及 复现材料:论文中提供了详细的训练配置(如两阶段训练策略、超参数),但未提供具体的训练脚本、检查点或附录材料。 论文中引用的开源项目:未提及具体项目链接。论文引用了参考文献中的工作,如[2] Hearpiece数据库、[10] DFC-OL原始论文、[20] NeuralAFC论文、[21] PEM-NLMS论文,但未明确这些参考文献对应的代码或项目主页是否开源及具体链接。 🏗️ 方法概述和架构 本文提出的在环训练DFC-IL模型,其核心架构基于先前的DFC-OL模型[10],但进行了关键修改以实现在环训练和降低计算复杂度。模型以帧为单位操作,输入为当前时刻的归一化频域扬声器信号谱 \(`\widetilde{\boldsymbol{\mathbf{U}}}(k)`\) 和误差信号谱 \(`\widetilde{\boldsymbol{\mathbf{E}}}(k)`\)。这两个谱是由对应的时间域帧 \(`\boldsymbol{\mathbf{u}}(k)`\) 和 \(`\boldsymbol{\mathbf{e}}(k)\)(长度\(`M`\),移位\(`R`\))经过\(`M`\)点离散傅里叶变换并归一化(除以 \(`\lVert\boldsymbol{\mathbf{U}}(k)\rVert_{2}`\))得到。架构如图2所示,具体处理流程如下:1)两个归一化谱首先被连接成两个通道;2)通过一个卷积核大小为5的一维卷积层,生成一个单通道的谱包络特征;3)该谱包络特征再次与原始的归一化谱 \(`\widetilde{\boldsymbol{\mathbf{U}}(k)}\) 和 \(\widetilde{\boldsymbol{\mathbf{E}}(k)}) 连接,形成 \(3(M+2)\) 维的特征向量;4)该特征向量依次经过一个带LeakyReLU激活的全连接层、一个具有256个单元的LSTM层、另一个带LeakyReLU激活的全连接层;5)最后一个带tanh激活的全连接层输出最终的时域反馈路径估计系数 \(\boldsymbol{\mathbf{\widehat{h}}}(k)=[\widehat{h}{1}(k),\dots,\widehat{h}{L}(k)]^{\textit{\scriptsize{T}}}\),其中\(L=64`)。 ...

2026-06-03 · 更新于 2026-06-16 · 2 min · 269 words

Inference-Time Scaling for Joint Audio-Video Generation

📄 Inference-Time Scaling for Joint Audio-Video Generation #语音合成 6.9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.9/10 | 前50% | #语音合成 | #语音合成 | arxiv 👥 作者与机构 作者:Jaemin Jung, Kyeongha Rho, Inkyu Shin, Joon Son Chung 机构:Korea Advanced Institute of Science and Technology (KAIST), Luma AI 💡 毒舌点评 这篇论文选了一个非常实际且重要的多模态生成问题——如何在推理时提升联合音视频生成的质量,而不是单纯增加训练成本。它指出了“单一验证器黑客”这个观察很有趣,且提出的多验证器组合选择和自适应奖励加权(ARW)思路有一定工程价值。然而,论文的局限性同样明显:1) 创新性有限,核心思想(ITS, 多目标聚合)在单模态领域已有大量研究,本文更多是将现有范式“移植”到多模态场景并做了一些调参和组合实验,缺乏理论层面的突破。2) 实验虽然全面,但评估完全依赖现有的自动化指标,而这些指标本身可能无法完全捕捉人类对音频-视频同步和质量的感知,人类评估部分也过于简单。3) 所提方法的计算开销依然巨大,限制了其实际应用,论文也未能提出真正有效的效率优化方案。4) 影响力受限于领域,核心贡献在音频-视频生成,对更广泛的语音处理社区直接启示有限。 ...

2026-06-03 · 更新于 2026-06-16 · 2 min · 344 words

LiveBand: Live Accompaniment Generation in the Audio Domain

📄 LiveBand: Live Accompaniment Generation in the Audio Domain #对抗训练 #自回归模型 #生成对抗网络 8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8/10 | 前25% | #音乐生成 | #对抗训练 | #自回归模型 #生成对抗网络 | arxiv 👥 作者与机构 索尼计算机科学实验室(Sony Computer Science Laboratories, SCS Paris) 💡 毒舌点评 这篇论文瞄准了一个非常具体且困难的实际问题:如何在零前瞻(lookahead)的严格实时约束下,根据混合音频流生成伴奏。它提出的解决方案核心思想——用对抗训练替代自回归损失以消除教师强制偏差——是清晰且合理的。然而,论文的评估部分存在显著的漏洞,严重削弱了其结论的可信度。主观测试中,低质量锚点在“一致性”上的得分竟高于基线模型,这一反常结果未得到任何解释或讨论,暴露出实验设计的重大缺陷。此外,FAD等客观指标在部分配置下优于真实音频,这更可能指向评估指标的局限性或生成模式的坍塌,而非模型真的超越了人类水平,但论文对此缺乏批判性分析。在声称解决了“根本性障碍”之前,先得把自家后院的篱笆扎牢。技术细节扎实,但实验论证链条的这一环太薄弱了。 📌 核心摘要 问题背景:解决在严格因果约束和实时延迟要求下,根据实时输入的混合音频(mix)生成高质量音乐伴奏(accompaniment)的任务。传统方法依赖教师强制训练,导致训练与推理间存在分布偏移(暴露偏差),需要未来信息前瞻(lookahead)来维持一致性。 核心方法:提出LiveBand系统,它在一个预训练的因果音频自编码器(CoDiCodec的因果变体)的连续潜在空间中训练一个因果Transformer生成器。生成器每一步仅接收因果可用的混合上下文和独立高斯噪声,不接收之前生成的目标隐状态,从而在训练时即可实现与推理完全匹配的序列生成,消除了暴露偏差。对抗性训练由一个非因果的卷积判别器提供序列级监督,评估完整生成序列的真实性。 主要贡献:1. 提出首个无需未来信息前瞻的严格因果Transformer,用于实时音乐伴奏生成。2. 通过设计实现了训练与推理的完全匹配(平行掩码前向传播与自回归推理等价),无需序列回滚即可消除教师强制带来的暴露偏差。3. 提出一种自适应梯度惩罚权重(AdaGP),通过维持目标判别器优势来稳定对抗训练,减少超参数调整。 实验数据集:主要使用Slakh2100数据集的官方划分。另有一个基于约2万条非合成多轨立体声录音的内部语料库,仅用于训练一个CLAP条件变体(LiveBand_int)。 评估指标:使用Fréchet Audio Distance(FAD,VGGish和CLAP嵌入空间,↓)、节拍对齐F1分数(BA F1,↑)、COCOLA(衡量混合-伴奏一致性,包括full/harm/perc版本,↑)等客观指标,并进行了主观听音测试评估音频质量和混合一致性。同时报告了从第10秒到第20秒生成内容的指标漂移(Δ)。 主要结果:在Slakh2100基准测试上,LiveBand(包括τ=0, 0.1, 1秒前瞻)在所有客观指标上均优于自回归基线模型StreamMusicGen(SMG)。即使在τ=1秒的强前瞻设置下,LiveBand的BA和COCOLA指标仍优于SMG在τ=0(严格同步)下的表现。在20秒生成中,LiveBand表现出极低或有利的指标漂移,而SMG性能随时间下降。主观测试显示LiveBand在质量和混合一致性上显著优于SMG。在消费级硬件(RTX 3090)上,配合torch.compile,系统可实现实时推理(RTF > 1)。 代码与数据:论文提供了演示页面链接:https://sonycslparis.github.io/liveband-companion。未提供训练代码、模型权重或数据集下载链接。 资源需求:在单块RTX 3090 GPU上,使用bfloat16混合精度,训练约75万次迭代(约1周)。生成器和判别器各约1.5亿参数。 局限性:论文承认生成的音频保真度与真实音频相比仍有提升空间。实验设计(如主观测试锚点)存在可讨论的问题。 伦理考量:论文提及了该技术在作者权、对音乐家影响及潜在滥用方面的伦理问题。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:主要使用 Slakh2100 数据集(论文中引用了其官方 train/test split [48])。另有一个基于约20k首非合成多轨立体声录音的内部语料库,用于训练CLAP条件变体,但该内部数据集未公开。Slakh2100 数据集是公开的,可通过其原论文或官方渠道获取。 Demo:https://sonycslparis.github.io/liveband-companion 复现材料:论文中详细描述了模型架构超参数、训练细节(如优化器设置、学习率、批大小、训练迭代次数、硬件等),但未提供具体的训练脚本、配置文件或检查点下载链接。 论文中引用的开源项目: CoDiCodec:论文中引用了其因果音频自编码器变体 [40](“retraining a causal variant of CoDiCodec”)。未提供直接链接。 R3GAN:论文中引用了该相对论GAN框架 [24](“We adopt R3GAN”)。未提供直接链接。 BeatThis:用于节拍对齐评估 [52]。 Madmom:用于节拍对齐评估 [53]。 COCOLA:用于衡量mix-accompaniment对齐度 [54]。 (注:论文未提供以上所有引用项目的具体URL。) 🏗️ 方法概述和架构 LiveBand系统旨在解决实时、因果的音乐伴奏生成问题,其方法核心在于消除训练与推理的不匹配,并利用序列级监督。整个系统在预训练的因果音频自编码器的连续隐空间内操作。 ...

2026-06-03 · 更新于 2026-06-16 · 3 min · 502 words

Localizing broadband noise sources using the Loève spectrum and a 2.5D approach

📄 Localizing broadband noise sources using the Loève spectrum and a 2.5D approach #声源定位 6.9/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.9/10 | 前50% | #声源定位 | #声源定位 | arxiv 👥 作者与机构 Christian H. Kasess (Acoustics Research Institute, Austrian Academy of Sciences, Vienna, Austria) Wolfgang Kreuzer (未提供具体机构) Holger Waubke (未提供具体机构) 💡 毒舌点评 这篇论文工作扎实,理论推导细致,将2.5D BEM框架从单频源成功扩展到了宽带随机源,使用Loève谱处理非平稳过程是个合理的选择。然而,其“概念验证”的定位过于保守,实验设计几乎全部基于理想化的自由场模拟,缺乏对真实环境(如地面反射、散射体、实际噪声源特性)的任何考量。所谓“定位”能力仅通过理论谱与估计谱的相关性来展示,而非通过重建源位置来评估,这回避了最具挑战性的逆问题部分。作者强调的计算复杂度问题虽然真实,但在仅有理论公式和有限数值实验的论文中提出,更像一个有待解决的“未来工作”,而非对当前方法瓶颈的深刻剖析。整体看,这是一篇领域内小修小补、为特定应用场景(铁路噪声)铺路的预备性工作,离解决实际的宽带移动源定位问题还有相当距离。 ...

2026-06-03 · 更新于 2026-06-16 · 2 min · 324 words

Logit Distillation on Manifolds: Mapping by Learning

📄 Logit Distillation on Manifolds: Mapping by Learning #知识蒸馏 #参数高效微调 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.3/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #知识蒸馏 | #参数高效微调 | arxiv 👥 作者与机构 Yiru Yang (University of Zurich), Junling Wang (ETH Zurich), Nishant Kumar Singh (University of Zurich), Luohong Wu (University of Zurich), Haoran Yan (Deutsche Bank Securities) ...

2026-06-03 · 更新于 2026-06-16 · 3 min · 509 words

MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis

📄 MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis #自监督学习 #对比学习 #多模态模型 #参数高效微调 6.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.6/10 | 前25% | #自监督学习 | #自监督学习 | #对比学习 #多模态模型 | arxiv 👥 作者与机构 作者:Yuanhao Chen, Peter Chin 机构:Dartmouth College, Hanover, NH, USA 💡 毒舌点评 一篇动机良好、理论包装扎实的工作,但将一个在单个数据集、单个参与者上的工程优化,拔高到了“模态发现”的哲学高度。最大的卖点——Area 44信号的“起死回生”——其普适性存疑,且缺乏与最先进级联系统的公平比较。理论命题(Proposition 3.1 & 3.2)虽优雅,但与现实训练条件(τ为有限值)脱节,更像一个解释现象的后验故事而非设计指南。代码未开源是硬伤,严重阻碍了验证与复现。 ...

2026-06-03 · 更新于 2026-06-16 · 2 min · 400 words

OmniHalluc-L: Counterfactual Benchmarking and Modality-Perturbation Reliability Calibration for Long-Form Omni Hallucination

📄 OmniHalluc-L: Counterfactual Benchmarking and Modality-Perturbation Reliability Calibration for Long-Form Omni Hallucination #多模态模型 #模型评估 7.8/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.8/10 | 前25% | #多模态模型 | #模型评估 | arxiv 👥 作者与机构 Zixuan Dong, Jiafu Tang, Zhide Lei, Zhe Cao, Zijie Zhang, Yanghai Wang, Shihao Li, Xiaodong Wang, Baoyun Peng, Jiaheng Liu. 作者来自国防科技大学和南京大学。 ...

2026-06-03 · 更新于 2026-06-16 · 3 min · 438 words

Sandboxed Coding Agents are Competitive Omni-modal Task Solvers

📄 Sandboxed Coding Agents are Competitive Omni-modal Task Solvers #强化学习 #基准测试 7.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.9/10 | 前25% | #强化学习 | #强化学习 | #基准测试 | arxiv 👥 作者与机构 论文作者为Dongping Chen, Xuanao Huang, Zhihan Hu, Qingyuan Shi, Dianqi Li, Tianyi Zhou。机构包括马里兰大学(University of Maryland)和穆罕默德·本·扎耶德人工智能大学(MBZUAI)。 💡 毒舌点评 这篇论文像一个聪明的“工具人”(编码代理)突然发现自己能干“多媒体专家”(原生全模态模型)的活,而且还干得又快又省(少令牌)。作者不仅展示了这个现象,还像产品经理一样分析了“工具人”的故障模式,并手把手教它(Code-X训练)以及设计了新的“技能考核标准”(TerminalBench-O)。优点是思路清晰,实证充分,对“原生感知必要性”这个假设发起了有价值的挑战。缺点在于,部分实验设计有“田忌赛马”的嫌疑,比较基准的选择和设置可能对原生模型不够公平;结论的普适性被自身承认的局限性所削弱;且“处理”任务的新基准(TerminalBench-O)虽然立意好,但目前结果过于惨淡,难以支撑起“下一个前沿”的宏大宣言。总体是一篇扎实的系统性工作,但离改变范式还有一段距离。 📌 核心摘要 本文挑战了“全模态任务必须由原生全模态模型解决”的传统假设。研究发现,仅具备文本+图像访问能力的沙箱化编码代理,通过编写代码、调用ffmpeg、Whisper等工具从原始媒体中提取证据,能够将全模态任务转化为检索与信息处理问题。在OmniGAIA等多个基准上,此类代理(如GPT-5.4 xhigh)的性能可匹配甚至超越Gemini 3.1 Pro等原生全模态模型,同时消耗的令牌更少。论文通过失败分类法和过程级评估分析了代理的局限,并提出三种技能注入方法以提升性能。为探索开源能力,论文提出Code-X训练方案(SFT+可验证奖励RL)和OmniCoding数据集,并在Qwen开源模型上获得提升。此外,论文引入了首个面向全模态处理任务的基准TerminalBench-O,揭示当前代理在该任务上的不足。 ...

2026-06-03 · 更新于 2026-06-16 · 4 min · 720 words