Iclr-2026

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

📄 AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer #音频生成 #流匹配 #多模态模型 #音视频 #零样本 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #多模态模型 #音视频学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Pengjun Fang（The Hong Kong University of Science and Technology）通讯作者：Harry Yang（The Hong Kong University of Science and Technology，标注有邮箱B）作者列表：Pengjun Fang（香港科技大学）、Yingqing He（香港科技大学）、Yazhou Xing（香港科技大学）、Qifeng Chen（香港科技大学，标注有邮箱B）、Ser-Nam Lim（University of Central Florida，标注有邮箱B）、Harry Yang（香港科技大学，标注有邮箱B） 💡 毒舌点评亮点：巧妙地利用“参考音频”作为控制信号，绕过了文本描述的语义模糊和粒度不足问题，实现了真正细粒度（如不同狗叫）和创意性（如音色迁移）的音效生成，两阶段训练策略的设计也颇具巧思。短板：核心生成模型（多模态Transformer+Flow Matching）是已有框架的整合，原创性集中在“控制方式”和“训练技巧”上；论文坦诚的指出，在处理复杂多声源场景时仍显力不从心，这限制了其在真实世界复杂声景中的即刻应用。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及公开专用数据集。所使用的VGGSound、AudioCaps、WavCaps均为已有公开数据集。 Demo：未提及。复现材料：提供了极其详细的训练细节（附录A）、网络架构细节（附录B）以及方法描述，为复现奠定了坚实基础。引用的开源项目：论文引用了多个开源工具或模型，包括：CLIP、Synchformer、BigVGAN（声码器）、ImageBind（用于数据筛选）、AdamW优化器、EMA技术等。开源计划：论文中未提及开源计划。 📌 核心摘要要解决什么问题：现有视频到音频（V2A）生成方法主要依赖文本提示，存在两大瓶颈：训练数据中的语义粒度模糊（如将不同的狗叫统称为“狗叫”）和文本难以描述微声学特征（如“金属碰撞声”无法区分锤击和链条声），导致无法进行精细的声音合成控制。方法核心是什么：提出AC-Foley，一个参考音频引导的V2A生成框架。它直接利用一段参考音频的声学特征（而非语义）作为条件，结合视频和文本信息，通过多模态Transformer和条件流匹配模型，生成与视频同步且具有目标音色特征的声音。与已有方法相比新在哪里：a) 控制维度升级：从文本/视频语义控制升级为直接的声学特征控制，实现细粒度合成和音色迁移。b) 训练策略创新：采用两阶段训练（重叠与非重叠条件学习），使模型既能从对齐样本中学习声学特征，又能泛化到非对齐的时序上下文中，避免简单复制。c) 零样本生成能力：通过参考音频条件，能生成训练集中未见过的声音类别（如带消音器的枪声）。主要实验结果如何：在VGGSound测试集上，AC-Foley在音频条件控制设置下，所有指标均优于基线（如MMAudio+CLAP）。例如，其FDPaSST为56.00（优于基线70.80），MCD为11.37（优于基线14.63）。在无音频条件的纯V2A任务中，AC-Foley（w/o audio）也达到或接近SOTA水平（FDPaSST 64.90）。在音色迁移任务（Greatest Hits数据集）上，即使未在此数据集训练，AC-Foley的MCD（3.39）也显著优于CondFoley（4.18）。人工评估显示，在声学保真度上，83.5%的参与者认为AC-Foley生成的音频更接近真实音频。实际意义是什么：为影视、游戏、动画等内容创作者提供了强大的音效设计工具，能够根据示例音频快速生成、修改或替换音轨中的声音元素，极大提升了创作灵活性和效率。主要局限性是什么：当输入视频和参考音频包含多个重叠声源（如对话、环境声、动作声混合）时，模型难以将特定声音元素与对应的视觉事件精确对齐。参考音频与视频内容节奏差异过大时，生成质量会下降。 🏗️ 模型架构整体架构是一个基于条件流匹配（Conditional Flow Matching）的多模态Transformer模型，旨在生成与视频同步、受参考音频和文本条件控制的梅尔谱图，最终通过声码器转换为波形。 ...

AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching

📄 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching #语音分离 #流匹配 #音视频 #基准测试 #生成模型 🔥 8.0/10 | 前25% | #语音分离 | #流匹配 | #音视频 #基准测试学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文注明 Xize Cheng, Chenyuhao Wen, Tianhao Wang 为平等贡献）通讯作者：未说明作者列表：Xize Cheng（浙江大学），Chenyuhao Wen（浙江大学），Tianhao Wang（独立作者），Yongqi Wang（浙江大学），Zehan Wang（浙江大学），Rongjie Huang（浙江大学），Tao Jin（浙江大学），Zhou Zhao（浙江大学） 💡 毒舌点评本文最大的亮点在于将流匹配生成范式成功引入视频查询声音分离任务，并系统性地分析了该任务作为“多条件生成”与传统流匹配任务的本质区别，这种对任务特性的深刻洞察比单纯提升几个点更有价值。然而，其构建的VGGSound-Hard新基准仅包含118个测试对，虽然难度高但规模偏小，其对结论的普适性支撑稍显不足；此外，作为生成模型，其推理速度（2.17 FPS）距实时处理仍有差距，论文中未探讨如何在效率上做进一步优化。 🔗 开源详情代码：论文明确承诺在接收后公开代码仓库，但未提供具体链接（论文中未提及代码链接）。模型权重：论文明确承诺在接收后公开预训练模型权重（未提及具体链接）。数据集：VGGSound-Hard作为新提出的基准，论文未说明其具体下载方式，但提及由VGGSound测试集筛选而来。VGGSound-Hard的筛选脚本可能会随代码公开。 Demo：论文提供了项目主页链接 https://AlignSep.github.io ，其中包含更多结果和音频示例，可视为一种在线演示。复现材料：附录A提供了非常详细的实现细节，包括音频VAE（表4）和向量场估计器（表5）的架构超参数、数据预处理方式、推理步数选择等关键信息。引用的开源项目：论文依赖并引用了多个开源项目：CAVP视觉编码器 (Luo et al., 2023), 音频VAE (Liu et al., 2023a), BigVGAN声码器 (Lee et al., 2022), ImageBind (Han et al., 2023) 等。 📌 核心摘要本文旨在解决视频查询声音分离（VQSS）任务中现有方法面临的两大挑战：1) 在声源同质（如多只同类狗叫）的干扰下，因缺乏精细时序建模而无法区分屏幕内外声音；2) 基于掩码的判别式方法在处理重叠声轨时易产生频谱空洞和不完整分离。方法核心是提出AlignSep，这是首个基于条件流匹配的生成式VQSS模型。与已有方法不同，AlignSep通过设计一个时序对齐的向量场估计器（采用跨模态特征拼接和无交叉注意力的Transformer），并配合预训练的CAVP视觉时序编码器，显式地学习和维护音视频之间的时序对应关系，从而在生成过程中实现精确对齐。与已有方法相比，新在两点：1) 范式上，采用生成式流程替代判别式掩码预测，能更好地处理重叠信号并避免频谱空洞；2) 建模上，明确引入并强化了时序对齐机制，而非仅依赖语义特征。此外，论文深入分析了VQSS作为多条件生成任务对标准流匹配范式提出的新挑战。主要实验结果显示，AlignSep在三个基准上均达到最优性能。在MUSIC-Clean和VGGSound-Clean上，其时序对齐准确率（TA-V）分别达到66.67%和96.88%，大幅超越最强基线OmniSep（分别为68.89%和81.25%）。在专门为测试时序对齐能力构建的更具挑战性的VGGSound-Hard基准上，AlignSep的TA-V达到95.76%，而OmniSep仅为76.27%。人类感知评估（MOS）也证实了AlignSep在噪声残留、音视频一致性、音频质量和整体评分上的优势。实际意义在于，AlignSep为解决真实复杂视听场景下的声音分离问题提供了新的、更鲁棒的框架，有助于提升视频编辑、内容理解等应用的体验。主要局限性包括：1) 新提出的VGGSound-Hard基准规模较小（仅118对）；2) 作为生成模型，推理效率有提升空间；3) 论文未深入探讨该生成范式在更复杂、多源场景下的扩展能力。 ...

Are Deep Speech Denoising Models Robust to Adversarial Noise?

📄 Are Deep Speech Denoising Models Robust to Adversarial Noise? #语音增强 #对抗样本 #鲁棒性 #音频安全 #信号处理 ✅ 7.5/10 | 前25% | #语音增强 | #对抗样本 | #鲁棒性 #音频安全学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Will Schwarzer（University of Massachusetts）通讯作者：未明确说明（第一作者邮箱为wschwarzer@umass.edu，但论文未明确标注“通讯作者”）作者列表： Will Schwarzer（University of Massachusetts） Philip S. Thomas（University of Massachusetts） Andrea Fanelli（Dolby Laboratories） Xiaoyu Liu（Dolby Laboratories，论文注释“Work done while at Dolby Laboratories”，现所属机构为Meta） 💡 毒舌点评本文系统性地揭示了当前主流开源深度语音降噪（DNS）模型在面对心理声学隐藏的对抗噪声时的普遍脆弱性，其“攻击成功且不可感知”的结论对安全关键场景（如助听器、应急通信）的模型部署敲响了警钟，实验设计严谨且多维度验证令人信服。然而，攻击目前严重依赖白盒梯度访问，且通用对抗扰动（UAP）效果有限，这使得论文揭示的威胁在真实复杂对抗环境中的可实现性打了折扣，防御部分也仅探索了最简单的高斯噪声。 🔗 开源详情代码：提供代码仓库链接：https://github.com/willschwarzer/adv-dns-public 模型权重：论文测试的四个DNS模型（Demucs, FRCRN, MP-SENet, Full-SubNet+）均为开源，权重公开。数据集：使用公开的ICASSP 2022 DNS Challenge 4数据集。 Demo：论文中未提及在线演示链接。复现材料：论文正文和附录提供了详细的实验设置、超参数、优化细节、攻击样本链接以及复现声明。论文中引用的开源项目：Whisper (ASR), Denoiser (Demucs), FullSubNet-Plus, FRCRN (ClearerVoice-Studio), MP-SENet, MaskGCT (Amphion), DNS-Challenge数据集与代码, DNSMOS P.835, NISQA, ViSQOL。其许可证信息已在表4中列出。 📌 核心摘要问题：本文研究广泛使用的深度语音降噪（DNS）模型是否对精心构造的、心理声学上不可感知的对抗性噪声具有鲁棒性。方法：作者提出了一种结合心理声学掩蔽模型（增强时间前后掩蔽）和房间脉冲响应（RIR）感知的攻击框架。核心是利用投影梯度下降（PGD）优化扰动，以短时客观可懂度（STOI）为损失函数，使DNS模型的输出从清晰语音变为无法理解的乱码，同时确保扰动能量低于听觉掩蔽阈值。创新：与先前工作相比，本文首次对多个SOTA开源DNS模型在多种声学环境（从极干净到嘈杂混响）和模拟空中传播条件下，进行了系统性的不可感知攻击研究；建立了结合心理声学和RIR感知的攻击优化流程；并通过人类研究验证了攻击的成功性和不可感知性。结果：对四个模型（Demucs, FRCRN, MP-SENet, Full-SubNet+）的测试表明，除Full-SubNet+因梯度爆炸问题表现出一定“伪鲁棒性”外，其他三个模型在所有测试环境（包括70 dB SNR无混响的近乎干净场景）下均可被成功攻击，使其输出STOI显著下降（例如，图1显示攻击后STOI增强量ΔSTOI从正值变为显著负值）。人类听辨实验（15名音频专家）证实攻击后输出词准确率接近0（图6a），且攻击扰动与干净样本的区分率仅略高于随机猜测（ABX准确率59%，图6b）。简单高斯噪声防御仅能提供部分保护（图4）。意义：研究警示，开源DNS模型在安全关键应用（如助听器、应急通信、空管）中的部署存在严重安全隐患，亟需开发更强的防御机制。局限：攻击需要白盒梯度访问；朴素的模型迁移攻击无效；目标攻击虽在客观指标上成功，但主观听感上目标语音仅隐约可闻；通用对抗扰动（UAP）效果有限；防御评估仅限于简单的高斯噪声。 🏗️ 模型架构本文并未提出新的DNS模型架构，而是评估了四个现有开源DNS模型的脆弱性。这些模型的架构简述如下，均来源于论文及其引用： ...

AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models

📄 AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models #基准测试 #模型评估 #音频安全 #音频大模型 🔥 8.5/10 | 前25% | #模型评估 | #基准测试 | #音频安全 #音频大模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Kai Li（南洋理工大学，与清华大学计算机系、AI研究院、BNRist相关）通讯作者：Xinfeng Li（南洋理工大学）作者列表：Kai Li（南洋理工大学）， Can Shen（北京师范大学-香港浸会大学联合国际学院）， Yile Liu（早稻田大学）， Jirui Han（独立研究者）， Kelong Zheng（华中科技大学）， Xuechao Zou（北京交通大学）， Lionel Z. Wang（南洋理工大学）， Shun Zhang（火箭军工程大学）， Xingjian Du（罗切斯特大学）， Hanjun Luo（浙江大学）， Yingbin Jin（香港理工大学）， Xinxin Xing（独立研究者）， Ziyang Ma（南洋理工大学，上海交通大学）， Yue Liu（新加坡国立大学）， YiFan Zhang（中国科学院）， Junfeng Fang（新加坡国立大学）， Kun Wang（南洋理工大学）， Yibo Yan（香港科技大学广州）， Gelei Deng（南洋理工大学）， Haoyang Li（香港理工大学）， Yiming Li（南洋理工大学）， Xiaobin Zhuang（字节跳动）， Tianlong Chen（北卡罗来纳大学教堂山分校）， Qingsong Wen（松鼠AI学习）， Tianwei Zhang（南洋理工大学）， Yang Liu（南洋理工大学）， Haibo Hu（香港理工大学）， Zhizheng Wu（香港中文大学深圳）， Xiaolin Hu（清华大学计算机系）， Eng Siong Chng（南洋理工大学）， Wenyuan Xu（浙江大学）， XiaoFeng Wang（南洋理工大学）， Wei Dong（南洋理工大学）， Xinfeng Li（南洋理工大学） 💡 毒舌点评亮点：堪称音频大模型“安全审计”的瑞士军刀，首次系统性地为ALLMs量身定制了六大可信度维度与评估工具集，填补了该领域至关重要的评估空白。短板：评估流程高度依赖GPT-4o等LLM作为“法官”，其判定本身可能引入与音频模型相似的偏差，形成“用AI评估AI”的循环论证风险。 ...

AudioX: A Unified Framework for Anything-to-Audio Generation

📄 AudioX: A Unified Framework for Anything-to-Audio Generation #音频生成 #音乐生成 #多模态模型 #扩散模型 #数据集 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音乐生成 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zeyue Tian（香港科技大学）通讯作者：Wei Xue†（香港科技大学），Yike Guo†（香港科技大学）作者列表：Zeyue Tian（香港科技大学），Zhaoyang Liu（香港科技大学），Yizhu Jin（香港科技大学），Ruibin Yuan（香港科技大学），Liumeng Xue（香港科技大学），Xu Tan（独立研究者），Qifeng Chen（香港科技大学），Wei Xue†（香港科技大学），Yike Guo†（香港科技大学） 💡 毒舌点评该工作在“大力出奇迹”的道路上又进了一步：用精心设计的结构化标注管线喂出了七百万条高质量音频-文本对，配合一个设计得当的多模态融合模块，最终在各大榜单上刷出了SOTA，这证明了数据工程与模型工程的双重重要性。然而，论文中将指令跟随能力归因于MAF模块和数据集的论断，部分证据（如T2A-bench的评估）严重依赖外部强大的多模态大模型作为标注器和裁判，这引发了评估闭环是否过于依赖商业API的疑问。 🔗 开源详情代码：论文中提供了代码仓库链接（https://zeyuet.github.io/AudioX/），并承诺将开源。模型权重：论文提及将开源预训练模型检查点。数据集：论文承诺将完整开源IF-caps数据集。 Demo：论文中未提及在线演示链接。复现材料：论文提供了详细的模型架构、训练超参数、数据集统计信息、评估指标定义和基准测试细节（见附录）。附录中进一步详述了数据标注样例和评估流程。引用的开源项目：CLIP (Radford et al., 2021), Synchformer (Iashin et al., 2024), T5 (Raffel et al., 2020), Stable Audio Open (Evans et al., 2024b), Gemini 2.5 Pro (Google), Qwen2-Audio (Chu et al., 2024)。 📌 核心摘要问题：当前音频生成模型大多为单模态输入（如仅文本或仅视频）、单任务输出（如仅音效或仅音乐）的“专家”模型，缺乏一个能灵活组合多种控制信号并生成高质量音频/音乐的统一框架，且高质量的多模态训练数据稀缺。方法核心：提出AudioX统一框架，以扩散Transformer（DiT）为骨干。核心创新是设计了一个轻量级的多模态自适应融合（MAF）模块，用于在条件信号输入DiT前，对来自文本、视频和音频的特征进行门控、交叉注意力聚合和自注意力精炼，以增强跨模态对齐和融合。新意与对比：相较于已有方法，AudioX的新意在于：(1) 架构上，通过MAF模块在统一框架内处理任意模态组合的条件输入；(2) 数据上，设计了结构化标注与增强管线，构建了包含超700万样本的IF-caps大规模细粒度数据集。实验结果：在多个任务（T2A， V2A， T2M， V2M等）和基准上，AudioX达到或超过SOTA水平。关键结果见下表（数据摘自论文Table 1）：任务数据集方法 KL ↓ IS ↑ FAD ↓ T2A VGGSound AudioX 1.74 19.58 1.33 MMAudio 2.17 17.83 2.50 Stable Audio Open 2.36 14.45 2.60 T2M MusicCaps AudioX 0.96 3.55 1.53 TangoMusic 1.13 2.86 1.88 Stable Audio Open 1.51 2.94 3.23 V2M V2M-bench AudioX 0.70 1.37 1.67 VidMuse 0.73 1.32 2.46 在新提出的指令跟随基准T2A-bench上，AudioX大幅领先（如Ord-acc: 23.6 vs 次高19.8）。实际意义：该框架和数据集为需要多模态灵活控制音频生成的应用（如视频后期制作、游戏开发、辅助创作）提供了强大的基础工具，其数据标注方法对构建多模态数据集有借鉴意义。主要局限：论文未明确讨论模型的计算效率与实时性；统一框架的参数量（2.4B）和训练成本（约4k GPU小时）可能限制其在资源受限场景的应用；其“Anything-to-Audio”的泛化能力主要在文本、视频、音频三种模态内验证，对于更异质模态（如传感器数据、图像）的处理能力未探讨。 🏗️ 模型架构图4：AudioX框架。专用编码器处理不同模态，MAF模块将这些信号统一为条件嵌入Hc。DiT骨干网络处理噪声潜在输入zt，通过交叉注意力以Hc为条件，生成高质量音频和音乐。 ...

AUHead: Realistic Emotional Talking Head Generation via Action Units Control

📄 AUHead: Realistic Emotional Talking Head Generation via Action Units Control #面部动画生成 #扩散模型 #音频大模型 #跨模态 #情感理解 🔥 8.0/10 | 前25% | #面部动画生成 | #扩散模型 | #音频大模型 #跨模态学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiayi Lyu (中国科学院大学) 通讯作者：Jian Xue (中国科学院大学) 作者列表：Jiayi Lyu (中国科学院大学)， Leigang Qu (新加坡国立大学)， Wenjing Zhang (中国科学院大学)， Hanyu Jiang (中国科学院大学)， Kai Liu (浙江大学)， Zhenglin Zhou (浙江大学)， Xiaobo Xia (新加坡国立大学)， Jian Xue (中国科学院大学)， Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评亮点：论文最大的亮点在于引入了可解释的面部动作单元（AU）作为中间桥梁，将语音情感理解（通过ALM）和精细面部动画生成（通过扩散模型）优雅地解耦，为解决情感说话头生成中的“可控性与质量”困境提供了一个新颖且通用的框架。短板：尽管框架新颖，但作为核心控制信号的AU序列，其预测精度（在MEAD数据集上MAE为0.2085）可能成为整个系统性能的瓶颈；此外，论文中Stage 2的生成模块（Hallo V1， MEMO）并非作者原创，其创新更多体现在控制策略的整合而非生成架构的突破上。 ...

Aurelius: Relation Aware Text-to-Audio Generation At Scale

📄 Aurelius: Relation Aware Text-to-Audio Generation At Scale #音频生成 #基准测试 #流匹配 #数据集 #模型评估 🔥 8.0/10 | 前25% | #音频生成 | #基准测试 #流匹配 | #基准测试 #流匹配学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuhang He（微软研究院 Microsoft Research）通讯作者：Yuhang He（微软研究院 Microsoft Research）作者列表：Yuhang He（微软研究院 Microsoft Research），He Liang（未说明），Yash Jain（牛津大学计算机系），Andrew Markham（牛津大学计算机系），Vibhav Vineet（微软研究院 Microsoft Research） 💡 毒舌点评这篇论文的亮点在于它没有追逐提出又一个“全新”的生成模型，而是系统性地构建了大规模、高质量的基准数据集（AudioEventSet, AudioRelSet）和评估体系，直指当前文本到音频生成领域在关系建模上的系统性短板。其短板在于，论文本身提出的AudioRelGen框架核心创新相对有限，更多是基于现有最强模型（如TangoFlux）的微调和评估，缺乏一个能够从根本上解决关系建模难题的、具有强原创性的生成架构。 🔗 开源详情代码：提供代码仓库链接：https://github.com/yuhanghe01/Aurelius 模型权重：论文中未提及公开微调后或专门训练的模型权重。基准测试中使用的是各基线模型的官方公开权重。数据集：AudioEventSet和AudioRelSet已公开，可通过项目主页或代码仓库获取。论文描述了数据集获取和构建方式。 Demo：未提及在线演示。复现材料：提供了训练数据集构建策略、评估协议（MSR）、基线模型的推理设置（表III）以及代码。但关键训练超参数（微调/从头训练的学习率、batch size等）未在论文中说明。论文中引用的开源项目：依赖的开源模型/工具包括：PANNs（用于特征提取和微调）、VGGish、Qwen2系列大语言模型（用于智能体实验）、各基准TTA模型的官方代码库（如AudioLDM, TangoFlux等）。数据来源包括freesound.org和FSD50K。 📌 核心摘要问题：现有的文本到音频（TTA）生成模型在处理需要理解音频事件间复杂关系（如空间、时间、逻辑关系）的文本描述时能力严重不足，这限制了TTA技术向更复杂、更真实的应用场景发展。方法核心：本文提出Aurelius框架，其核心是构建两个大规模、结构化的语料库：包含110个事件类别的AudioEventSet和包含100种关系的AudioRelSet。通过解耦的事件-关系组合策略，可系统性地生成海量的<text, audio>训练对，用于评估和提升模型的“关系感知”生成能力。创新点：与之前工作（如RiTTA）相比，本文的新在于：a) 将事件和关系语料库规模提升了数量级（事件从~25到110，关系从11到100）；b) 提出了一个更全面、可扩展的关系分类法（包括嵌套组合）；c) 提供了基于解耦策略的、可大规模生成训练数据的流水线；d) 对多种主流TTA模型进行了前所未有的系统性基准测试。主要实验结果：基准测试了9个主流TTA模型。结果显示，即使是最好的模型（AudioGen， mAMSR=2.22%； TangoFlux， mAMSR=1.77%），其在关系感知指标（Presence, Relation Correctness, Parsimony）上的表现也极差（均低于15%）。微调实验表明，在Aurelius数据集上微调能显著提升模型的关系建模能力（如TangoFlux的mAMSR从1.77%提升至5.58%）。具体关键结果见下表。模型参数量 FAD ↓ mAPre (%) mARel (%) mAPar (%) mAMSR (%) AudioGen 1.5B 7.97 11.3 2.84 9.13 2.22 TangoFlux 576M 6.01 12.38 3.34 7.28 1.77 TangoFlux (微调) 576M 1.29 28.57 8.02 20.84 5.58 表：零样本基准测试（上）与微调实验（下）关键结果对比实际意义：本工作为“关系感知TTA”这一重要但被忽视的研究方向，首次提供了标准化的大规模基准数据集、评估协议和基线方法，系统地揭示了当前技术的瓶颈，为未来研究指明了方向（如需要设计能显式建模事件-关系依赖的架构）。主要局限性：a) 论文主要贡献是构建基准和揭示问题，提出的AudioRelGen框架本身（解耦生成再混合）并非解决该问题的终极方案；b) 训练数据规模（100小时）虽然远超之前相关工作，但对于真正的大规模生成模型训练可能仍显不足；c) 关系评估依赖的自动检测模型（事件分类器、关系分类器）的性能上限，可能影响评估结果的绝对准确性。 🏗️ 模型架构论文提出的AudioRelGen框架（图4）核心思想是解耦建模，其流程并非一个端到端的单一生成模型，而是一个数据生成与评估的范式： ...

Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task?

📄 Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task? #音乐生成 #自回归模型 #端到端 #多模态模型 #生成模型 🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 | #端到端 #多模态模型学术质量 8.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Zijian Zhao（The Hong Kong University of Science and Technology）通讯作者：Xiaoyu Zhang（City University of Hong Kong）作者列表：Zijian Zhao（The Hong Kong University of Science and Technology），Dian Jin（The Hong Kong Polytechnic University），Zijing Zhou（The University of Hong Kong），Xiaoyu Zhang（City University of Hong Kong） 💡 毒舌点评亮点：论文最具价值之处在于开创性地将“自动舞台灯光控制”从传统的分类-映射范式重新定义为端到端的生成任务，并提供了从数据集构建到模型设计、评估的完整解决方案，思路清晰，闭环完整。短板：模型架构的核心（Skip-BART）是对现有BART模型的适配与改进，而非全新架构设计；“生成”的概念虽新，但任务本身的复杂度和数据规模（699个样本）使其技术深度相较于文本或图像生成领域的突破性工作仍有距离。 ...

AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

📄 AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization #情感识别 #多模态模型 #偏好优化 #基准测试 #音频大模型 ✅ 7.5/10 | 前25% | #情感识别 | #多模态模型 | #偏好优化 #基准测试学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ashutosh Chaubey（南加州大学创意技术研究所）通讯作者：未说明（论文提供了第一作者和通讯作者的邮箱，但未在作者列表中明确区分）作者列表：Ashutosh Chaubey（南加州大学创意技术研究所）、Jiacheng Pang（南加州大学创意技术研究所）、Maksim Siniukov（南加州大学创意技术研究所）、Mohammad Soleymani（南加州大学创意技术研究所） 💡 毒舌点评该工作像一个严谨的“情感AI产品测试员”，不仅自己设计了一套挑剔的“质检标准”（EmoReAlM基准），还研发了一套让模型“改掉坏习惯”的训练方法（AVEm-DPO），且实验做得很扎实。但它的核心方法（多模态DPO+去偏）更像是对现有技术的巧妙组合与针对性应用，在算法原创性上略显不足，更像是一篇优秀的工程系统论文而非理论突破。 🔗 开源详情代码：论文提供了项目页面地址 avere-iclr.github.io，并声明代码、模型和基准将公开。模型权重：论文声明将公开模型权重。数据集：论文提出的EmoReAlM基准测试和用于AVEm-DPO训练的偏好数据集均承诺开源。代码、模型和基准将统一在上述项目页面提供。 Demo：论文中未提及在线演示。复现材料：论文提供了极其详尽的附录（Appendix），包括所有数据创建和评估所用的提示（图19-37）、训练细节（C.3）、基准统计（B.3）、人类验证流程（B.2）、消融实验设置（D.5）等，复现材料非常充分。论文中引用的开源项目：依赖的主要开源项目包括：模型：EmotionLLaMA，Whisper (large-v3)，LanguageBind (视频编码器)，VideoLLaMA，PandaGPT，OneLLM，VITA-1.5，Qwen-2.5 Omni。数据集：DFEW，MAFW，MER2025，RAVDESS，EMER。工具：GPT-4o，Gemini-2.5，Qwen-2.5（用于数据生成和评估）。 📌 核心摘要要解决什么问题：当前多模态大语言模型（MLLMs）在音视频情感推理中存在两大问题：一是“推理错误”，即模型将情感错误地关联到不相关的视听线索上；二是“感知错误”，即模型基于语言模型的文本先验，幻觉出不存在的视听线索来解释情感。方法核心是什么：论文提出一个名为AVEm-DPO的偏好优化技术。它通过构建细粒度的偏好对来对齐模型输出：1）基于提示的模态偏好（PMP），确保模型关注正确的模态；2）基于情感的响应偏好（ERP），直接针对虚假关联和幻觉构建拒绝响应；3）引入文本先验去偏（TPD）正则项，惩罚仅基于文本生成的响应。与已有方法相比新在哪里：相较于简单的DPO应用，AVEm-DPO创新性地提出了针对音视频输入和情感任务的细粒度偏好构建策略，特别是Prompt-based Modality Preference和Text-Prior Debiasing，这比传统只对响应进行偏好优化的方法更精细，更能解决跨模态幻觉问题。主要实验结果如何：在多个数据集上，AVEm-DPO显著提升了基线模型性能。例如，在自有EmoReAlM基准上，以“Our base”模型为例，其平均准确率从基线的65.1%提升至AVEm-DPO的83.3%（相对提升28%）。在EMER情感推理数据集的人类评估中，其“情感描述正确率”从基线的5.63%大幅跃升至54.74%。消融实验证明各组件均有效，特别是TPD对降低幻觉至关重要。实际意义是什么：该工作为评估和改进音视频MLLM的情感推理能力提供了系统性的解决方案，包括一个可复现的基准测试（EmoReAlM）和一套有效的优化方法（AVEm-DPO），有助于构建更可靠、更少幻觉的情感AI代理。主要局限性是什么：论文承认其基准测试（EmoReAlM）源自DFEW数据集，可能继承其文化偏见；训练数据和基准主要基于短视频，长视频情感理解仍是挑战；模型在“厌恶”这一模糊情感上的识别效果不佳，可能源于训练样本不足；且对虚假音频线索的缓解仍有改进空间。 🏗️ 模型架构论文提出的AVEm-DPO是一种训练方法，而非一个新的神经网络架构。它应用于现有的音视频大语言模型（如EmotionLLaMA或作者自建的基线模型）之上，通过修改训练目标来优化模型。 ...

AVEX: What Matters for Animal Vocalization Encoding

📄 AVEX: What Matters for Animal Vocalization Encoding #生物声学 #自监督学习 #预训练 #模型评估 #基准测试 ✅ 7.5/10 | 前25% | #生物声学 | #自监督学习 | #预训练 #模型评估学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Marius Miron（Earth Species Project）, David Robinson（Earth Species Project）通讯作者：Marius Miron（{marius}@earthspecies.org）， David Robinson（{david}@earthspecies.org）作者列表：Marius Miron†⋆（Earth Species Project）， David Robinson†⋆（Earth Species Project）， Milad Alizadeh†（Earth Species Project）， Ellen Gilsenan-McMahon†（Earth Species Project）， Gagan Narula†（Earth Species Project）， Emmanuel Chemla（Earth Species Project）， Maddie Cusimano（Earth Species Project）， Felix Effenberger（Earth Species Project）， Masato Hagiwara（Earth Species Project）， Benjamin Hoffman（Earth Species Project）， Sara Keen（Earth Species Project）， Diane Kim（Earth Species Project）， Jane Lawton（Earth Species Project）， Jen-Yu Liu（Earth Species Project）， Aza Raskin（Earth Species Project）， Olivier Pietquin†‡（Earth Species Project）， Matthieu Geist†‡（Earth Species Project）（†核心作者，⋆共同第一作者及通讯作者，‡共同资深作者） 💡 毒舌点评亮点：这是一次教科书级别的、规模空前的“声学表征学习”工程实验，系统性地拆解并回答了“训练一个好用的通用动物声音编码器到底需要什么”这一实际问题，其结论（自监督预训练+监督微调+混合数据）清晰、可靠且实用，配套的开源工具链极大降低了该领域的入门门槛。短板：论文的“创新”更多体现在工程实践和经验总结层面，缺乏一个令人眼前一亮的、能驱动新方向的理论洞见或算法设计；其评估虽广，但数据集的“偏见”（如鸟类数据占主导）是否被完全克服仍存疑，对“真正全新物种”的泛化能力验证可能不够充分。 ...