偏好优化 | 语音/音频论文速递

AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

📄 AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization #语音情感识别 #多模态模型 #偏好优化 #基准测试 #零样本 🔥 8.0/10 | 前25% | #语音情感识别 | #偏好优化 | #多模态模型 #基准测试学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ashutosh Chaubey（南加州大学创新技术研究所）通讯作者：Mohammad Soleymani（南加州大学创新技术研究所）作者列表：Ashutosh Chaubey（南加州大学创新技术研究所）、Jiacheng Pang（南加州大学创新技术研究所）、Maksim Siniukov（南加州大学创新技术研究所）、Mohammad Soleymani（南加州大学创新技术研究所） 💡 毒舌点评本文提出的 EmoReAlM 基准测试系统性地揭示了现有多模态模型在情感推理上“瞎扯淡”的两种主要模式（虚假关联与幻觉），其 AVEm-DPO 优化方法针对性地解决了问题，并在零样本设定下取得了显著提升，是一项扎实且完整的工作。短板在于，其优化方法和基准测试的构建高度依赖 GPT-4o 等大模型，虽然进行了人工验证，但这使得整个工作在一定程度上建立在“模型评价模型”的基础上，其上限可能受制于标注模型自身的理解能力，且引入了难以完全消除的偏差。 📌 核心摘要要解决的问题：现有多模态大语言模型在进行音频视觉情感推理时，存在两大核心缺陷：一是将情绪错误地归因于无关的音视频线索（推理错误），二是为了合理化情绪而“编造”出不存在的音视频线索（感知错误/幻觉）。后者主要由语言模型的文本先验偏差导致。方法核心：论文提出了一个两阶段方案。首先，构建了名为 EmoReAlM 的专用基准测试（包含4000个人工验证的多选题），用于系统评估模型在关联、一致性及幻觉等方面的表现。其次，提出了 AVEm-DPO 技术，这是一种直接偏好优化方法，通过构建两种偏好对来对齐模型响应：a) 基于提示的多模态输入偏好（Prompt-based Modality Preference），确保模型关注正确的模态；b) 基于情感的响应偏好（Emotion-based Response Preference），区分正确、无关和幻觉的响应。此外，引入了文本先验去偏（Text Prior Debiasing）正则化项，抑制模型仅凭文本线索生成响应。与已有方法相比新在哪里：评估：超越了现有情感推理或幻觉基准，提供了一个标准化、无需外部LLM评估的、专注于音视觉情感理解中特定错误的测试集。优化：在应用 DPO 到多模态领域时，创新性地结合了“基于提示的模态偏好”和“文本先验去偏”，比通用的 Naive-DPO 和 Vista-DPO 更具针对性。主要实验结果：在零样本设定下，AVEm-DPO 显著提升了两个基线模型（Our base, EmotionLLaMA⋆）的性能。在提出的 EmoReAlM 基准上，相对性能提升达 6-19%。在现有情感识别数据集（DFEW, RAVDESS, MER2023）和推理数据集（EMER）上也取得了最优或极具竞争力的结果。关键结果对比如下表所示：模型 EmoReAlM (平均准确率) DFEW (UAR) RAVDESS (UAR) MER2023 (F1) EMER (Clue) Our base (基线) 65.1% 56.78% 53.59% 89.19% 5.63 + AVEm-DPO 83.3% 58.54% 58.66% 92.18% 6.37 EmotionLLaMA⋆ (基线) 63.8% 54.89% 52.59% 90.01% 5.78 + AVEm-DPO 80.1% 57.06% 56.21% 91.68% 6.02 Qwen 2.5 Omni (SOTA对比) 70.0% 46.94% 32.88% 79.72% 5.85 实际意义：该工作为构建可靠、可解释的社会AI代理提供了更精确的评估工具（EmoReAlM）和更有效的训练方法（AVEm-DPO），有助于减少多模态模型在情感理解中的不准确性，提升人机交互的可靠性。主要局限性：1) EmoReAlM 基准测试源于 DFEW 数据集，可能继承其文化偏见；2) 模型在识别“厌恶”等复杂/模糊情绪时表现仍不佳；3) 论文承认在缓解虚假音频线索关联方面仍有改进空间。 🏗️ 模型架构本文的核心贡献并非提出一个全新的端到端模型架构，而是提出了一种训练方法（AVEm-DPO）来提升现有音频视觉多模态大语言模型（MLLMs）的性能。其作用的对象是两个参考基线模型：“Our base”和“EmotionLLaMA⋆”。因此，架构描述将围绕AVEm-DPO如何作用于基础模型展开。 ...

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

📄 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation #音视频 #流匹配 #扩散模型 #多模态模型 #偏好优化 🔥 9.0/10 | 前25% | #音视频 | #流匹配 | #扩散模型 #多模态模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Kai Liu (浙江大学) 通讯作者：Hao Fei (新加坡国立大学) 作者列表： Kai Liu (浙江大学) Yanhao Zheng (未说明) Kai Wang (多伦多大学) Shengqiong Wu (新加坡国立大学) Rongjunchen Zhang (HiThink Research) Jiebo Luo (罗切斯特大学) Dimitrios Hatzinakos (多伦多大学) Ziwei Liu (南洋理工大学) Hao Fei (新加坡国立大学) Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评这篇论文的亮点在于提出了一个极其简洁有效的统一架构（MS-MoE）和精确的时间对齐策略（TA-RoPE），以相对较低的模型参数（2.1B）和数据量（~1M）达到了接近商业模型（Veo3）的SOTA性能。短板是其核心贡献高度依赖特定的视频生成骨干（Wan2.1），这虽然加速了研发，但也意味着其音视频联合生成的泛化能力与独立性有待进一步验证，且其对训练数据质量与分布的敏感性（见消融研究）暗示了在开放域场景下的潜在挑战。 ...

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

📄 TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization #音频生成 #流匹配 #偏好优化 #扩散模型 #开源模型 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #偏好优化 #扩散模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chia-Yu Hung (Nanyang Technological University, NTU) 通讯作者：Navonil Majumder (NTU)， Soujanya Poria (NTU) 作者列表：Chia-Yu Hung (NTU), Navonil Majumder (NTU), Zhifeng Kong (NVIDIA), Ambuj Mehrish (Ca’ Foscari University of Venice), Amir Ali Bagherzadeh (Lambda Labs), Chuan Li (Lambda Labs), Rafael Valle (NVIDIA), Bryan Catanzaro (NVIDIA), Soujanya Poria (NTU) 💡 毒舌点评这篇论文巧妙地将CLAP作为“裁判”来解决音频生成对齐中缺乏自动评价标准的痛点，提出的CRPO“自弈”优化思路确实让模型性能在迭代中不断提升，效果立竿见影。但依赖CLAP这个“裁判”本身的偏好（可能偏向特定音频风格或描述理解能力）进行优化，是否会让模型学会“讨好裁判”而非真正理解复杂、抽象的文本描述？这是CRPO框架需要面对的更深层问题。 ...

AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

📄 AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization #情感识别 #多模态模型 #偏好优化 #基准测试 #音频大模型 ✅ 7.5/10 | 前25% | #情感识别 | #多模态模型 | #偏好优化 #基准测试学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ashutosh Chaubey（南加州大学创意技术研究所）通讯作者：未说明（论文提供了第一作者和通讯作者的邮箱，但未在作者列表中明确区分）作者列表：Ashutosh Chaubey（南加州大学创意技术研究所）、Jiacheng Pang（南加州大学创意技术研究所）、Maksim Siniukov（南加州大学创意技术研究所）、Mohammad Soleymani（南加州大学创意技术研究所） 💡 毒舌点评该工作像一个严谨的“情感AI产品测试员”，不仅自己设计了一套挑剔的“质检标准”（EmoReAlM基准），还研发了一套让模型“改掉坏习惯”的训练方法（AVEm-DPO），且实验做得很扎实。但它的核心方法（多模态DPO+去偏）更像是对现有技术的巧妙组合与针对性应用，在算法原创性上略显不足，更像是一篇优秀的工程系统论文而非理论突破。 🔗 开源详情代码：论文提供了项目页面地址 avere-iclr.github.io，并声明代码、模型和基准将公开。模型权重：论文声明将公开模型权重。数据集：论文提出的EmoReAlM基准测试和用于AVEm-DPO训练的偏好数据集均承诺开源。代码、模型和基准将统一在上述项目页面提供。 Demo：论文中未提及在线演示。复现材料：论文提供了极其详尽的附录（Appendix），包括所有数据创建和评估所用的提示（图19-37）、训练细节（C.3）、基准统计（B.3）、人类验证流程（B.2）、消融实验设置（D.5）等，复现材料非常充分。论文中引用的开源项目：依赖的主要开源项目包括：模型：EmotionLLaMA，Whisper (large-v3)，LanguageBind (视频编码器)，VideoLLaMA，PandaGPT，OneLLM，VITA-1.5，Qwen-2.5 Omni。数据集：DFEW，MAFW，MER2025，RAVDESS，EMER。工具：GPT-4o，Gemini-2.5，Qwen-2.5（用于数据生成和评估）。 📌 核心摘要要解决什么问题：当前多模态大语言模型（MLLMs）在音视频情感推理中存在两大问题：一是“推理错误”，即模型将情感错误地关联到不相关的视听线索上；二是“感知错误”，即模型基于语言模型的文本先验，幻觉出不存在的视听线索来解释情感。方法核心是什么：论文提出一个名为AVEm-DPO的偏好优化技术。它通过构建细粒度的偏好对来对齐模型输出：1）基于提示的模态偏好（PMP），确保模型关注正确的模态；2）基于情感的响应偏好（ERP），直接针对虚假关联和幻觉构建拒绝响应；3）引入文本先验去偏（TPD）正则项，惩罚仅基于文本生成的响应。与已有方法相比新在哪里：相较于简单的DPO应用，AVEm-DPO创新性地提出了针对音视频输入和情感任务的细粒度偏好构建策略，特别是Prompt-based Modality Preference和Text-Prior Debiasing，这比传统只对响应进行偏好优化的方法更精细，更能解决跨模态幻觉问题。主要实验结果如何：在多个数据集上，AVEm-DPO显著提升了基线模型性能。例如，在自有EmoReAlM基准上，以“Our base”模型为例，其平均准确率从基线的65.1%提升至AVEm-DPO的83.3%（相对提升28%）。在EMER情感推理数据集的人类评估中，其“情感描述正确率”从基线的5.63%大幅跃升至54.74%。消融实验证明各组件均有效，特别是TPD对降低幻觉至关重要。实际意义是什么：该工作为评估和改进音视频MLLM的情感推理能力提供了系统性的解决方案，包括一个可复现的基准测试（EmoReAlM）和一套有效的优化方法（AVEm-DPO），有助于构建更可靠、更少幻觉的情感AI代理。主要局限性是什么：论文承认其基准测试（EmoReAlM）源自DFEW数据集，可能继承其文化偏见；训练数据和基准主要基于短视频，长视频情感理解仍是挑战；模型在“厌恶”这一模糊情感上的识别效果不佳，可能源于训练样本不足；且对虚假音频线索的缓解仍有改进空间。 🏗️ 模型架构论文提出的AVEm-DPO是一种训练方法，而非一个新的神经网络架构。它应用于现有的音视频大语言模型（如EmotionLLaMA或作者自建的基线模型）之上，通过修改训练目标来优化模型。 ...

Direct Preference Optimization For Speech Autoregressive Diffusion Models

📄 Direct Preference Optimization For Speech Autoregressive Diffusion Models #语音合成 #扩散模型 #偏好优化 #零样本 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #偏好优化 #零样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度中 👥 作者与机构第一作者：Zhijun Liu（香港中文大学（深圳）SDS, SRIBD, SAI；字节跳动Seed）通讯作者：Shuai Wang（南京大学智能科学与技术学院）作者列表： Zhijun Liu（香港中文大学（深圳）SDS, SRIBD, SAI；字节跳动Seed） Dongya Jia（字节跳动Seed） Xiaoqiang Wang（字节跳动Seed） Chenpeng Du（字节跳动Seed） Shuai Wang（南京大学智能科学与技术学院；深圳湾区研究院） Zhuo Chen（字节跳动Seed） Haizhou Li（香港中文大学（深圳）SDS, SRIBD, SAI；深圳湾区研究院） 💡 毒舌点评亮点在于首次成功将DPO“移植”到语音自回归扩散模型上，用实验证明了其能显著提升表达力（F0方差翻倍）和鲁棒性（CER降25%），开辟了ARDM后训练的新路径。短板则在于对训练过程中“winning/losing样本扩散损失双升”这一反常现象缺乏理论解释，且开源信息仅限音频示例，核心代码与模型未公开，影响了工作的可复现性和影响力。 🔗 开源详情代码：论文中未提及代码链接。补充材料页面（https://zjlww.github.io/ardm-dpo/）可能包含音频示例，但未说明是否提供代码。模型权重：未提及公开模型权重。数据集：未提及公开偏好数据集。使用了公开的LibriTTS和DidiSpeech-2作为基础数据，但筛选后的偏好对未公开。 Demo：未提供在线演示链接。补充材料页面可能包含音频样本，但不是交互式Demo。复现材料：论文提供了详细的训练超参数（学习率、优化器、批次大小等）和硬件信息（32张A100），复现基础模型训练可能可行。但ARDM-DPO训练所必需的、经过精心筛选的偏好数据集未公开，是复现的主要障碍。论文中引用的开源项目：DiTAR模型（基于ARTransformer）、Whisper-large-v3（用于WER）、Paraformer-zh（用于CER）、WavLM-TDCNN（用于说话人相似度计算）、Seed-TTS-Eval2（评估工具包）。 📌 核心摘要问题：当前基于自回归扩散模型（ARDM）的零样本TTS虽性能领先，但生成的语音常与人类偏好不对齐，例如在给定情感提示时仍可能产出单调的语音，缺乏表达力且在处理长难句时鲁棒性不足。 ...

PROST-LLM: Progressively Enhancing the Speech-to-Speech Translation Capability in LLMs

📄 PROST-LLM: Progressively Enhancing the Speech-to-Speech Translation Capability in LLMs #语音翻译 #偏好优化 #大语言模型 #多任务学习 #多语言 ✅ 7.5/10 | 前25% | #语音翻译 | #偏好优化 | #大语言模型 #多任务学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Jing Xu† (†The Chinese University of Hong Kong) 通讯作者：未说明（论文作者列表为Jing Xu, Jiaqi Wang, Daxin Tan, Xiao Chen，未标注通讯作者）作者列表：Jing Xu（香港中文大学）、Jiaqi Wang（香港中文大学）、Daxin Tan（华为人工智能实验室）、Xiao Chen（华为人工智能实验室） 💡 毒舌点评亮点：巧妙地将机器翻译中的“回译”思��移植到语音翻译，用于自动、无需人工标注地构建偏好优化数据对，这一设计在降低S2ST研究门槛上非常聪明。短板：整个系统的“地基”——偏好数据质量——完全依赖Whisper等上游ASR的转录准确性，论文对此潜在的误差传递与放大问题缺乏深入分析，这使得方法的鲁棒性存疑。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的PROST-LLM模型权重。数据集：使用了公开的CVSS语料库（可获取）和Commonvoice语料库（可获取）。 Demo：未提供在线演示。复现材料：提供了非常详细的训练配置、超参数设置（学习率、batch size、epoch、LoRA参数）、模型版本、数据集描述。但未提供训练硬件信息、最终模型检查点、详细的数据预处理脚本。论文中引用的开源项目： LLM: LLaMA 3.2-3B (引用[3])。语音表示: mHuBERT (引用[11])。 ASR: Whisper-large-v3 (引用[22])。语音合成: Unit HiFi-GAN (来自fairseq开源项目，论文提供了GitHub链接)。 TTS (基线系统): MeloTTS (论文提供了GitHub链接)。偏好优化: DPO (引用[14])、SimPO (引用[15])。论文中未提及开源计划。 📌 核心摘要要解决什么问题：大语言模型在语音到语音翻译（S2ST）任务上应用不足，主要受限于高质量的配对S2ST数据稀缺。方法核心是什么：提出PROST-LLM框架，分三步渐进式提升LLM的S2ST能力。首先，在CVSS数据集上进行有监督微调（SFT），并采用“三任务学习”（ASR，S2T，S2ST联合训练）和“模态链”（先生成目标文本，再生成目标语音）策略增强初始性能。其次，利用微调后的模型对源语音生成多个候选翻译，再将其回译为源语言语音，通过与源语音的多指标比较（WER, MCD, BLEU, METEOR）自动构建偏好数据对（首选与拒斥）。最后，使用这些偏好数据对进行偏好优化（PO），进一步精炼模型的S2ST性能。与已有方法相比新在哪里：首次将“模态链”和“三任务学习”引入LLM的S2ST训练；首次利用回译机制自动构建偏好数据，并结合偏好优化来提升LLM的S2ST能力，避免了昂贵的人工标注；证明了可以利用单语语音语料库构建偏好数据，减少对配对S2ST数据的依赖。主要实验结果如何：在CVSS语料库（英法双向翻译）上进行实验。与强级联系统（S2T+TTS）相比，PROST-LLM（采用模态链+DPO）将BLEU差距从初始的14.38（en2fra）和8.83（fra2en）显著缩小至3.15和1.04。消融实验证明，三任务学习和模态链策略均优于基础SFT；偏好优化能持续带来提升；使用单语数据构建偏好对甚至能取得比使用配对S2ST数据更好的效果。所有实验配置下的语音自然度（UTMOS）均高于级联系统。实际意义是什么：为在数据有限条件下增强LLM的跨模态语音生成与翻译能力提供了一个有效框架，其自动偏好数据构建方法具有普适性，可推广到其他多模态生成任务。主要局限性是什么：（1）偏好数据质量强依赖Whisper转录质量，其误差会直接影响偏好信号的准确性，论文未分析此影响；（2）实验仅在英法翻译上验证，多语言泛化能力未知；（3）硬件训练信息缺失，大规模复现的计算成本未知；（4）虽然模型使用了LLaMA 3.2-3B，但论文未提供模型权重，且框架的扩展性（如更大LLM、更多模态）有待验证。 🏗️ 模型架构 PROST-LLM的整体训练流程与模型架构如图1所示。 ...