Aurelius: Relation Aware Text-to-Audio Generation At Scale

📄 Aurelius: Relation Aware Text-to-Audio Generation At Scale #音频生成 #基准测试 #流匹配 #数据集 #模型评估 🔥 8.0/10 | 前25% | #音频生成 | #基准测试 #流匹配 | #基准测试 #流匹配 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuhang He(微软研究院 Microsoft Research) 通讯作者:Yuhang He(微软研究院 Microsoft Research) 作者列表:Yuhang He(微软研究院 Microsoft Research),He Liang(未说明),Yash Jain(牛津大学计算机系),Andrew Markham(牛津大学计算机系),Vibhav Vineet(微软研究院 Microsoft Research) 💡 毒舌点评 这篇论文的亮点在于它没有追逐提出又一个“全新”的生成模型,而是系统性地构建了大规模、高质量的基准数据集(AudioEventSet, AudioRelSet)和评估体系,直指当前文本到音频生成领域在关系建模上的系统性短板。其短板在于,论文本身提出的AudioRelGen框架核心创新相对有限,更多是基于现有最强模型(如TangoFlux)的微调和评估,缺乏一个能够从根本上解决关系建模难题的、具有强原创性的生成架构。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/yuhanghe01/Aurelius 模型权重:论文中未提及公开微调后或专门训练的模型权重。基准测试中使用的是各基线模型的官方公开权重。 数据集:AudioEventSet和AudioRelSet已公开,可通过项目主页或代码仓库获取。论文描述了数据集获取和构建方式。 Demo:未提及在线演示。 复现材料:提供了训练数据集构建策略、评估协议(MSR)、基线模型的推理设置(表III)以及代码。但关键训练超参数(微调/从头训练的学习率、batch size等)未在论文中说明。 论文中引用的开源项目:依赖的开源模型/工具包括:PANNs(用于特征提取和微调)、VGGish、Qwen2系列大语言模型(用于智能体实验)、各基准TTA模型的官方代码库(如AudioLDM, TangoFlux等)。数据来源包括freesound.org和FSD50K。 📌 核心摘要 问题:现有的文本到音频(TTA)生成模型在处理需要理解音频事件间复杂关系(如空间、时间、逻辑关系)的文本描述时能力严重不足,这限制了TTA技术向更复杂、更真实的应用场景发展。 方法核心:本文提出Aurelius框架,其核心是构建两个大规模、结构化的语料库:包含110个事件类别的AudioEventSet和包含100种关系的AudioRelSet。通过解耦的事件-关系组合策略,可系统性地生成海量的<text, audio>训练对,用于评估和提升模型的“关系感知”生成能力。 创新点:与之前工作(如RiTTA)相比,本文的新在于:a) 将事件和关系语料库规模提升了数量级(事件从~25到110,关系从11到100);b) 提出了一个更全面、可扩展的关系分类法(包括嵌套组合);c) 提供了基于解耦策略的、可大规模生成训练数据的流水线;d) 对多种主流TTA模型进行了前所未有的系统性基准测试。 主要实验结果:基准测试了9个主流TTA模型。结果显示,即使是最好的模型(AudioGen, mAMSR=2.22%; TangoFlux, mAMSR=1.77%),其在关系感知指标(Presence, Relation Correctness, Parsimony)上的表现也极差(均低于15%)。微调实验表明,在Aurelius数据集上微调能显著提升模型的关系建模能力(如TangoFlux的mAMSR从1.77%提升至5.58%)。具体关键结果见下表。 模型 参数量 FAD ↓ mAPre (%) mARel (%) mAPar (%) mAMSR (%) AudioGen 1.5B 7.97 11.3 2.84 9.13 2.22 TangoFlux 576M 6.01 12.38 3.34 7.28 1.77 TangoFlux (微调) 576M 1.29 28.57 8.02 20.84 5.58 表:零样本基准测试(上)与微调实验(下)关键结果对比 实际意义:本工作为“关系感知TTA”这一重要但被忽视的研究方向,首次提供了标准化的大规模基准数据集、评估协议和基线方法,系统地揭示了当前技术的瓶颈,为未来研究指明了方向(如需要设计能显式建模事件-关系依赖的架构)。 主要局限性:a) 论文主要贡献是构建基准和揭示问题,提出的AudioRelGen框架本身(解耦生成再混合)并非解决该问题的终极方案;b) 训练数据规模(100小时)虽然远超之前相关工作,但对于真正的大规模生成模型训练可能仍显不足;c) 关系评估依赖的自动检测模型(事件分类器、关系分类器)的性能上限,可能影响评估结果的绝对准确性。 🏗️ 模型架构 论文提出的AudioRelGen框架(图4)核心思想是解耦建模,其流程并非一个端到端的单一生成模型,而是一个数据生成与评估的范式: ...

2026-05-02 · 更新于 2026-06-24 · 2 min · 386 words

Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task?

📄 Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task? #音乐生成 #自回归模型 #端到端 #多模态模型 #生成模型 🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 | #端到端 #多模态模型 学术质量 8.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Zijian Zhao(The Hong Kong University of Science and Technology) 通讯作者:Xiaoyu Zhang(City University of Hong Kong) 作者列表:Zijian Zhao(The Hong Kong University of Science and Technology),Dian Jin(The Hong Kong Polytechnic University),Zijing Zhou(The University of Hong Kong),Xiaoyu Zhang(City University of Hong Kong) 💡 毒舌点评 亮点: 论文最具价值之处在于开创性地将“自动舞台灯光控制”从传统的分类-映射范式重新定义为端到端的生成任务,并提供了从数据集构建到模型设计、评估的完整解决方案,思路清晰,闭环完整。 短板: 模型架构的核心(Skip-BART)是对现有BART模型的适配与改进,而非全新架构设计;“生成”的概念虽新,但任务本身的复杂度和数据规模(699个样本)使其技术深度相较于文本或图像生成领域的突破性工作仍有距离。 ...

2026-05-02 · 更新于 2026-06-24 · 3 min · 454 words

AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

📄 AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization #情感识别 #多模态模型 #偏好优化 #基准测试 #音频大模型 ✅ 7.5/10 | 前25% | #情感识别 | #多模态模型 | #偏好优化 #基准测试 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ashutosh Chaubey(南加州大学创意技术研究所) 通讯作者:未说明(论文提供了第一作者和通讯作者的邮箱,但未在作者列表中明确区分) 作者列表:Ashutosh Chaubey(南加州大学创意技术研究所)、Jiacheng Pang(南加州大学创意技术研究所)、Maksim Siniukov(南加州大学创意技术研究所)、Mohammad Soleymani(南加州大学创意技术研究所) 💡 毒舌点评 该工作像一个严谨的“情感AI产品测试员”,不仅自己设计了一套挑剔的“质检标准”(EmoReAlM基准),还研发了一套让模型“改掉坏习惯”的训练方法(AVEm-DPO),且实验做得很扎实。但它的核心方法(多模态DPO+去偏)更像是对现有技术的巧妙组合与针对性应用,在算法原创性上略显不足,更像是一篇优秀的工程系统论文而非理论突破。 🔗 开源详情 代码:论文提供了项目页面地址 avere-iclr.github.io,并声明代码、模型和基准将公开。 模型权重:论文声明将公开模型权重。 数据集:论文提出的EmoReAlM基准测试和用于AVEm-DPO训练的偏好数据集均承诺开源。代码、模型和基准将统一在上述项目页面提供。 Demo:论文中未提及在线演示。 复现材料:论文提供了极其详尽的附录(Appendix),包括所有数据创建和评估所用的提示(图19-37)、训练细节(C.3)、基准统计(B.3)、人类验证流程(B.2)、消融实验设置(D.5)等,复现材料非常充分。 论文中引用的开源项目:依赖的主要开源项目包括: 模型:EmotionLLaMA,Whisper (large-v3),LanguageBind (视频编码器),VideoLLaMA,PandaGPT,OneLLM,VITA-1.5,Qwen-2.5 Omni。 数据集:DFEW,MAFW,MER2025,RAVDESS,EMER。 工具:GPT-4o,Gemini-2.5,Qwen-2.5(用于数据生成和评估)。 📌 核心摘要 要解决什么问题:当前多模态大语言模型(MLLMs)在音视频情感推理中存在两大问题:一是“推理错误”,即模型将情感错误地关联到不相关的视听线索上;二是“感知错误”,即模型基于语言模型的文本先验,幻觉出不存在的视听线索来解释情感。 方法核心是什么:论文提出一个名为AVEm-DPO的偏好优化技术。它通过构建细粒度的偏好对来对齐模型输出:1)基于提示的模态偏好(PMP),确保模型关注正确的模态;2)基于情感的响应偏好(ERP),直接针对虚假关联和幻觉构建拒绝响应;3)引入文本先验去偏(TPD)正则项,惩罚仅基于文本生成的响应。 与已有方法相比新在哪里:相较于简单的DPO应用,AVEm-DPO创新性地提出了针对音视频输入和情感任务的细粒度偏好构建策略,特别是Prompt-based Modality Preference和Text-Prior Debiasing,这比传统只对响应进行偏好优化的方法更精细,更能解决跨模态幻觉问题。 主要实验结果如何:在多个数据集上,AVEm-DPO显著提升了基线模型性能。例如,在自有EmoReAlM基准上,以“Our base”模型为例,其平均准确率从基线的65.1%提升至AVEm-DPO的83.3%(相对提升28%)。在EMER情感推理数据集的人类评估中,其“情感描述正确率”从基线的5.63%大幅跃升至54.74%。消融实验证明各组件均有效,特别是TPD对降低幻觉至关重要。 实际意义是什么:该工作为评估和改进音视频MLLM的情感推理能力提供了系统性的解决方案,包括一个可复现的基准测试(EmoReAlM)和一套有效的优化方法(AVEm-DPO),有助于构建更可靠、更少幻觉的情感AI代理。 主要局限性是什么:论文承认其基准测试(EmoReAlM)源自DFEW数据集,可能继承其文化偏见;训练数据和基准主要基于短视频,长视频情感理解仍是挑战;模型在“厌恶”这一模糊情感上的识别效果不佳,可能源于训练样本不足;且对虚假音频线索的缓解仍有改进空间。 🏗️ 模型架构 论文提出的AVEm-DPO是一种训练方法,而非一个新的神经网络架构。它应用于现有的音视频大语言模型(如EmotionLLaMA或作者自建的基线模型)之上,通过修改训练目标来优化模型。 ...

2026-05-02 · 更新于 2026-06-24 · 2 min · 293 words

AVEX: What Matters for Animal Vocalization Encoding

📄 AVEX: What Matters for Animal Vocalization Encoding #生物声学 #自监督学习 #预训练 #模型评估 #基准测试 ✅ 7.5/10 | 前25% | #生物声学 | #自监督学习 | #预训练 #模型评估 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Marius Miron(Earth Species Project), David Robinson(Earth Species Project) 通讯作者:Marius Miron({marius}@earthspecies.org), David Robinson({david}@earthspecies.org) 作者列表:Marius Miron†⋆(Earth Species Project), David Robinson†⋆(Earth Species Project), Milad Alizadeh†(Earth Species Project), Ellen Gilsenan-McMahon†(Earth Species Project), Gagan Narula†(Earth Species Project), Emmanuel Chemla(Earth Species Project), Maddie Cusimano(Earth Species Project), Felix Effenberger(Earth Species Project), Masato Hagiwara(Earth Species Project), Benjamin Hoffman(Earth Species Project), Sara Keen(Earth Species Project), Diane Kim(Earth Species Project), Jane Lawton(Earth Species Project), Jen-Yu Liu(Earth Species Project), Aza Raskin(Earth Species Project), Olivier Pietquin†‡(Earth Species Project), Matthieu Geist†‡(Earth Species Project) (†核心作者,⋆共同第一作者及通讯作者,‡共同资深作者) 💡 毒舌点评 亮点:这是一次教科书级别的、规模空前的“声学表征学习”工程实验,系统性地拆解并回答了“训练一个好用的通用动物声音编码器到底需要什么”这一实际问题,其结论(自监督预训练+监督微调+混合数据)清晰、可靠且实用,配套的开源工具链极大降低了该领域的入门门槛。短板:论文的“创新”更多体现在工程实践和经验总结层面,缺乏一个令人眼前一亮的、能驱动新方向的理论洞见或算法设计;其评估虽广,但数据集的“偏见”(如鸟类数据占主导)是否被完全克服仍存疑,对“真正全新物种”的泛化能力验证可能不够充分。 ...

2026-05-02 · 更新于 2026-06-24 · 2 min · 318 words

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration #音视频 #多模态模型 #强化学习 #视频描述生成 #大语言模型 🔥 8.0/10 | 前25% | #音视频 | #强化学习 | #多模态模型 #视频描述生成 学术质量 7.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Xinlong Chen(快手科技 Kling 团队 / 中科院自动化所模式识别国家重点实验室 / 中国科学院大学人工智能学院) 通讯作者:Qiang Liu(中科院自动化所模式识别国家重点实验室 / 中国科学院大学人工智能学院) 作者列表:Xinlong Chen(快手科技 Kling 团队, 中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院),Yue Ding(中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院),Weihong Lin(快手科技 Kling 团队),Jingyun Hua(快手科技 Kling 团队),Linli Yao(北京大学),Yang Shi(北京大学),Bozhou Li(北京大学),Qiang Liu(中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院),Yuanxing Zhang(快手科技 Kling 团队),Pengfei Wan(快手科技 Kling 团队),Liang Wang(中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院) 💡 毒舌点评 这篇论文在“让视频描述听懂声音”这个点上做得扎实且系统,通过设计一套精巧的奖励函数(特别是对话F1和清单完整性)驱动GRPO训练,有效提升了音视频描述的时序对齐与事实准确性,消融实验也证明了各奖励模块的价值。其短板在于数据构建流程重度依赖Gemini-2.5-Pro,这既带来了高质量种子数据,也引入了对特定闭源模型的依赖和潜在偏差,且论文对如何将模型部署到实际场景中的效率考量(如推理延迟)着墨不多。 ...

2026-05-02 · 更新于 2026-06-24 · 2 min · 346 words

Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

📄 Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models #多模态模型 #自监督学习 #跨模态 #少样本 ✅ 7.0/10 | 前25% | #多模态模型 | #自监督学习 | #跨模态 #少样本 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Sharut Gupta (MIT CSAIL) 通讯作者:Phillip Isola (MIT CSAIL) 作者列表:Sharut Gupta (MIT CSAIL), Shobhita Sundaram (MIT CSAIL), Chenyu Wang (MIT CSAIL), Stefanie Jegelka (TU Munich, MIT CSAIL), Phillip Isola (MIT CSAIL) 💡 毒舌点评 本文的亮点在于,它从一个极其简洁且违反直觉的假设(“未配对的模态也能相互教化”)出发,构建了一套从理论到实验的完整论证,证明了通过简单的权重共享就能利用异质数据提升单模态表征。其短板在于,尽管框架通用,但其大规模验证几乎全部集中在图像和纹理分类等相对“传统”的视觉任务上,对于论文中提到的语音、医疗等更前沿、更需要多模态融合的垂直领域,实验深度和说服力略显不足,更像是概念验证。 ...

2026-05-02 · 更新于 2026-06-24 · 2 min · 406 words

Beyond Instance-Level Alignment: Dual-Level Optimal Transport for Audio-Text Retrieval

📄 Beyond Instance-Level Alignment: Dual-Level Optimal Transport for Audio-Text Retrieval #音频检索 #最优传输 #对比学习 #鲁棒性 🔥 8.0/10 | 前25% | #音频检索 | #最优传输 | #对比学习 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wenqi Guo(上海交通大学) 通讯作者:Shikui Tu(上海交通大学),Lei Xu(上海交通大学,深圳人工智能与数字经济广东省实验室) 作者列表:Wenqi Guo(上海交通大学)、Shikui Tu(上海交通大学)、Lei Xu(上海交通大学,深圳人工智能与数字经济广东省实验室) 💡 毒舌点评 这篇论文的亮点在于它聪明地将最优传输(OT)从“实例级对齐”推广到“特征级正则化”,为解决小批量训练下的噪声敏感性问题提供了新颖且理论扎实的视角,实验结果在多个基准上确实很强。然而,其短板也很明显:提出的“可靠性感知边缘分布”计算依赖于批次统计量,在实际大规模分布式训练中的稳定性和计算开销可能成为落地隐患,且论文未提供代码,复现门槛较高。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:使用的AudioCaps, Clotho, ESC-50均为公开数据集,论文中给出了获取来源引用。 Demo:未提及在线演示。 复现材料:提供了极其详细的复现材料:完整的训练算法伪代码(算法1)、所有实验的超参数设置(表6)、可靠性分数计算的具体公式(附录B)、理论证明(附录C)、以及所有消融和敏感性实验(表5, 7-13)。 论文中引用的开源项目:引用了Sinkhorn算法(Cuturi, 2013),并使用了预训练的编码器(如BERT, Beats等)。 📌 核心摘要 问题:现有的跨模态检索(如音频文本检索)方法主要依赖实例级对齐(如对比损失),隐含假设所有特征维度贡献相等。在小批量训练和标签稀缺时,这种假设会放大噪声,导致对齐信号不稳定且有偏差。 方法核心:提出DART(Dual-level Alignment via Robust Transport)框架,在实例级对齐(基于逆最优传输IOT)的基础上,增加了基于非平衡Wasserstein距离(UWD)的特征级正则化。同时,设计了“可靠性感知边缘分布”,根据通道的跨模态一致性、方差和峰度统计量,自适应地为特征通道赋权,以抑制噪声通道。 创新点:首次将OT视角从样本对齐拓展到特征通道对齐;引入可靠性先验引导特征级运输计划;提供了理论分析,证明特征级目标比实例级目标具有更紧的集中界,对异常值和噪声更鲁棒。 实验结果:在AudioCaps、Clotho两个音频文本检索基准和ESC-50零样本声音事件检测任务上,DART均取得了SOTA性能。例如,在AudioCaps上,与最强基线相比,文本到音频R@1提升1.1%,音频到文本R@1提升4.5%。在小批量(k=32)和40%标签缺失的困难设定下,性能下降幅度显著小于基线方法(见表2)。 实际意义:为资源受限(小批量训练)或数据质量不高(标签噪声)场景下的跨模态检索提供了更鲁棒的解决方案,提升了模型在实际应用中的可靠性和泛化能力。 主要局限性:引入的特征级正则化和可靠性计算增加了训练时的计算复杂度(虽然论文分析内存开销可控)。可靠性估计依赖于小批量统计,其稳定性有待更广泛验证。此外,论文未开源代码。 🏗️ 模型架构 DART的整体架构是一个双层对齐框架,如图1所示。 ...

2026-05-02 · 更新于 2026-06-24 · 2 min · 343 words

Bridging Piano Transcription and Rendering via Disentangled Score Content and Style

📄 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style #音乐信息检索 #多任务学习 #解耦表示学习 #扩散模型 #钢琴转录 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 #解耦表示学习 | #多任务学习 #解耦表示学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wei Zeng(新加坡国立大学,综合科学与工程项目,计算学院) 通讯作者:Ye Wang(新加坡国立大学,综合科学与工程项目,计算学院) 作者列表:Wei Zeng(新加坡国立大学,综合科学与工程项目,计算学院)、Junchuan Zhao(新加坡国立大学,计算学院)、Ye Wang(新加坡国立大学,综合科学与工程项目,计算学院) 💡 毒舌点评 亮点在于其统一的框架设计与“内容-风格”解耦的清晰思路,巧妙地利用了EPR和APT的互逆性进行联合训练,并无需繁琐的音符级对齐数据,这在方法论上颇具启发性。短板是,虽然框架通用,但实验主要基于古典钢琴音乐,其对于更丰富多变的流行音乐等风格的泛化能力未被验证;此外,模型参数量(188M)显著高于一些基线,计算成本是一个需要考虑的实际问题。 🔗 开源详情 代码:论文明确表示“代码将在论文被接受后发布”,提供了项目主页链接(https://wei-zeng98.github.io/joint-apt-epr/),表明有开源计划。 模型权重:未提及是否公开预训练模型权重。 数据集:使用了公开的ASAP和ATEPP数据集,以及从MuseScore收集并过滤的公开乐谱数据。论文未提及是否提供已处理的未配对演奏MIDI数据。 Demo:提供了在线演示页面(https://wei-zeng98.github.io/joint-apt-epr/),包含EPR渲染和风格迁移的示例。 复现材料:附录B提供了极其详细的模型实现细节(PyTorch Lightning、多任务训练设置、优化器、掩码策略等),是高质量的复现指南。 论文中引用的开源项目:提到了MidiTok(用于MIDI分词)、Aria-AMT(用于音频转MIDI)和Partitura(用于音乐处理)。 总体开源情况:论文有明确的开源承诺和详尽的复现材料,开源状态积极,但代码和权重尚未发布。 📌 核心摘要 这篇论文旨在解决钢琴演奏渲染(EPR)和自动钢琴转录(APT)两个基础但互逆的任务长期被独立研究的问题。其核心方法是构建一个基于Transformer的统一序列到序列(Seq2Seq)框架,通过解耦“音符级乐谱内容”和“全局演奏风格”两种表示,来联合学习这两个任务。与已有方法相比,其新意在于:1)首次将EPR和APT统一建模,实现双向监督;2)提出无需音符级对齐的Seq2Seq训练范式,降低了数据标注门槛;3)设计了一个独立的、基于扩散模型的演奏风格推荐(PSR)模块,能够仅从乐谱内容生成合适的风格嵌入。实验表明,该联合模型在ASAP数据集的APT任务上,达到了与最先进端到端模型(Beyer & Dai, 2024)可比的性能(例如,ScoreSimilarity平均误差Eavg从14.10降至12.48)。在EPR任务上,其客观指标(如速度MAE为0.37)和主观评价均优于或接近现有基线。消融实验验证了联合训练和无对齐数据的重要性。该工作的实际意义在于实现了音乐模态间转换的双向建模,并支持风格可控的演奏生成;主要局限性在于计算开销较大,且实验验证局限于古典钢琴音乐。 🏗️ 模型架构 本文提出一个统一的、模块化的框架,用于联合处理EPR和APT任务,并支持独立的风格推荐。 ...

2026-05-02 · 更新于 2026-06-24 · 2 min · 417 words

Can Speech LLMs Think while Listening?

📄 Can Speech LLMs Think while Listening? #语音对话系统 #大语言模型 #思维链 #偏好学习 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #大语言模型 | #思维链 #偏好学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yi-Jen Shih (The University of Texas at Austin, Meta Superintelligence Labs) 通讯作者:未明确说明(论文标注两位共同第一作者:Yi-Jen Shih, Desh Raj,以及共同作者:Chunyang Wu, Wei Zhou等) 作者列表:Yi-Jen Shih (The University of Texas at Austin, Meta Superintelligence Labs), Desh Raj (Meta Superintelligence Labs), Chunyang Wu (Meta Superintelligence Labs), Wei Zhou (Meta Superintelligence Labs), SK Bong (Meta Superintelligence Labs), Yashesh Gaur (Meta Superintelligence Labs), Jay Mahadeokar (Meta Superintelligence Labs), Ozlem Kalinli (Meta Superintelligence Labs), Michael L. Seltzer (Meta Superintelligence Labs) 💡 毒舌点评 论文成功地将“思维链”和“边听边想”的概念从文本大模型工程化移植到语音大模型领域,提出了“问题完整度”这一新颖的触发指标,并用DPO优化了推理启动时机与长度,工程设计思路清晰。然而,最大的短板在于所有实验基于未公开的内部模型和数据集(虽用了公开的Moshi,但训练数据为私有),这使得其提出的“问题完整度”度量的普适性和复现性存疑,论文的结论严重依赖其特定的训练流程和私有数据。 ...

2026-05-02 · 更新于 2026-06-24 · 2 min · 298 words

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

📄 Can Vision-Language Models Answer Face to Face Questions in the Real-World? #音频问答 #基准测试 #数据集 #流式处理 ✅ 7.5/10 | 前25% | #音频问答 | #基准测试 | #数据集 #流式处理 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Reza Pourreza(Qualcomm AI Research) 通讯作者:未说明 作者列表:Reza Pourreza(Qualcomm AI Research),Rishit Dagli(University of Toronto,实习于Qualcomm AI Research),Apratim Bhattacharyya(Qualcomm AI Research),Sunny Panchal(Qualcomm AI Research),Guillaume Berger(Qualcomm AI Research),Roland Memisevic(Qualcomm AI Research) 💡 毒舌点评 这篇论文犀利地戳破了“多模态模型已懂交流”的泡沫,用精心设计的QIVD数据集证明,让AI像人一样“边看边听边聊”还差得远,尤其是在把握“回答时机”和理解动态动作上。遗憾的是,其提出的流式处理基线(拼接ASR和视频LLM)更像是权宜之计,而非优雅的端到端解决方案,这或许暗示了当前模型架构的根本性局限。 🔗 开源详情 代码:论文中未提及公开的代码仓库链接。 模型权重:评估中使用了多个公开的预训练模型权重(如VideoLLaMA系列、Qwen系列、GPT-4o等)。论文本身贡献的微调模型权重(如微调后的VideoLLaMA2.1-7B-FT-AV, Stream-Qwen-Omni)未明确说明是否公开。 数据集:QIVD数据集已提供访问链接(qualcomm.com/developer/software/qualcomm-interactive-video-dataset-qivd),应为公开可用。 Demo:论文中未提及在线演示。 复现材料:提供了详尽的附录,包含训练超参数(表D.2)、模型模块冻结/训练状态(表D.1)、评估用的LLM裁判提示词(表D.3, D.4)、GPT-4o的提示词(表D.5)以及对数据集语义分类的详细定义,复现材料非常充分。 引用的开源项目:引用了Whisper, Whisper-Streaming, Cosmos-Tokenizer, BEATs, SigLIP等开源工具或模型作为技术组件。 开源计划:论文中未明确提及后续开源代码的计划。 📌 核心摘要 解决的问题:现有大型多模态模型(LMM)虽然能描述图片、回答静态问题,但在需要结合实时视频和音频流进行情境化问答时表现不佳。它们难以整合多模态信息来理解指代(如“这个”)、判断动态事件,并且最关键的是,不知道“何时”回答。 方法核心:提出了一个全新的数据集和基准——Qualcomm Interactive Video Dataset (QIVD)。该数据集通过众包收集,参与者用手机边拍视频边提出开放性问题,数据集包含原始视频、音频、问题的文字转录、答案以及至关重要的“最佳回答时机”时间戳。 与已有方法的对比新意:与现有离线视频问答数据集不同,QIVD强制模型处理在线、实时、自包含的问答场景。它不仅评估模型能否“答对”,更评估其能否在动态场景中“听懂”问题并在信息充分时“恰当地”作答,这是对模型情境理解和时序推理能力的直接测试。 主要实验结果: 人类表现:在子集上人类正确率约为87.3%。 模型表现:最强的开源模型(如VideoLLaMA3-7B)在提供完美问题和时机的离线设置下正确率仅为56.4%;最强闭源模型(GPT-4o)正确率为58.8%,远低于人类。 时机至关重要:使用模型自身预测的“最佳回答时机”(Stream-Qwen-Omni)会比使用固定时机(如问题结束时)显著提升性能,但仍然存在误差。 音频的作用:直接使用音频信息并不总是能提升性能,但经过在QIVD上微调后,模型能有效利用音频,特别是在主观、动作计数等任务上提升巨大(如主观任务+23.26%,动作计数+16.96%)。 关键差距:模型在“动作计数”、“音视频理解”、“物体指代”等需要时序推理和跨模态理解的任务上,与人类差距最大。 实际意义:为构建能够与人类进行实时视频通话的AI助手、人形机器人或远程协作系统提供了关键的评估基准和瓶颈分析,明确了未来模型需要突破的方向。 主要局限性:数据集规模(2900个视频)和类别多样性有限;数据主要来自众包的日常场景,可能缺乏专业或复杂场景;研究的“流式基线”方法本质上是模块化拼接,而非真正的端到端实时系统。 🏗️ 模型架构 本文主要贡献是数据集和评估框架,而非一个全新的端到端模型。论文提出的模型架构是用于评估的基线系统,其设计体现了对当前技术路径的分析: ...

2026-05-02 · 更新于 2026-06-24 · 2 min · 254 words