AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching

📄 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching #语音分离 #流匹配 #音视频 #基准测试 #生成模型 🔥 8.0/10 | 前25% | #语音分离 | #流匹配 | #音视频 #基准测试 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文注明 Xize Cheng, Chenyuhao Wen, Tianhao Wang 为平等贡献) 通讯作者:未说明 作者列表:Xize Cheng(浙江大学),Chenyuhao Wen(浙江大学),Tianhao Wang(独立作者),Yongqi Wang(浙江大学),Zehan Wang(浙江大学),Rongjie Huang(浙江大学),Tao Jin(浙江大学),Zhou Zhao(浙江大学) 💡 毒舌点评 本文最大的亮点在于将流匹配生成范式成功引入视频查询声音分离任务,并系统性地分析了该任务作为“多条件生成”与传统流匹配任务的本质区别,这种对任务特性的深刻洞察比单纯提升几个点更有价值。然而,其构建的VGGSound-Hard新基准仅包含118个测试对,虽然难度高但规模偏小,其对结论的普适性支撑稍显不足;此外,作为生成模型,其推理速度(2.17 FPS)距实时处理仍有差距,论文中未探讨如何在效率上做进一步优化。 🔗 开源详情 代码:论文明确承诺在接收后公开代码仓库,但未提供具体链接(论文中未提及代码链接)。 模型权重:论文明确承诺在接收后公开预训练模型权重(未提及具体链接)。 数据集:VGGSound-Hard作为新提出的基准,论文未说明其具体下载方式,但提及由VGGSound测试集筛选而来。VGGSound-Hard的筛选脚本可能会随代码公开。 Demo:论文提供了项目主页链接 https://AlignSep.github.io ,其中包含更多结果和音频示例,可视为一种在线演示。 复现材料:附录A提供了非常详细的实现细节,包括音频VAE(表4)和向量场估计器(表5)的架构超参数、数据预处理方式、推理步数选择等关键信息。 引用的开源项目:论文依赖并引用了多个开源项目:CAVP视觉编码器 (Luo et al., 2023), 音频VAE (Liu et al., 2023a), BigVGAN声码器 (Lee et al., 2022), ImageBind (Han et al., 2023) 等。 📌 核心摘要 本文旨在解决视频查询声音分离(VQSS)任务中现有方法面临的两大挑战:1) 在声源同质(如多只同类狗叫)的干扰下,因缺乏精细时序建模而无法区分屏幕内外声音;2) 基于掩码的判别式方法在处理重叠声轨时易产生频谱空洞和不完整分离。 方法核心是提出AlignSep,这是首个基于条件流匹配的生成式VQSS模型。与已有方法不同,AlignSep通过设计一个时序对齐的向量场估计器(采用跨模态特征拼接和无交叉注意力的Transformer),并配合预训练的CAVP视觉时序编码器,显式地学习和维护音视频之间的时序对应关系,从而在生成过程中实现精确对齐。 与已有方法相比,新在两点:1) 范式上,采用生成式流程替代判别式掩码预测,能更好地处理重叠信号并避免频谱空洞;2) 建模上,明确引入并强化了时序对齐机制,而非仅依赖语义特征。此外,论文深入分析了VQSS作为多条件生成任务对标准流匹配范式提出的新挑战。 主要实验结果显示,AlignSep在三个基准上均达到最优性能。在MUSIC-Clean和VGGSound-Clean上,其时序对齐准确率(TA-V)分别达到66.67%和96.88%,大幅超越最强基线OmniSep(分别为68.89%和81.25%)。在专门为测试时序对齐能力构建的更具挑战性的VGGSound-Hard基准上,AlignSep的TA-V达到95.76%,而OmniSep仅为76.27%。人类感知评估(MOS)也证实了AlignSep在噪声残留、音视频一致性、音频质量和整体评分上的优势。 实际意义在于,AlignSep为解决真实复杂视听场景下的声音分离问题提供了新的、更鲁棒的框架,有助于提升视频编辑、内容理解等应用的体验。 主要局限性包括:1) 新提出的VGGSound-Hard基准规模较小(仅118对);2) 作为生成模型,推理效率有提升空间;3) 论文未深入探讨该生成范式在更复杂、多源场景下的扩展能力。 ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 441 words

AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR

📄 AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR #语音识别 #基准测试 #多语言 #数据集 #鲁棒性 ✅ 6.5/10 | 前50% | #语音识别 | #基准测试 | #多语言 #数据集 | arxiv 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Eugen Beck(AppTek.ai) 通讯作者:未说明 作者列表:Eugen Beck(AppTek.ai), Sarah Beranek(AppTek.ai), Uma Moothiringote(AppTek.ai), Daniel Mann(未说明), Wilfried Michel(未说明), Katie Nguyen(未说明), Taylor Tragemann(未说明) 💡 毒舌点评 这篇论文最大的亮点在于“以身作则”地解决了一个评测领域的老大难问题——创建了一个干净、无污染、多口音的长对话评测集,堪称ASR评测界的“良心工程”。但硬币的另一面是,它本质上是一个“靶子”而非“箭”,作为纯数据集和基准论文,缺乏算法上的惊艳创新,且角色扮演的数据获取方式终究让其在“真实性”上打了折扣,难以完全替代真实世界数据的价值。 🔗 开源详情 代码:论文中未提及具体代码仓库链接。 模型权重:论文中提及了多个开源ASR模型进行基准测试(如NVIDIA Canary-1B v2, Parakeet 0.6B TDT, Whisper Large, Qwen3-ASR, Granite Speech, Phi-4 Multimodal等),但未在文中提供这些模型权重的直接下载链接。 数据集:AppTek Call-Center Dialogues 名称:apptek-com/apptek_callcenter_dialogues 链接:https://huggingface.co/datasets/apptek-com/apptek_callcenter_dialogues 开源协议:Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) Demo:论文中未提及在线演示链接。 复现材料:论文中未提供训练配置、检查点或附录等用于完全复现的材料。文中详细描述了评估设置(分割策略、评分协议等),但未提供用于复现其评分归一化脚本或评估环境的具体代码或配置文件链接。 论文中引用的开源项目: Silero VAD: https://github.com/snakers4/silero-vad Hugging Face OpenASR Leaderboard: https://huggingface.co/spaces/speech-io/open_asr_leaderboard 补充信息 [核心摘要] 补充:在“与已有方法相比新在哪里”部分,论文在Related Work中明确指出了其数据集相较于最接近的同类工作(Earnings-22)的多项具体优势:(a) 数据完全非公开来源,降低了被大型模型训练集污染的风险;(b) 口音标签基于说话人自我认同和验证,而非基于公司所在地,标注更直接;(c) 内容为任务导向的、自发的双人对话,与包含大量朗读内容和有限互动的财报电话不同。这些对比是论文定位自身贡献的关键。 [实验结果] 补充:论文在第4.2节Results中明确给出了一个具体实例来说明“平均性能与鲁棒性不相关”的观点:对于Canary-1B模型,其最佳与最差口音间的WER相对差距为26%,平均WER为11.2%;而对于平均WER更低(9.2%)的Parakeet V3模型,该相对差距却高达48%。这一具体数据对比强化了论文的核心发现之一。 [开源详情] 补充:论文在第3.6节提到了数据集的一个“多语言扩展”用途:一个子集(约5小时)已被专业翻译成中文、德语、日语和西班牙语,将用于未来的机器翻译评测。这是数据集潜在应用价值的补充。 📌 核心摘要 要解决什么问题:现有英语ASR公开基准测试集大多为短时、朗读式语音,或缺乏明确的方言标注,难以评估ASR系统在真实、长时对话场景下(如呼叫中心)对多种英语口音的鲁棒性。此外,基准数据可能泄露至大型模型的预训练语料中,影响评估有效性。 方法核心是什么:本文创建并开源了“AppTek Call-Center Dialogues”数据集。这是一个专门为评估而收集的自发、角色扮演式呼叫中心对话语料库,覆盖14种英语口音和16个服务场景,总计128.6小时。收集过程确保音频和文本非公开来源。同时,论文使用该数据集对多种开源ASR模型在不同语音分割策略下进行了基准测试。 与已有方法相比新在哪里:相比Earnings-22等现有对话数据集,本文数据集:(a) 完全为评估而生,数据非公开来源,降低与训练集重叠风险;(b) 系统性地覆盖了14种英语口音,且每类口音样本量充足;(c) 完全由角色扮演的、自发的双人对话构成,更贴近呼叫中心交互模式。 主要实验结果如何: 分割策略影响:手动分割通常能取得最佳WER,自动分割策略(如Silero VAD、固定分段)性能稍差,表明准确的语音边界检测对长对话ASR至关重要。部分模型(如Qwen3-ASR)对长段输入更鲁棒。 模型 (尺寸) 手动分割 RD分割 Silero分割 固定30s 固定60s Parakeet v3 (0.6B) 8.8 9.0 9.2 9.9 12.1 Qwen3-ASR (1.7B) 7.9 8.0 8.3 7.8 7.4 Canary-1B v2 (1B) 10.6 11.2 11.2 10.9 13.3 Whisper Large v3 (1.6B) 10.7 18.9 15.0 42.9 - Granite Speech (8B) 10.5 10.9 11.9 12.2 13.8 表2:不同模型在不同分割策略下的平均WER(%) * 口音差异巨大:模型在不同口音上的表现差异显著。例如,使用Silero分割时,多数模型在 `en_US_General`(通用美音)和 `en_AU`(澳洲英语)上表现最好,而在 `en_SG`(新加坡英语)、 `en_CN`(中式英语)和 `en_GB_SCT`(苏格兰英语)上错误率明显偏高。最佳与最差口音间的WER绝对差距可超过10%。 * 性能与鲁棒性不完全相关:平均WER更低的模型(如Parakeet v3, 9.2%)其口音间相对差异(48%)反而大于某些平均WER较高的模型(如Canary-1B, 11.2%),表明提升平均性能不自动保证口音鲁棒性。 口音 Parakeet v2 Parakeet v3 Qwen3-ASR (1.7B) Canary-1B Whisper v2 平均 en_AU 5.6 5.2 4.7 6.6 9.3 6.2 en_US_General 6.2 5.5 5.0 7.6 11.0 7.1 en_IN 9.9 9.7 10.3 12.9 33.0 13.9 en_SG 12.4 12.4 10.9 14.9 15.9 14.8 所有口音平均 9.6 9.2 8.3 11.2 16.0 - 表3:使用Silero分割时,各模型在不同口音上的WER(%) 实际意义是什么:为ASR社区,特别是对话AI领域,提供了一个高质量、无污染、针对多口音长对话场景的标准评估基准。这有助于更公平、更真实地比较和推动ASR模型在实际应用中的鲁棒性发展。 主要局限性是什么:(a) 数据为角色扮演而非真实呼叫中心对话,其语言风格和场景复杂度可能与真实数据有差异;(b) 尽管鼓励人口多样性,但部分口音组内性别分布不平衡;(c) 口音标签基于自我认同和验证,类别内部变异性和边界未严格定义;(d) 针对自发语音的逐字标注存在固有挑战,可能存在少量标注错误。 🏗️ 模型架构 本文是一篇基准测试和数据集论文,并未提出新的ASR模型架构。其核心工作围绕数据集构建和对现有模型的评估展开。因此,没有适用于本文的“模型架构”图或描述。论文评估的模型包括Parakeet, Canary, Qwen3-ASR, Whisper, Granite Speech等,均为已发表的开源ASR模型,其架构细节非本文贡献。 ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 485 words

AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models

📄 AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models #基准测试 #模型评估 #音频安全 #音频大模型 🔥 8.5/10 | 前25% | #模型评估 | #基准测试 | #音频安全 #音频大模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Kai Li(南洋理工大学, 与清华大学计算机系、AI研究院、BNRist相关) 通讯作者:Xinfeng Li(南洋理工大学) 作者列表:Kai Li(南洋理工大学), Can Shen(北京师范大学-香港浸会大学联合国际学院), Yile Liu(早稻田大学), Jirui Han(独立研究者), Kelong Zheng(华中科技大学), Xuechao Zou(北京交通大学), Lionel Z. Wang(南洋理工大学), Shun Zhang(火箭军工程大学), Xingjian Du(罗切斯特大学), Hanjun Luo(浙江大学), Yingbin Jin(香港理工大学), Xinxin Xing(独立研究者), Ziyang Ma(南洋理工大学, 上海交通大学), Yue Liu(新加坡国立大学), YiFan Zhang(中国科学院), Junfeng Fang(新加坡国立大学), Kun Wang(南洋理工大学), Yibo Yan(香港科技大学广州), Gelei Deng(南洋理工大学), Haoyang Li(香港理工大学), Yiming Li(南洋理工大学), Xiaobin Zhuang(字节跳动), Tianlong Chen(北卡罗来纳大学教堂山分校), Qingsong Wen(松鼠AI学习), Tianwei Zhang(南洋理工大学), Yang Liu(南洋理工大学), Haibo Hu(香港理工大学), Zhizheng Wu(香港中文大学深圳), Xiaolin Hu(清华大学计算机系), Eng Siong Chng(南洋理工大学), Wenyuan Xu(浙江大学), XiaoFeng Wang(南洋理工大学), Wei Dong(南洋理工大学), Xinfeng Li(南洋理工大学) 💡 毒舌点评 亮点:堪称音频大模型“安全审计”的瑞士军刀,首次系统性地为ALLMs量身定制了六大可信度维度与评估工具集,填补了该领域至关重要的评估空白。 短板:评估流程高度依赖GPT-4o等LLM作为“法官”,其判定本身可能引入与音频模型相似的偏差,形成“用AI评估AI”的循环论证风险。 ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 476 words

Aurelius: Relation Aware Text-to-Audio Generation At Scale

📄 Aurelius: Relation Aware Text-to-Audio Generation At Scale #音频生成 #基准测试 #流匹配 #数据集 #模型评估 🔥 8.0/10 | 前25% | #音频生成 | #基准测试 #流匹配 | #基准测试 #流匹配 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuhang He(微软研究院 Microsoft Research) 通讯作者:Yuhang He(微软研究院 Microsoft Research) 作者列表:Yuhang He(微软研究院 Microsoft Research),He Liang(未说明),Yash Jain(牛津大学计算机系),Andrew Markham(牛津大学计算机系),Vibhav Vineet(微软研究院 Microsoft Research) 💡 毒舌点评 这篇论文的亮点在于它没有追逐提出又一个“全新”的生成模型,而是系统性地构建了大规模、高质量的基准数据集(AudioEventSet, AudioRelSet)和评估体系,直指当前文本到音频生成领域在关系建模上的系统性短板。其短板在于,论文本身提出的AudioRelGen框架核心创新相对有限,更多是基于现有最强模型(如TangoFlux)的微调和评估,缺乏一个能够从根本上解决关系建模难题的、具有强原创性的生成架构。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/yuhanghe01/Aurelius 模型权重:论文中未提及公开微调后或专门训练的模型权重。基准测试中使用的是各基线模型的官方公开权重。 数据集:AudioEventSet和AudioRelSet已公开,可通过项目主页或代码仓库获取。论文描述了数据集获取和构建方式。 Demo:未提及在线演示。 复现材料:提供了训练数据集构建策略、评估协议(MSR)、基线模型的推理设置(表III)以及代码。但关键训练超参数(微调/从头训练的学习率、batch size等)未在论文中说明。 论文中引用的开源项目:依赖的开源模型/工具包括:PANNs(用于特征提取和微调)、VGGish、Qwen2系列大语言模型(用于智能体实验)、各基准TTA模型的官方代码库(如AudioLDM, TangoFlux等)。数据来源包括freesound.org和FSD50K。 📌 核心摘要 问题:现有的文本到音频(TTA)生成模型在处理需要理解音频事件间复杂关系(如空间、时间、逻辑关系)的文本描述时能力严重不足,这限制了TTA技术向更复杂、更真实的应用场景发展。 方法核心:本文提出Aurelius框架,其核心是构建两个大规模、结构化的语料库:包含110个事件类别的AudioEventSet和包含100种关系的AudioRelSet。通过解耦的事件-关系组合策略,可系统性地生成海量的<text, audio>训练对,用于评估和提升模型的“关系感知”生成能力。 创新点:与之前工作(如RiTTA)相比,本文的新在于:a) 将事件和关系语料库规模提升了数量级(事件从~25到110,关系从11到100);b) 提出了一个更全面、可扩展的关系分类法(包括嵌套组合);c) 提供了基于解耦策略的、可大规模生成训练数据的流水线;d) 对多种主流TTA模型进行了前所未有的系统性基准测试。 主要实验结果:基准测试了9个主流TTA模型。结果显示,即使是最好的模型(AudioGen, mAMSR=2.22%; TangoFlux, mAMSR=1.77%),其在关系感知指标(Presence, Relation Correctness, Parsimony)上的表现也极差(均低于15%)。微调实验表明,在Aurelius数据集上微调能显著提升模型的关系建模能力(如TangoFlux的mAMSR从1.77%提升至5.58%)。具体关键结果见下表。 模型 参数量 FAD ↓ mAPre (%) mARel (%) mAPar (%) mAMSR (%) AudioGen 1.5B 7.97 11.3 2.84 9.13 2.22 TangoFlux 576M 6.01 12.38 3.34 7.28 1.77 TangoFlux (微调) 576M 1.29 28.57 8.02 20.84 5.58 表:零样本基准测试(上)与微调实验(下)关键结果对比 实际意义:本工作为“关系感知TTA”这一重要但被忽视的研究方向,首次提供了标准化的大规模基准数据集、评估协议和基线方法,系统地揭示了当前技术的瓶颈,为未来研究指明了方向(如需要设计能显式建模事件-关系依赖的架构)。 主要局限性:a) 论文主要贡献是构建基准和揭示问题,提出的AudioRelGen框架本身(解耦生成再混合)并非解决该问题的终极方案;b) 训练数据规模(100小时)虽然远超之前相关工作,但对于真正的大规模生成模型训练可能仍显不足;c) 关系评估依赖的自动检测模型(事件分类器、关系分类器)的性能上限,可能影响评估结果的绝对准确性。 🏗️ 模型架构 论文提出的AudioRelGen框架(图4)核心思想是解耦建模,其流程并非一个端到端的单一生成模型,而是一个数据生成与评估的范式: ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 386 words

AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

📄 AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization #情感识别 #多模态模型 #偏好优化 #基准测试 #音频大模型 ✅ 7.5/10 | 前25% | #情感识别 | #多模态模型 | #偏好优化 #基准测试 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ashutosh Chaubey(南加州大学创意技术研究所) 通讯作者:未说明(论文提供了第一作者和通讯作者的邮箱,但未在作者列表中明确区分) 作者列表:Ashutosh Chaubey(南加州大学创意技术研究所)、Jiacheng Pang(南加州大学创意技术研究所)、Maksim Siniukov(南加州大学创意技术研究所)、Mohammad Soleymani(南加州大学创意技术研究所) 💡 毒舌点评 该工作像一个严谨的“情感AI产品测试员”,不仅自己设计了一套挑剔的“质检标准”(EmoReAlM基准),还研发了一套让模型“改掉坏习惯”的训练方法(AVEm-DPO),且实验做得很扎实。但它的核心方法(多模态DPO+去偏)更像是对现有技术的巧妙组合与针对性应用,在算法原创性上略显不足,更像是一篇优秀的工程系统论文而非理论突破。 🔗 开源详情 代码:论文提供了项目页面地址 avere-iclr.github.io,并声明代码、模型和基准将公开。 模型权重:论文声明将公开模型权重。 数据集:论文提出的EmoReAlM基准测试和用于AVEm-DPO训练的偏好数据集均承诺开源。代码、模型和基准将统一在上述项目页面提供。 Demo:论文中未提及在线演示。 复现材料:论文提供了极其详尽的附录(Appendix),包括所有数据创建和评估所用的提示(图19-37)、训练细节(C.3)、基准统计(B.3)、人类验证流程(B.2)、消融实验设置(D.5)等,复现材料非常充分。 论文中引用的开源项目:依赖的主要开源项目包括: 模型:EmotionLLaMA,Whisper (large-v3),LanguageBind (视频编码器),VideoLLaMA,PandaGPT,OneLLM,VITA-1.5,Qwen-2.5 Omni。 数据集:DFEW,MAFW,MER2025,RAVDESS,EMER。 工具:GPT-4o,Gemini-2.5,Qwen-2.5(用于数据生成和评估)。 📌 核心摘要 要解决什么问题:当前多模态大语言模型(MLLMs)在音视频情感推理中存在两大问题:一是“推理错误”,即模型将情感错误地关联到不相关的视听线索上;二是“感知错误”,即模型基于语言模型的文本先验,幻觉出不存在的视听线索来解释情感。 方法核心是什么:论文提出一个名为AVEm-DPO的偏好优化技术。它通过构建细粒度的偏好对来对齐模型输出:1)基于提示的模态偏好(PMP),确保模型关注正确的模态;2)基于情感的响应偏好(ERP),直接针对虚假关联和幻觉构建拒绝响应;3)引入文本先验去偏(TPD)正则项,惩罚仅基于文本生成的响应。 与已有方法相比新在哪里:相较于简单的DPO应用,AVEm-DPO创新性地提出了针对音视频输入和情感任务的细粒度偏好构建策略,特别是Prompt-based Modality Preference和Text-Prior Debiasing,这比传统只对响应进行偏好优化的方法更精细,更能解决跨模态幻觉问题。 主要实验结果如何:在多个数据集上,AVEm-DPO显著提升了基线模型性能。例如,在自有EmoReAlM基准上,以“Our base”模型为例,其平均准确率从基线的65.1%提升至AVEm-DPO的83.3%(相对提升28%)。在EMER情感推理数据集的人类评估中,其“情感描述正确率”从基线的5.63%大幅跃升至54.74%。消融实验证明各组件均有效,特别是TPD对降低幻觉至关重要。 实际意义是什么:该工作为评估和改进音视频MLLM的情感推理能力提供了系统性的解决方案,包括一个可复现的基准测试(EmoReAlM)和一套有效的优化方法(AVEm-DPO),有助于构建更可靠、更少幻觉的情感AI代理。 主要局限性是什么:论文承认其基准测试(EmoReAlM)源自DFEW数据集,可能继承其文化偏见;训练数据和基准主要基于短视频,长视频情感理解仍是挑战;模型在“厌恶”这一模糊情感上的识别效果不佳,可能源于训练样本不足;且对虚假音频线索的缓解仍有改进空间。 🏗️ 模型架构 论文提出的AVEm-DPO是一种训练方法,而非一个新的神经网络架构。它应用于现有的音视频大语言模型(如EmotionLLaMA或作者自建的基线模型)之上,通过修改训练目标来优化模型。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 293 words

AVEX: What Matters for Animal Vocalization Encoding

📄 AVEX: What Matters for Animal Vocalization Encoding #生物声学 #自监督学习 #预训练 #模型评估 #基准测试 ✅ 7.5/10 | 前25% | #生物声学 | #自监督学习 | #预训练 #模型评估 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Marius Miron(Earth Species Project), David Robinson(Earth Species Project) 通讯作者:Marius Miron({marius}@earthspecies.org), David Robinson({david}@earthspecies.org) 作者列表:Marius Miron†⋆(Earth Species Project), David Robinson†⋆(Earth Species Project), Milad Alizadeh†(Earth Species Project), Ellen Gilsenan-McMahon†(Earth Species Project), Gagan Narula†(Earth Species Project), Emmanuel Chemla(Earth Species Project), Maddie Cusimano(Earth Species Project), Felix Effenberger(Earth Species Project), Masato Hagiwara(Earth Species Project), Benjamin Hoffman(Earth Species Project), Sara Keen(Earth Species Project), Diane Kim(Earth Species Project), Jane Lawton(Earth Species Project), Jen-Yu Liu(Earth Species Project), Aza Raskin(Earth Species Project), Olivier Pietquin†‡(Earth Species Project), Matthieu Geist†‡(Earth Species Project) (†核心作者,⋆共同第一作者及通讯作者,‡共同资深作者) 💡 毒舌点评 亮点:这是一次教科书级别的、规模空前的“声学表征学习”工程实验,系统性地拆解并回答了“训练一个好用的通用动物声音编码器到底需要什么”这一实际问题,其结论(自监督预训练+监督微调+混合数据)清晰、可靠且实用,配套的开源工具链极大降低了该领域的入门门槛。短板:论文的“创新”更多体现在工程实践和经验总结层面,缺乏一个令人眼前一亮的、能驱动新方向的理论洞见或算法设计;其评估虽广,但数据集的“偏见”(如鸟类数据占主导)是否被完全克服仍存疑,对“真正全新物种”的泛化能力验证可能不够充分。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 318 words

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

📄 Can Vision-Language Models Answer Face to Face Questions in the Real-World? #音频问答 #基准测试 #数据集 #流式处理 ✅ 7.5/10 | 前25% | #音频问答 | #基准测试 | #数据集 #流式处理 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Reza Pourreza(Qualcomm AI Research) 通讯作者:未说明 作者列表:Reza Pourreza(Qualcomm AI Research),Rishit Dagli(University of Toronto,实习于Qualcomm AI Research),Apratim Bhattacharyya(Qualcomm AI Research),Sunny Panchal(Qualcomm AI Research),Guillaume Berger(Qualcomm AI Research),Roland Memisevic(Qualcomm AI Research) 💡 毒舌点评 这篇论文犀利地戳破了“多模态模型已懂交流”的泡沫,用精心设计的QIVD数据集证明,让AI像人一样“边看边听边聊”还差得远,尤其是在把握“回答时机”和理解动态动作上。遗憾的是,其提出的流式处理基线(拼接ASR和视频LLM)更像是权宜之计,而非优雅的端到端解决方案,这或许暗示了当前模型架构的根本性局限。 🔗 开源详情 代码:论文中未提及公开的代码仓库链接。 模型权重:评估中使用了多个公开的预训练模型权重(如VideoLLaMA系列、Qwen系列、GPT-4o等)。论文本身贡献的微调模型权重(如微调后的VideoLLaMA2.1-7B-FT-AV, Stream-Qwen-Omni)未明确说明是否公开。 数据集:QIVD数据集已提供访问链接(qualcomm.com/developer/software/qualcomm-interactive-video-dataset-qivd),应为公开可用。 Demo:论文中未提及在线演示。 复现材料:提供了详尽的附录,包含训练超参数(表D.2)、模型模块冻结/训练状态(表D.1)、评估用的LLM裁判提示词(表D.3, D.4)、GPT-4o的提示词(表D.5)以及对数据集语义分类的详细定义,复现材料非常充分。 引用的开源项目:引用了Whisper, Whisper-Streaming, Cosmos-Tokenizer, BEATs, SigLIP等开源工具或模型作为技术组件。 开源计划:论文中未明确提及后续开源代码的计划。 📌 核心摘要 解决的问题:现有大型多模态模型(LMM)虽然能描述图片、回答静态问题,但在需要结合实时视频和音频流进行情境化问答时表现不佳。它们难以整合多模态信息来理解指代(如“这个”)、判断动态事件,并且最关键的是,不知道“何时”回答。 方法核心:提出了一个全新的数据集和基准——Qualcomm Interactive Video Dataset (QIVD)。该数据集通过众包收集,参与者用手机边拍视频边提出开放性问题,数据集包含原始视频、音频、问题的文字转录、答案以及至关重要的“最佳回答时机”时间戳。 与已有方法的对比新意:与现有离线视频问答数据集不同,QIVD强制模型处理在线、实时、自包含的问答场景。它不仅评估模型能否“答对”,更评估其能否在动态场景中“听懂”问题并在信息充分时“恰当地”作答,这是对模型情境理解和时序推理能力的直接测试。 主要实验结果: 人类表现:在子集上人类正确率约为87.3%。 模型表现:最强的开源模型(如VideoLLaMA3-7B)在提供完美问题和时机的离线设置下正确率仅为56.4%;最强闭源模型(GPT-4o)正确率为58.8%,远低于人类。 时机至关重要:使用模型自身预测的“最佳回答时机”(Stream-Qwen-Omni)会比使用固定时机(如问题结束时)显著提升性能,但仍然存在误差。 音频的作用:直接使用音频信息并不总是能提升性能,但经过在QIVD上微调后,模型能有效利用音频,特别是在主观、动作计数等任务上提升巨大(如主观任务+23.26%,动作计数+16.96%)。 关键差距:模型在“动作计数”、“音视频理解”、“物体指代”等需要时序推理和跨模态理解的任务上,与人类差距最大。 实际意义:为构建能够与人类进行实时视频通话的AI助手、人形机器人或远程协作系统提供了关键的评估基准和瓶颈分析,明确了未来模型需要突破的方向。 主要局限性:数据集规模(2900个视频)和类别多样性有限;数据主要来自众包的日常场景,可能缺乏专业或复杂场景;研究的“流式基线”方法本质上是模块化拼接,而非真正的端到端实时系统。 🏗️ 模型架构 本文主要贡献是数据集和评估框架,而非一个全新的端到端模型。论文提出的模型架构是用于评估的基线系统,其设计体现了对当前技术路径的分析: ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 254 words

Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning

📄 Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning #多模态推理 #评估框架 #多模态模型 #逻辑推理 #基准测试 🔥 8.5/10 | 前25% | #多模态推理 | #评估框架 | #多模态模型 #逻辑推理 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yucheng Wang, Yifan Hou(共同第一作者,苏黎世联邦理工学院) 通讯作者:Mrinmaya Sachan(苏黎世联邦理工学院) 作者列表:Yucheng Wang(苏黎世联邦理工学院),Yifan Hou(苏黎世联邦理工学院),Aydin Javadov(苏黎世联邦理工学院),Mubashara Akhtar(苏黎世联邦理工学院),Mrinmaya Sachan(苏黎世联邦理工学院) 💡 毒舌点评 亮点在于提出了一个非常系统、基于命题逻辑的六类模态交互评估框架,并对“识别”与“推理”的分离进行了严谨的实验验证,为理解多模态模型瓶颈提供了清晰的诊断工具。短板是使用高度受控的合成数据进行评估,虽然逻辑清晰但可能无法完全反映真实世界中多模态信息的复杂性和噪声,且评估的模型规模较小(7-8B),对超大模型是否适用有待验证。 🔗 开源详情 代码:论文提到“Our code and data are publicly available”,但未提供具体链接。 模型权重:评估的是公开的第三方模型(Baichuan, Qwen, MiniCPM, Phi4),未提及作者自己训练或微调的模型。 数据集:作者生成的合成评估数据集,论文表示将公开,但未提供获取方式。 Demo:未提及。 复现材料:提供了极其详细的实验设置(附录A)、所有提示模板(附录A.3及图4-11)、线性探针设置和评估协议,复现指南性强。 论文中引用的开源项目:CosyVoice2 TTS(用于生成音频)、GraphViz(用于生成图像)、HuggingFace(用于模型推理)。 📌 核心摘要 问题:现有研究对多模态大语言模型(MLLMs)在推理任务中,额外模态(如图像、音频)究竟是助力还是阻碍存在矛盾结论,缺乏系统性的评估框架来隔离和分析模态交互的作用。 方法:提出了一个基于命题逻辑的六类模态交互评估框架(等价、替代、蕴含、独立、矛盾、互补),通过控制信息在模态间的分布和逻辑组合方式,系统性地测试MLLMs的推理能力。同时,通过注意力探针和两步提示等方法剖析模型内部机制。 创新:与已有工作相比,本文的创新在于:(1) 提供了统一的、可控的逻辑框架来分类和测试模态交互;(2) 明确分离并诊断出MLLMs的两个核心瓶颈:“任务组合瓶颈”(识别与推理难以在一次前向传播中联合完成)和“融合瓶颈”(早期融合导致模态偏见)。 实验结果:在四个开源MLLMs(Baichuan-Omni-1.5d, Qwen2.5-Omni, MiniCPM-o-2.6, Phi-4 Multimodal)上的实验表明:(1) 仅当额外模态提供独立、充分的推理路径时(如“替代”交互),性能才略有提升(平均+1.7% to text-only);(2) 蕴含、矛盾、互补交互均导致性能显著下降(平均分别比text-only基线下降12.8%,导致偏好不一致,且无法有效整合互补信息)。关键实验结果如表1、2、3、4所示。 实际意义:研究结论表明,当前MLLMs的核心障碍并非感知,而是信息整合。这为未来的模型设计指明了方向:需要发展“感知-组成感知”的训练目标、显式的证据选择监督以及能控制早期融合的架构。 局限性:评估任务基于简化的单步逻辑推理和合成数据,可能无法完全代表复杂的真实世界推理场景;所评估的模型参数规模均在8B以下,对更大型模型的表现未知。 主要实验结果表格: ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 355 words

CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition

📄 CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition #语音识别 #多语言 #分布鲁棒优化 #基准测试 #开源工具 🔥 8.0/10 | 前25% | #语音识别 | #分布鲁棒优化 | #多语言 #基准测试 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Martijn Bartelds(斯坦福大学计算机科学系),Ananjan Nandi(斯坦福大学计算机科学系) (论文注明两位作者贡献均等) 通讯作者:Dan Jurafsky(斯坦福大学计算机科学系) 作者列表: Martijn Bartelds(斯坦福大学计算机科学系) Ananjan Nandi(斯坦福大学计算机科学系) Moussa Koulako Bala Doumbouya(斯坦福大学计算机科学系) Dan Jurafsky(斯坦福大学计算机科学系) Tatsunori Hashimoto(斯坦福大学计算机科学系) Karen Livescu(丰田芝加哥理工学院) 💡 毒舌点评 本文精准地诊断了Group DRO在CTC训练中失效的病因——损失值因序列长度和语言特性变得“不可比”,并开出了对症的“药方”(CTC-DRO),在多个语言集上实现了最差语言性能的显著提升,是一次理论动机清晰、工程实现扎实、效果立竿见影的应用创新。然而,CTC-DRO的疗效目前主要验证于6个语言一组的设定,当语言组规模扩大到几十甚至上百时,其权重的平滑机制和“最差语言”的定义是否依然有效,可能需要更严苛的检验;此外,该方法本质上是“优化权衡”,提升最差性能的同时,部分设置下最优语言的性能有轻微波动(尽管统计不显著),这在追求绝对平均或帕累托最优的场景下需谨慎考量。 🔗 开源详情 代码:论文提供了公开的代码仓库链接:https://github.com/Bartelds/ctc-dro。 模型权重:论文提到“newly trained models are publicly available”,并指向了上述GitHub仓库。 数据集:实验使用公开基准ML-SUPERB 2.0,论文详细描述了如何从原始数据中构建实验语言集(附录D),数据本身需从原始来源获取。 Demo:论文中未提及在线演示。 复现材料:论文提供了极详细的复现信息,包括: 算法伪代码(Algorithm 1)。 详尽的实验设置:模型架构(XLS-R, MMS)、训练超参数(学习率、batch duration、梯度累积、epoch数、ηq、α)、评估指标。 数据集划分的具体语言列表(表4)和统计信息(表5, 表6)。 附录中包含更多开发集结果、消融实验细节、训练时间分析等。 论文中引用的开源项目:论文基于XLS-R和MMS预训练模型,使用ML-SUPERB 2.0基准,并提及了ESPnet工具包(用于讨论,非核心依赖)。 📌 核心摘要 问题:现代深度学习模型常在特定子群体上表现不佳。在多语言自动语音识别(ASR)中,不同语言的性能差异显著。分布鲁棒优化(Group DRO)旨在最小化最差组损失,但在ASR中因广泛使用的CTC损失受输入长度及语言声学特性影响,导致各组损失不可比,使Group DRO失效甚至恶化性能。 方法:提出CTC-DRO算法。核心改进有二:一是采用“长度匹配批处理”,确保每个语言组的损失是在大致相同的音频总时长下计算,缓解CTC损失随长度缩放的问题;二是引入“平滑最大化目标”,通过修改组权重更新规则,防止权重过度集中于损失持续偏高的组,从而使权重分布更均衡稳定。 创新:与直接应用Group DRO相比,CTC-DRO首次系统性地解决了CTC损失在多语言场景下的不可比性问题。其平滑更新目标可通过拉格朗日乘数法证明,仍能保证权重与损失成正比,但调整更平滑。 实验结果:在ML-SUPERB 2.0基准的五个语言集上进行评估。CTC-DRO在平衡与不平衡数据设置下均优于基线模型和标准Group DRO。关键结果如下: 最差语言字符错误率(CER)相对基线最高降低47.1%。 平均CER相对基线最高降低32.9%。 标准Group DRO在超过一半的设置中反而提升了最差语言CER和平均CER。 关键结果表格(平衡数据设置): 设置 模型 ηq α 最差语言CER (↓) 平均CER (↓) 1 MMS 基线 - - 60.8% 23.4% 1 MMS Group DRO 10⁻⁴ - 86.6% 30.5% 1 MMS CTC-DRO 10⁻⁴ 1.0 56.8% 22.9% 2 XLS-R 基线 - - 68.8% 19.0% 2 XLS-R Group DRO 10⁻⁴ - 58.8% 21.6% 2 XLS-R CTC-DRO 10⁻⁴ 0.5 45.0% 15.8% 消融实验显示,移除平滑目标或长度匹配批处理都会导致性能大幅下降。 意义:CTC-DRO以极小的计算开销,有效提升了多语言ASR的公平性,对促进数字包容性有积极作用。其思想可推广至其他损失不可比的群组鲁棒优化场景(如医疗AI)。 局限:性能差距虽被缩小但未完全消除;算法性能依赖于预定义的语言组划分;在极端不平衡数据下效果需进一步验证。 🏗️ 模型架构 论文提出的CTC-DRO并非一个新的神经网络模型架构,而是一种用于优化现有基于CTC的ASR模型的训练算法。其核心是修改了Group DRO的优化流程。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 374 words

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

📄 EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models #基准测试 #语音大模型 #语音对话系统 #模型评估 #语音情感识别 🔥 8.5/10 | 前25% | #基准测试 | #模型评估 | #语音大模型 #语音对话系统 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Li Zhou(香港中文大学(深圳)) 通讯作者:Benyou Wang(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院), Haizhou Li(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院) 作者列表:Li Zhou(香港中文大学(深圳)), Lutong Yu(香港中文大学(深圳)), You Lyu(香港中文大学(深圳)), Yihang Lin(香港中文大学(深圳)), Zefeng Zhao(香港中文大学(深圳)), Junyi Ao(香港中文大学(深圳)), Yuhao Zhang(香港中文大学(深圳)), Benyou Wang(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院), Haizhou Li(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院) 💡 毒舌点评 这篇论文的价值在于它清晰地揭示了当前语音大模型在“听懂弦外之音”并“有温度地回应”上的集体短板,其精心设计的控制变量实验(中性文本搭配不同语音风格)是评估共情能力的关键创新。不过,作为一项评估基准研究,它本身并未提出新的模型架构或训练方法,其核心贡献是提出了问题并提供了标尺,解决问题的下一步还需依赖后续的模型开发工作。 🔗 开源详情 代码:论文中提及将提供代码,但未在提供的文本中给出具体代码仓库链接。 模型权重:未提及。该工作评估的是现有模型,未提出新模型。 数据集:论文明确承诺将发布EchoMind(TTS版和人工录音版)的所有数据、元数据及标注协议。获取方式未具体说明(预计会开源)。 Demo:未提供在线演示信息。 复现材料:论文附录详细说明了音频输入统计(A.1)、对话数据示例(A.2)、人工录音细节(A.3)、MCQ构建示例(A.4)以及所有评估指标的定义和标准(B.2, B.4),为复现评估流程提供了充分信息。 引用的开源项目:论文在数据构建和评估中使用了多种开源或公开工具/模型,包括: TTS:Doubao TTS API(火山引擎), GPT-4o-mini-TTS(OpenAI) 语音/音频模型:emotion2vec(Ma et al., 2024), Gemini-2.5-Pro(Comanici et al., 2025) 评估工具:NISQA, UTMOS, BERTScore, Qwen3-Embedding-0.6B 数据集:AudioCaps(Kim et al., 2019) 总结:论文承诺开源核心数据与代码,并提供了详尽的构建与评估细节,开源计划较为明确。 📌 核心摘要 要解决什么问题:现有的语音大模型(SLM)评估基准通常孤立地评估语言理解、声学识别或对话能力,缺乏一个能够系统性评估模型在整合非语言语音线索(如情感、副语言、环境音)进行共情对话能力的统一框架。 方法核心是什么:提出EchoMind,一个关联的多层级基准,模拟人类共情对话的认知过程,包含三个连续任务层级:语音内容理解(ASR & MCQ)、语音线索感知(MCQ)、集成推理(MCQ)和开放式共情对话生成。所有任务使用语义中性的相同脚本,但配以不同的语音风格(目标表达、中性、替代表达),以隔离和测试语音表达本身的影响。 与已有方法相比新在哪里:EchoMind是首个将理解、推理、对话三个评估层级通过共享上下文(相同脚本+不同语音)关联起来的基准,支持对模型内部认知链的端到端分析。它构建了一个覆盖3大类、12小类、39个具体语音属性的共情框架,并设计了多维度的评估指标(包括音频级的情感对齐度)。 主要实验结果如何:对12个先进SLM的测试表明: 模型在文本内容理解上表现良好(如WER和SemSim分数较高),但在语音线索理解和推理上能力参差不齐,闭源模型GPT-4o-Audio通常优于开源模型。 在开放式对话生成中,尽管回复在上下文相关性、自然度等方面得分尚可,但在需要利用语音线索来调整回复语气和情感的维度(CSpeechRel, VES)上得分普遍不高,最高分也未超过4/5。 人工评估验证了自动指标的有效性,并发现即使是GPT-4o-Audio,其回复的语音风格也与人工期望存在差距。 分析揭示了模型对提示词敏感、对人声的鲁棒性弱于合成语音,以及当提供理想语音线索信息时,模型的共情回复潜力(上界)会显著提升。 模型 语音理解准确率(%) 推理准确率(%) 对话-VES分数 对话-CSpeechRel分数 GPT-4o-Audio 66.25 68.04 3.34 3.42 Qwen2.5-Omni-7B 60.87 57.70 3.24 2.92 Step-Audio 40.74 45.90 3.20 3.09 (其他11个模型数据见论文表4) 表1:关键指标对比摘录(模型、语音理解、推理、对话相关主观分数)。数据来源:论文表4。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 287 words