UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice #语音翻译 #自回归模型 #大语言模型 #数据集 #预训练 ✅ 7.5/10 | 前25% | #语音翻译 | #自回归模型 | #大语言模型 #数据集 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Sitong Cheng(香港科技大学) 通讯作者:Yike Guo(香港科技大学),Wei Xue(香港科技大学) 作者列表:Sitong Cheng(香港科技大学)、Weizhen Bian(香港科技大学)、Xinsheng Wang(Soul AI Lab)、Ruibin Yuan(香港科技大学)、Jianyi Chen(香港科技大学)、Shunshun Yin(Soul AI Lab)、Yike Guo(香港科技大学,通讯作者)、Wei Xue(香港科技大学,通讯作者) 💡 毒舌点评 本文最大的亮点在于“化繁为简”,通过精巧的token设计和提示策略,将复杂的多模态语音翻译任务“降维”成了预训练大语言模型熟悉的序列生成问题,并取得了SOTA级的性能,证明了这条路径的可行性。短板在于其高度依赖特定的、非原创的语音tokenizer(BiCodec, GLM-4)和合成数据集(UniST),这虽然是一种聪明的工程集成,但也意味着其核心创新更多体现在系统集成与训练范式上,而非底层表示学习的突破。 🔗 开源详情 代码:论文中未提及代码开源计划或提供代码仓库链接。 模型权重:未提及是否公开预训练或微调后的UniSS模型权重。 数据集:论文明确贡献了UniST数据集(44.8k小时),并提供了项目主页链接(https://cmots.github.io/uniss-demo),其中可能包含数据获取或申请方式(论文未详细说明获取途径)。 Demo:提供了在线演示网站(https://cmots.github.io/uniss-demo/)。 复现材料:在附录B.1中提供了非常详细的训练配置(三阶段数据、超参数、硬件、优化器设置),并声称遵循可复现原则。引用了使用的开源框架(Megatron-LM)和基础模型(Qwen2.5)。 论文中引用的开源项目:Megatron-LM(训练框架),vLLM(推理部署),Transformers库(评估),webMUSHRA(主观评估)。 📌 核心摘要 要解决什么问题:现有语音到语音翻译(S2ST)系统存在架构复杂(级联或两阶段)、难以保留说话人音色/情感风格、以及未能充分利用大型语言模型(LLM)预训练翻译能力三大挑战。 方法核心是什么:提出UniSS,一个基于预训练LLM(Qwen2.5-1.5B)的单阶段统一S2ST框架。它采用三类离散语音token(说话人token、语言token、语义token)分别建模风格、内容和生成目标,并通过跨模态思维链(CoT)提示(Listen-Translate-Speak)将LLM的文本翻译能力迁移到语音领域。 与已有方法相比新在哪里:(1)架构更简单:采用单阶段自回归模型,无需级联或多模态转换器。(2)能力迁移更直接:通过设计的提示格式,显式激活并利用LLM内部的翻译知识,而非将其仅视为黑盒序列转换器。(3)性能更全面:在翻译质量、说话人相似度、情感保持和时长一致性上全面超越现有方法。 主要实验结果:在CVSS-T基准上,UniSS (Q) 的英文到中文和中文到英文的Speech-BLEU分别达到32.20和24.28,显著超过基线(如Seamless-Ex的24.45/15.84)。其说话人相似度MOS达4.42,情感相似度MOS达4.51,时长一致性(SLC 0.4)接近完美(0.99/0.97)。关键消融实验证明,去除跨模态CoT提示会导致翻译质量暴跌约15个BLEU点。 实际意义是什么:为构建下一代更简单、高效、高质量的语音翻译系统提供了新范式。其发布的UniST大规模数据集(44.8k小时)也极大缓解了该领域高质量平行数据稀缺的问题。 主要局限性是什么:(1)模型和方法目前仅验证了中英双向翻译。(2)核心语音tokenizer并非本文原创,词汇表扩展较大。(3)数据集依赖于合成语音,其上限受合成模型质量制约。 🏗️ 模型架构 UniSS是一个端到端的自回归语言模型,其整体架构可概括为“统一tokenization -> LLM自回归生成 -> detokenization合成”。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 338 words

Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification

📄 Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification #音频分类 #自监督学习 #原型网络 #基准测试 🔥 9.0/10 | 前10% | #音频分类 | #自监督学习 | #原型网络 #基准测试 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Lukas Rauch(德国卡塞尔大学) 通讯作者:Lukas Rauch(lrauch@uni-kassel.de) 作者列表:Lukas Rauch(德国卡塞尔大学)、René Heinrich(德国卡塞尔大学、弗劳恩霍夫能源与环境技术研究所)、Houtan Ghaffari(根特大学)、Lukas Miklautz(马克斯·普朗克生物化学研究所,ML与系统生物学)、Ilyass Moummad(法国国家信息与自动化研究所,蒙彼利埃)、Bernhard Sick(德国卡塞尔大学)、Christoph Scholz(德国卡塞尔大学、弗劳恩霍夫能源与环境技术研究所) 💡 毒舌点评 亮点:论文直击音频SSL评估的一个“房间里的大象”——用线性探测评估多标签音频模型为何效果差,并给出了一个极其扎实、令人信服的答案,方法虽简单但“对症下药”。 短板:其核心贡献本质上是优化了探测器的“头部”设计,而非改进预训练的“主干”模型,因此对于追求模型架构创新的读者而言,冲击力可能稍弱;此外,实验虽全面,但主要局限于频谱图ViT,对原始波形模型的适用性未探讨。 🔗 开源详情 代码:提供了完整的开源代码仓库链接:https://github.com/lurauch/unmute-patch-tokens/。 模型权重:论文未提供其提出的探测器(protobin)的预训练权重,也未提及提供预训练SSL编码器的权重。实验评估的是公开已有的SSL模型。 数据集:提供了部分新整理或未广泛使用的数据集链接:https://huggingface.co/datasets/lrauch/desed、https://huggingface.co/datasets/lrauch/spass、https://huggingface.co/datasets/lrauch/urban-sed。 Demo:论文中未提及在线演示。 复现材料:提供了极其充分的复现材料,包括:a) 详细的超参数搜索范围与策略(附录D.4);b) 所有固定超参数的列表(表10);c) 完整的计算资源估算(附录C);d) 探测方法实现的详细描述(表9,附录D.3);e) 数据集划分与准备细节(附录D.1, D.2)。 引用的开源项目:论文依赖于多个已公开的SSL模型代码和权重(如EAT, BEATs, ASiT, SSLAM等),并在实验中直接使用了它们。 📌 核心摘要 要解决什么问题:在音频自监督学习(SSL)中,使用冻结模型进行轻量级探测(probe)以评估模型质量是计算机视觉的标准做法,但在音频领域(如AudioSet基准),人们仍倾向于使用成本高昂的微调(fine-tuning)来取得最优性能。论文旨在探究并解决为何标准探测方法(特别是基于全局池化的线性探测)无法准确评估音频SSL模型的真实潜力。 方法核心是什么:作者指出问题根源在于“池化瓶颈”:音频预训练(如掩码预测)在token级别学习了分散、局部的信息,但标准的单向量探测(如[cls]-token或注意力池化)在聚合时丢失了这些关键信息,尤其在多标签音频场景中。为此,他们提出了二值化原型探测器(Binarized Prototypical Probes):为每个类别学习一组可学习的原型(prototype),将它们与输入的全部token进行余弦相似度匹配并取最大值,从而实现基于类别的、多向量的信息聚合。 与已有方法相比新在哪里:a) 它系统性地论证并量化了池化方法对音频SSL评估的关键影响,而非常规地将其视为固定协议。b) 提出的二值化原型探测器在性能上显著优于线性探测、注意力池化等所有单向量方法。该方法在原型设计上做了简化(类无关、无显式正交损失)并通过二值化实现32倍压缩,兼具高效与高性能。 主要实验结果如何:在涵盖5个通用多标签、7个少样本生物声学、2个多类别控制任务的13个数据集和6个音频SSL编码器(及其监督微调变体)的广泛基准测试中,二值化原型探测器(protobin)在几乎所有设置下均达到最佳或次佳性能。例如,在as20k数据集上,protobin比标准线性探测平均提升14.41% 的mAP,缩小了与微调性能差距的63%。它彻底改变了模型间的排名:线性探测下表现优秀的ASiT模型在protobin评估下排名垫底,而线性探测下中游的SSLAM模型则跃升至顶尖。 实际意义是什么:该研究将探测确立为一种在音频SSL中具有竞争力、高效且可信的评估范式,挑战了对微调的过度依赖。它为未来研究提供了更可靠的评估工具,并揭示了模型嵌入的真正质量,对设计更好的预训练目标具有指导意义。 主要局限性是什么:a) 论文主要评估了基于频谱图的ViT架构,未涉及原始波形模型。b) 探测过程仍依赖于对最后隐藏层的缓存,没有探索多层特征聚合。c) 其性能上限仍与微调存在差距,未来可通过集成数据增强等进一步提升。 关键实验结果(表2节选 - as20k数据集 mAP%): ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 323 words

VibeVoice: Expressive Podcast Generation with Next-Token Diffusion

📄 VibeVoice: Expressive Podcast Generation with Next-Token Diffusion #语音合成 #语音大模型 #扩散模型 #多说话人 🔥 8.5/10 | 前25% | #语音合成 | #扩散模型 | #语音大模型 #多说话人 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Zhiliang Peng(Microsoft Research) 通讯作者:Furu Wei(Microsoft Research) 作者列表:Zhiliang Peng(Microsoft Research)、Jianwei Yu(Microsoft Research)、Wenhui Wang(Microsoft Research)、Yaoyao Chang(Microsoft Research)、Yutao Sun(Microsoft Research)、Li Dong(Microsoft Research)、Yi Zhu(Microsoft Research)、Weijiang Xu(Microsoft Research)、Hangbo Bao(Microsoft Research)、Zehua Wang(Microsoft Research)、Shaohan Huang(Microsoft Research)、Yan Xia(Microsoft Research)、Furu Wei(Microsoft Research) 💡 毒舌点评 这篇论文通过超低帧率的连续语音分词器和下一个token扩散框架,为“像人一样聊一小时”这个语音生成领域的终极难题提供了一个工程上非常扎实且效果显著的方案,尤其在长篇、多人对话生成上取得了SOTA。但论文的“多说话人”实验部分,对于超过4人或存在激烈抢话、声音重叠等极端复杂对话场景的鲁棒性验证略显不足,现实世界的播客可能比测试集更“混乱”。 ...

2026-05-02 · 更新于 2026-05-21 · 3 min · 432 words

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video

📄 VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video #多模态模型 #基准测试 #大语言模型 ✅ 7.0/10 | 前25% | #多模态模型 | #基准测试 | #大语言模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hanoona Rasheed (MBZUAI) 通讯作者:未说明 作者列表:Hanoona Rasheed (MBZUAI), Abdelrahman Shaker (MBZUAI), Anqi Tang (MBZUAI), Muhammad Maaz (MBZUAI), Ming-Hsuan Yang (University of California Merced, Google Research), Salman Khan (MBZUAI, Australian National University), Fahad Shahbaz Khan (MBZUAI, Linköping University) 💡 毒舌点评 这篇论文精准地定义了视频理解领域一个“棘手但重要”的评测缺口——多步数学推理,并构建了迄今最贴合该场景的基准,其细粒度的步骤标注和错误分类为模型诊断提供了手术刀级别的工具。然而,其本质仍是一篇“数据集论文”,在模型创新和算法突破上着墨为零,且高度依赖LLM-as-a-Judge的评估方式也可能引入新的评估偏差。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 300 words

VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation

📄 VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation #语音情感识别 #大语言模型 #数据增强 #多语言 #强化学习 ✅ 7.5/10 | 前25% | #语音情感识别 | #数据增强 | #大语言模型 #多语言 学术质量 7.0/7 | 选题价值 0.3/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Yancheng Wang(Arizona State University, Meta Superintelligence Labs) 通讯作者:未说明 作者列表:Yancheng Wang(Arizona State University, Meta Superintelligence Labs), Osama Hanna(Meta Superintelligence Labs), Ruiming Xie(Meta Superintelligence Labs), Xianfeng Rui(Meta Superintelligence Labs), Maohao Shen(Massachusetts Institute of Technology, Meta Superintelligence Labs), Xuedong Zhang(Meta Superintelligence Labs), Christian Fuegen(Meta Superintelligence Labs), Jilong Wu(Meta Superintelligence Labs), Debjyoti Paul(Meta Superintelligence Labs), Arthur Guo(Meta Superintelligence Labs), Zhihong Lei(Meta Superintelligence Labs), Ozlem Kalinli(Meta Superintelligence Labs), Qing He(Meta Superintelligence Labs), Yingzhen Yang(Arizona State University) 💡 毒舌点评 亮点是提出了一个新颖且可解释的语音情感识别框架,将语言学知识(元音是韵律的主要载体)与大语言模型的推理能力相结合,实验全面覆盖零样本、微调、跨域和多语言场景。短板是系统依赖外部强制对齐工具(如MFA)的准确性和可用性,这增加了实际部署的复杂度,且论文未讨论在噪声或说话人识别失败时的鲁棒性。 ...

2026-05-02 · 更新于 2026-05-21 · 3 min · 457 words

VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models

📄 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models #语音对话系统 #基准测试 #隐私保护 #多用户 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #隐私保护 #多用户 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuxiang Wang(香港中文大学(深圳),深圳湾区研究院) 通讯作者:未明确说明(根据署名惯例,最后一位作者Zhizheng Wu可能为通讯作者,但论文未明确标注)。 作者列表: Yuxiang Wang (香港中文大学(深圳),深圳湾区研究院) Hongyu Liu (香港中文大学(深圳)) Dekun Chen (香港中文大学(深圳)) Xueyao Zhang (香港中文大学(深圳)) Zhizheng Wu (香港中文大学(深圳),深圳湾区研究院,澳门城市大学,Amphion Technology Co., Ltd.) 💡 毒舌点评 亮点:论文像一位敏锐的侦探,为“语音大模型在共享环境中如何保守秘密”这一被忽视的关键问题立了案、建了卷宗(三层级基准),并通过大规模“审讯”(评估)揪出了当前模型“嘴不严”(交互隐私能力弱)的通病,为领域敲响了警钟。 短板:然而,论文的“破案”能力(分析)远强于“结案”能力(解决方案)。其提出的微调路径更像是一个证明方向可行的“示例”,而非一个完整、鲁棒的解决方案。同时,整个“案发现场”(基准)完全由合成语音构成,尽管做了验证,但“真实犯罪现场”(真实隐私泄露场景)的复杂性可能被低估。 🔗 开源详情 代码:论文中未提及具体代码仓库链接,但承诺将开源基准数据集、训练集和微调模型。 模型权重:承诺开源基于Kimi-Audio微调的模型权重(“Ours: Kimi-Audio-sft”)。 数据集:承诺公开VoxPrivacy基准数据集(32.86小时)、Real-VoxPrivacy验证子集(586 utterances)以及用于训练的4000+小时数据集。具体获取方式未在提供的内容中说明。 Demo:论文开头提供了一个Demo页面链接:https://myflashbarry.github.io/VoxPrivacy.github.io/。 复现材料:附录提供了详尽的材料,包括:所有提示模板(生成、润色、评估)、评估标准详细规则(A/B/C分类)、训练集统计数据与示例、对抗攻击详情、说话者验证能力分析等。 论文中引用的开源项目:CosyVoice2(TTS), Whisper-large-v3(ASR), Deepseek, Gemini, ChatGPT(用于数据生成), 以及多个用于构建训练集的公开语音/音频数据集。 📌 核心摘要 问题:随着语音语言模型(SLS)进入智能家居等多用户共享环境,模型需要区分不同说话者以管理信息流。一个关键的未被评估的能力是“交互隐私”——即防止���个用户的私密信息被泄露给另一个用户。现有基准要么只评估对话能力,要么只关注全局敏感信息,忽略了依赖上下文和说话者身份的隐私。 方法核心:提出VoxPrivacy,首个系统评估SLS交互隐私的基准。其核心是设计了三层级任务结构:Tier 1(遵循“别告诉别人”的直接命令)、Tier 2(使用声纹作为密钥,只向主人披露)、Tier 3(在无明确指令下,自主推断信息是否私密并加以保护)。基准包含7107个样本,32.86小时英中双语合成音频,并构建了一个小型真人录音子集(Real-VoxPrivacy)用于验证。 创新性:与已有工作相比,VoxPrivacy首次将交互隐私和说话者感知的响应生成作为独立的评估维度;其三层任务设计覆盖了从简单指令到复杂常识推理的能力谱;基准构建结合了多LLM生成、自动清洗、人工验证和可控TTS合成,保证了质量和多样性。 主要实验结果:对9个SLS的评估显示,交互隐私是当前模型的重大缺陷。大多数开源模型在Tier 2和Tier 3上的准确率接近50%(随机猜测)。强闭源模型(如Gemini-2.5-pro)表现更好,但在更难的Tier 3(主动推理)上也出现明显性能下降。关键数据见下表。在Real-VoxPrivacy上的评估证实了合成数据上的结论。 表2: Tier 1(直接命令)部分模型性能(Accuracy (%)) ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 361 words

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

📄 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM #多模态模型 #音频检索 #视频检索 #对比学习 #多任务学习 🔥 8.5/10 | 前10% | #音频检索 #视频检索 | #对比学习 #多任务学习 | #多模态模型 #音频检索 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Changli Tang (清华大学) 通讯作者:Chao Zhang (清华大学) 作者列表:Changli Tang (清华大学), Qinfan Xiao (清华大学), Ke Mei (腾讯微信视觉), Tianyi Wang (腾讯微信视觉), Fengyun Rao (腾讯微信视觉), Chao Zhang (清华大学) 💡 毒舌点评 亮点:该工作勇敢地填补了基于LLM的统一音频-视觉嵌入的空白,其提出的分层特征融合与联合训练策略在多项检索和QA任务上取得了令人信服的SOTA结果,显示了强大的跨模态理解与对齐能力。 短板:模型的通用性在一定程度上受限于其基础架构(Qwen2.5-Omni),且论文中提出的“versatile audio-visual learning”新基准未在附录或实验部分详细说明其构成与评估方式,略显缺失。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 391 words

WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables

📄 WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables #语音对话系统 #基准测试 #多通道 #语音大模型 #鲁棒性 ✅ 7.5/10 | 前25% | #语音对话系统 | #基准测试 | #多通道 #语音大模型 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Zhaojiang Lin(Meta,标记为联合第一作者) 通讯作者:未说明(论文未明确指定通讯作者,但提供了邮箱zhaojiang@meta.com, sunkaicn@meta.com, yongxu@meta.com, lunadong@meta.com) 作者列表:Zhaojiang Lin(Meta)、Yong Xu(Meta,联合第一作者)、Kai Sun(Meta,联合第一作者)、Jing Zheng(Meta)、Yin Huang(Meta)、Surya Teja Appini(Meta)、Krish Narang(Meta)、Renjie Tao(Meta)、Ishan Kapil Jain(Meta)、Siddhant Arora(Carnegie Mellon University,工作于Meta)、Ruizhi Li(Meta)、Yiteng Huang(Meta)、Kaushik Patnaik(Meta)、Wenfang Xu(Meta)、Suwon Shon(Meta)、Yue Liu(Meta)、Ahmed A Aly(Meta)、Anuj Kumar(Meta)、Florian Metze(Meta)、Xin Luna Dong(Meta) 💡 毒舌点评 亮点在于它精准地定义了可穿戴语音助手独有的“坑”(自我中心音频、多通道、运动噪声、旁听对话),并用一个设计精良、场景丰富的测试集(WearVox)把这些坑量化了,直接戳穿了当前所谓“先进”语音大模型在真实世界中的脆弱性。短板则是案例研究部分提出的多通道模型(MC WearLlama)虽然验证了方向,但更像是一个概念验证(PoC)而非一套完整的解决方案,模型本身未开源,且多通道处理方式(仅拼接两个通道)相对简单,离真正的端到端多模态融合还有距离。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 422 words

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

📄 WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs #基准测试 #多模态模型 #音视频 #模型评估 #模型比较 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #音视频 #模型评估 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jack Hong(小红书) 通讯作者:Shilin Yan(小红书) 作者列表:Jack Hong(小红书)、Shilin Yan†(小红书)、Jiayin Cai(小红书)、Xiaolong Jiang(小红书)、Yao Hu(小红书)、Weidi Xie‡(上海交通大学) 💡 毒舌点评 这篇论文的价值在于它像一盆冷水,明确指出了当前多模态大模型在“听懂并看懂真实世界”这件事上还差得很远(最佳开源模型约25%,最强商用模型仅65.1%),而音频模态是普遍短板。不过,其评估形式局限于多选题,可能无法完全评估模型生成式理解和复杂推理的真实水平。 🔗 开源详情 代码:论文提供了项目主页链接(https://jaaackhongggg.github.io/WorldSense),但未明确提及评估代码或数据处理脚本的开源仓库。 模型权重:未提及。本文为评估基准,未提出新模型。 数据集:已公开。WorldSense数据集可通过项目主页获取,采用CC BY-NC-SA 4.0许可证。 Demo:论文中未提及在线演示。 复现材料:论文提供了详细的评估提示词模板(附录A.4)、标注协议描述(3.3节和附录A.2)以及模型评估设置说明(4.1节和附录A.3),为复现评估结果提供了充分信息。 论文中引用的开源项目:主要引用了作为数据源的FineVideo和MusicAVQA数据集,以及用于数据质量控制的Qwen2-VL、VideoLLaMA2和OneLLM等模型。 论文中未提及开源计划:评估代码、质量控制自动化脚本。 📌 核心摘要 问题:现有针对多模态大语言模型的评估基准大多忽略音频模态,或仅处理弱耦合的音视频信息,无法全面评估模型在真实世界中同时理解和推理视觉与听觉信息的能力。 方法核心:提出了WorldSense,首个专注于评估多模态视频理解中音视频模态强耦合能力的基准。该基准包含1,662个音视频同步视频,设计了3,172个多选问答对,覆盖8大领域、67个子类和26种任务。 新在哪里:与已有基准相比,WorldSense的创新在于:(i) 强调音视频模态的强耦合性,回答问题必须同时依赖两者;(ii) 覆盖真实世界多样化场景和音频类型(语音、环境声、音乐);(iii) 采用高质量人工标注和严格的多重质量控制流程。 主要实验结果:实验评估了多种主流多模态模型。结果显示,最佳开源多模态视频模型准确率仅为54.0%(Qwen3-Omni),而多数开源音视频模型表现接近随机猜测(约25%)。最强商用模型Gemini 2.5 Pro准确率也仅为65.1%。消融实验表明,加入原始音频相比仅用字幕能带来更大性能提升。 实际意义:该基准为评估和推动多模态模型向更鲁棒、更接近人类的真实世界理解能力发展提供了重要平台,并揭示了当前模型在音频理解、跨模态融合和复杂推理方面的关键不足。 主要局限性:基准采用多选题形式,在一定程度上限制了对模型生成式能力和开放性推理的评估;此外,尽管覆盖广泛,但视频和问题的分布可能仍无法完全代表所有真实世界场景。 🏗️ 模型架构 本文的核心贡献是提出了一个评估基准(Benchmark),而非一个新的模型。因此,其“架构”指的是基准的设计框架。该框架主要由两部分构成:数据构建流水线和评估范式。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 353 words

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

📄 XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models #基准测试 #多模态模型 #跨模态 #音频问答 #模型评估 🔥 9.0/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #音频问答 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Xingrui Wang (1, 2) - 1. Advanced Micro Devices (AMD), 2. Johns Hopkins University 通讯作者:Jiang Liu (1) - Advanced Micro Devices (AMD) 作者列表:Xingrui Wang (AMD, Johns Hopkins University)、Jiang Liu (AMD,通讯作者)、Chao Huang (AMD, University of Rochester)、Xiaodong Yu (AMD)、Ze Wang (AMD)、Ximeng Sun (AMD)、Jialian Wu (AMD)、Alan Yuille (Johns Hopkins University)、Emad Barsoum (AMD)、Zicheng Liu (AMD) 💡 毒舌点评 亮点: 该论文精准打击了当前多模态大模型“看似通用,实则偏科”的痛点,其系统性地通过“模态置换”来测试模型是否真正在理解语义而非记忆模态关联,这种诊断思路比单纯刷分的基准更具洞察力。 短板: 论文像一份极其详尽的“体检报告”,清晰指出了模型的“病灶”(如音频理解弱、方向不平衡),但并未提供任何“治疗方案”(即如何构建更一致的模型),其价值完全依赖于后续研究者如何利用这份诊断报告。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 312 words