MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control

📄 MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control #语音克隆 #语音合成 #状态空间模型 #语音大模型 #扩散模型 ✅ 7.5/10 | 前25% | #语音克隆 | #状态空间模型 | #语音合成 #语音大模型 学术质量 6.5/7 | 选题价值 7.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sahil Kumar(Yeshiva University, Department of Mathematics) 通讯作者:Youshan Zhang(Chuzhou University, School of Artificial Intelligence) 作者列表:Sahil Kumar(Yeshiva University, Department of Mathematics)、Namrataben Patel(Yeshiva University, Department of Mathematics)、Honggang Wang(Yeshiva University, Department of Computer Science & Engineering)、Youshan Zhang(Chuzhou University, School of Artificial Intelligence) 💡 毒舌点评 亮点: 架构设计全面且理论动机清晰,通过引入门控双向融合与AdaLN调制,在完全移除推理时注意力的同时,有效提升了长文本的韵律稳定性和跨语言泛化能力,是Mamba在TTS领域一次扎实的工程化探索。 短板: 尽管声称改进,但核心性能增益(MOS +0.07, RTF -0.0005)绝对值很小,被扩散解码器主导的延迟瓶颈严重掩盖了SSM-only编码器的理论优势,实际部署价值提升有限。 ...

2026-05-02 · 更新于 2026-05-21 · 3 min · 453 words

MAPSS: Manifold-based Assessment of Perceptual Source Separation

📄 MAPSS: Manifold-based Assessment of Perceptual Source Separation #语音分离 #自监督学习 #流形学习 #基准测试 #模型评估 🔥 8.5/10 | 前25% | #语音分离 | #流形学习 | #自监督学习 #基准测试 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Amir Ivry(Technion - Israel Institute of Technology, Electrical and Computer Engineering) 通讯作者:Shinji Watanabe(Carnegie Mellon University, Language Technologies Institute) 作者列表:Amir Ivry(Technion - Israel Institute of Technology)、Samuele Cornell(Carnegie Mellon University)、Shinji Watanabe(Carnegie Mellon University) 💡 毒舌点评 亮点在于其坚实的理论基础和创新的评估范式:通过扩散映射将主观听感离散化为流形上的几何距离,首次在数学上清晰地解耦了“分离度”和“匹配度”,并提供了理论误差界,这在音频评估指标中极为罕见。短板则是其实用性受限于严格的时序对齐假设和对预定义失真库的依赖,在存在较大延迟或未知失真类型的实际场景中,其有效性可能会打折扣。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 404 words

MARS-Sep: Multimodal-Aligned Reinforced Sound Separation

📄 MARS-Sep: Multimodal-Aligned Reinforced Sound Separation #语音分离 #强化学习 #跨模态 #基准测试 ✅ 7.5/10 | 前25% | #语音分离 | #强化学习 | #跨模态 #基准测试 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zihan Zhang(浙江大学) 通讯作者:Tao Jin(浙江大学) 作者列表:Zihan Zhang(浙江大学)、Xize Cheng(浙江大学)、Zhennan Jiang(中国科学院自动化研究所)、Dongjie Fu(浙江大学)、Jingyuan Chen(浙江大学)、Zhou Zhao(浙江大学)、Tao Jin(浙江大学) 💡 毒舌点评 亮点:这篇论文巧妙地将大语言模型对齐的核心思想——基于人类偏好的强化学习(RLHF)——“移植”到了声音分离任务中,并设计了与之匹配的多模态奖励模型和渐进式微调策略,为解决“分离干净但语义不匹配”的“指标困境”提供了新思路。短板:论文在与生成式分离模型(如FlowSep)对比时,虽然指出了自身在指标稳定性上的优势,但在某些语义相似度指标(如CLAP score)上并未全面超越,且声称的“一致性增益”在部分设置(如MUSIC数据集的音频查询)中较为微弱,对方法的普适优势论述可再严谨。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/mars-sep/MARS-Sep。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:使用公开数据集VGGSound和MUSIC,论文中未提及是否发布其预处理后的“clean+”子集。 Demo:提供分离样本在线演示页面:https://mars-sep.github.io/。 复现材料:附录详细给出了训练细节(B部分)、SI-SDR计算(C部分)、RL训练细节(D部分)和所有超参数设置,复现信息充分。 引用的开源项目:依赖ImageBind作为多模态编码器,使用museval工具计算SDR指标。 📌 核心摘要 问题:通用声音分离存在“指标困境”,即模型在优化信噪比(SDR)等信号指标时,可能保留语义上不相关的干扰声,导致输出与用户查询意图不符。 核心方法:本文提出MARS-Sep,一个强化学习(RL)框架。它将声音分离重新定义为随机决策过程:基础分离模型作为“策略”,输出时频掩码;一个经过渐进对齐的多模态编码器作为“奖励模型”,评估分离音频与查询(文本/音频/图像)的语义一致性;通过基于裁剪信任区域的策略优化(类似PPO)来最大化奖励。 创新点:1)首创性地将查询条件声音分离形式化为受多模态奖励引导的RL问题。2)设计了分解Beta分布掩码策略,便于探索与利用的平衡。3)引入渐进式对齐训练,逐步增强ImageBind编码器的跨模态判别能力,为RL提供稳定可靠的奖励信号。 主要实验结果:在VGGSound-clean+和MUSIC-clean+两个数据集上,在文本、音频、图像及组合查询等多种条件下,MARS-Sep相比强基线(如OmniSep, AudioSep)均取得一致提升。例如,在VGGSound-clean+文本查询任务中,MARS-Sep的CLAP分数为9.03±0.94,高于OmniSep的8.98±0.89;SI-SDRi为4.55±0.44,高于OmniSep的4.38±0.48。消融研究证实了RL和渐进对齐策略的各自贡献。 实际意义:该方法能产生语义更准确、听感更干净的声音分离结果,更符合用户意图,有望提升下游任务(如语音识别、内容理解)的性能。 主要局限性:训练过程引入了RL的复杂性,需调优更多超参数(如β分布浓度κ、KL系数λ_KL);奖励模型依赖预训练的ImageBind,其能力上限可能影响最终性能;在部分设置下,与基线的提升幅度有限。 🏗️ 模型架构 MARS-Sep的整体架构(如图1所示)是一个强化学习循环系统,包含三个核心组件:基础策略(策略网络)、奖励模型和优化过程。 图1:MARS-Sep的强化学习循环。分离器从Beta分布策略中生成随机掩码动作,冻结的快照作为旧策略用于稳定优化。多模态奖励(来自音频、文本、视觉嵌入)指导策略更新,熵和KL正则化增强探索和稳定性。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 385 words

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

📄 MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks #基准测试 #多模态模型 #多语言 #模型评估 #语音翻译 🔥 8.0/10 | 前25% | #基准测试 | #多模态模型 | #多语言 #模型评估 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sara Papi(Fondazione Bruno Kessler (FBK)) 通讯作者:未明确说明 作者列表:Sara Papi (FBK), Maike Züfle (Karlsruhe Institute of Technology (KIT)), Marco Gaido (FBK), Beatrice Savoldi (FBK), Danni Liu (KIT), Ioannis Douros (Translated), Luisa Bentivogli (FBK), Jan Niehues (KIT) 💡 毒舌点评 亮点是设计了一个非常全面、平行且高质量的跨语言多模态指令跟随基准,填补了现有评估体系的关键空白;短板在于受限于计算成本,评估的开源模型参数规模普遍偏小(≤20B),且未包含任何闭源前沿商业模型的系统性对比(仅测试了Gemini 2.5 Flash),削弱了对当前技术天花板的揭示能力。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 349 words

Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models

📄 Measuring Audio’s Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models #音频大模型 #强化学习 #数据集 #音频问答 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Haolin He(香港中文大学、蚂蚁集团) 通讯作者:Jian Liu(蚂蚁集团, rex.lj@antgroup.com)、Qiuqiang Kong(香港中文大学, qqkong@ee.cuhk.edu.hk) 作者列表:Haolin He(香港中文大学、蚂蚁集团)、Xingjian Du(罗切斯特大学)、Renhe Sun(蚂蚁集团)、Zheqi Dai(香港中文大学)、Yujia Xiao(香港中文大学)、Mingru Yang(蚂蚁集团)、Jiayi Zhou(蚂蚁集团)、Xiquan Li(上海交通大学)、Zhengxi Liu(香港中文大学)、Zining Liang(香港中文大学)、Chunyat Wu(香港中文大学)、Qianhua He(华南理工大学)、Tan Lee(香港中文大学)、Xie Chen(上海交通大学)、Wei-Long Zheng(上海交通大学)、Weiqiang Wang(蚂蚁集团)、Mark Plumbley(伦敦国王学院)、Jian Liu(蚂蚁集团)、Qiuqiang Kong(香港中文大学) 💡 毒舌点评 亮点在于敏锐地抓住了音频问答模型“偷懒”不听音频的“零音频贡献”问题,并巧妙地将此“缺陷”转化为训练策略设计的依据(Weak-to-Strong),结果亮眼。短板则是整个方法链条严重依赖强大的生成式AI(Qwen3-235B)来构建数据集和进行质量过滤,这多少有点“用魔法打败魔法”,其生成质量的天花板可能直接决定了本方法的天花板。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:论文未提及是否公开本次实验微调后的模型权重。所使用的基础模型(Qwen2.5-Omni)和评估模型(A-Flamingo2, R1-AQA, Kimi-Audio)均为已公开的模型。 数据集:AudioMCQ是本文构建的数据集,论文中描述了构建方法和组成,但未明确提供数据集的公开下载链接或获取方式。 Demo:论文中未提及在线演示。 复现材料:提供了详细的超参数配置表(表6,表7)、训练策略说明、评估提示模板(附录B)和质量验证流程(附录C),复现细节较为充分。 论文中引用的开源项目:Qwen3-235B(用于数据生成)、Qwen2.5-Omni(骨干模型)、A-Flamingo2、R1-AQA、Kimi-Audio(用于ACF评估)、GRPO(训练方法)、DeepSpeed ZeRO-2(优化器)。 开源计划:论文中未提及明确的开源计划。 📌 核心摘要 解决的问题:大型音频语言模型(LALMs)的多阶段后训练(如SFT后接RL)效果不佳,缺乏针对性的高质量数据集,且普遍存在“零音频贡献”现象(模型仅凭文本信息即可答对,无需听音频)。 方法核心:首先构建了大规模音频选择题数据集AudioMCQ(571k样本)。其次,提出音频贡献过滤(ACF)方法,利用多个模型在“静音”输入下的正确率,将数据分为“弱音频贡献”和“强音频贡献”子集。最后,基于此提出两种训练范式:Weak-to-Strong(SFT用弱音频贡献数据,GRPO用强音频贡献数据)和Mixed-to-Strong(SFT用混合数据,GRPO用强音频贡献数据)。 创新性:1) 构建了首个大规模、带思维链注释的音频选择题数据集;2) 系统性地量化并分析了LALMs中的零音频贡献现象及其类型(显式逻辑推理与隐式知识检索);3) 基于音频贡献度提出了简单有效的后训练数据分配策略。 实验结果:使用Weak-to-Strong策略,在MMAU-test-mini和MMAU上分别达到78.2%和75.6%;使用Mixed-to-Strong策略,在MMAR和MMSU上分别达到67.0%和71.7%,均为开源模型SOTA。具体结果见表5及下表: 方法 MMAU-test-mini MMAU MMAR MMSU Weak-to-Strong 78.2% 75.6% 65.3% 69.3% Mixed-to-Strong 76.4% 75.1% 67.0% 71.7% 所有数据 SFT 75.2% 75.0% 64.6% 64.0% 所有数据 GRPO 78.1% 75.4% 63.0% 70.2% GPT4o-Audio (基线) 62.5% 60.8% 63.5% 56.4% 实际意义:为音频大模型后训练提供了可复现的数据构建方案和高效的数据分配策略,揭示了当前评估基准中可能存在的“伪音频理解”问题。 主要局限性:数据集构建完全依赖一个强大的大语言模型(Qwen3-235B),可能引入偏差;ACF方法依赖三个特定的现成模型;Weak-to-Strong范式在MMAR/MMSU上弱于Mixed-to-Strong,表明其普适性有待验证。 🏗️ 模型架构 本文不提出新的模型架构,而是以现有的 Qwen2.5-Omni 作为基础模型进行后训练。其核心贡献在于数据构建与训练策略。因此,其“架构”体现在数据处理与训练流程上。 图1展示了AudioMCQ数据集的构建流程。流程始于多个音频描述/问答数据集,经过问题生成、选择题构建、结构化与非结构化思维链生成,以及最后的质量评分与过滤。这是一个多阶段、依赖LLM的生成与筛选管线,最终产出高质量的选择题数据集。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 284 words

MIAM: Modality Imbalance-Aware Masking for Multimodal Ecological Applications

📄 MIAM: Modality Imbalance-Aware Masking for Multimodal Ecological Applications #多模态模型 #掩码策略 #物种分布建模 #多模态物种分类 #生态学 ✅ 7.5/10 | 前25% | #物种分布建模 | #掩码策略 | #多模态模型 #多模态物种分类 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Robin Zbinden, Wesley Monteith-Finas(*表示同等贡献)(瑞士洛桑联邦理工学院 - EPFL) 通讯作者:Robin Zbinden(robin.zbinden@epfl.ch)(瑞士洛桑联邦理工学院 - EPFL) 作者列表:Robin Zbinden(瑞士洛桑联邦理工学院 - EPFL), Wesley Monteith-Finas(瑞士洛桑联邦理工学院 - EPFL), Gencer Sumbul(瑞士洛桑联邦理工学院 - EPFL), Nina van Tiel(瑞士洛桑联邦理工学院 - EPFL), Chiara Vanalli(瑞士洛桑联邦理工学院 - EPFL), Devis Tuia(瑞士洛桑联邦理工学院 - EPFL) 💡 毒舌点评 亮点: 论文提出了一个原则性的掩码策略设计框架(完整支持、角落优先、不平衡感知),并通过数学公式化(混合乘积Beta分布)优雅地实现了这一点,有效解决了多模态学习中的模态不平衡问题,为生态学等数据不完整场景提供了强大的工具。 短板: 方法在相对简单的双模态数据集(SatBird)上优势不明显,表明其主要价值体现在模态数量多且存在显著不平衡的复杂场景;动态调整机制引入了额外的超参数(λ, κ)和基于验证集性能的在线调整,可能增加实际应用中的调参负担和训练不稳定性。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 275 words

MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment

📄 MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment #多模态模型 #音频检索 #对比学习 #自监督学习 🔥 8.5/10 | 前25% | #音频检索 | #多模态模型 | #对比学习 #自监督学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Rui Liu(香港理工大学) 通讯作者:Jibin Wu(香港理工大学) 作者列表:Rui Liu(香港理工大学)、Zhige Chen(香港理工大学)、Shu Peng(香港理工大学)、Wenlong You(香港理工大学)、Zhi-An Huang(香港城市大学(东莞))、Jibin Wu(香港理工大学)、Kay Chen Tan(香港理工大学) 💡 毒舌点评 本文的核心创新“跨模态低秩对齐”(CALRA)模块设计得颇为精巧,通过类型感知、双向注意力与低秩融合的协同,确实实现了EEG与音频深度对齐,实验上也展示了“碾压式”的性能优势。然而,论文将几乎所有功劳归于这个对齐模块和多模态预训练,却轻描淡写地忽略了其巨大的模型规模(97M参数,是多数EEG基线模型的数十倍)和对高质量配对数据的强依赖,这些在现实部署中都是沉重的负担。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/CookieMikeLiu/MindMix。 模型权重:论文中未明确提及是否公开预训练或微调后的模型权重。 数据集:所有使用的数据集均为公开数据集,论文详细列出了各数据集的名称和来源。 Demo:论文中未提及提供在线演示。 复现材料:提供了详尽的训练细节、超参数配置(Table A2)、分阶段的训练策略说明、评估指标定义以及数据预处理流程,复现材料非常充分。 论文中引用的开源项目:使用了预训练的Wav2Vec 2.0模型作为音频编码器,并引用了PyTorch等深度学习框架。 📌 核心摘要 解决的问题:现有EEG基础模型(如EEGPT, LaBraM)在听觉解码任务上表现不佳,因其为单模态预训练,缺乏与听觉刺激信息的深度耦合,导致泛化能力受限。 方法核心:提出MindMix,一个两阶段的多模态基础模型。第一阶段,在大规模EEG数据上预训练一个高容量的EEG编码器。第二阶段,利用一个新颖的“跨注意力低秩对齐”(CALRA)模块,在配对的EEG-音频数据上通过对比学习,学习深度对齐的神经-声学表示。 创新之处:这是首个专为学习精细对齐的神经-声学表示而设计的多模态基础模型。核心创新是CALRA模块,它超越了简单的投影对齐,通过类型特定对齐器、双向交叉注意力和共享低秩瓶颈融合,实现了模态间的深度交互。 实验结果:MindMix在多个听觉解码任务上大幅超越所有基线。在语音注意力解码(KUL数据集)上平衡准确率高达99.82%,最强基线DARNet为94.81%。在情感分析(HR-EEG4EMO数据集)上达到88.78%,比LaBraM高近16个百分点。关键对比数据如下表所示: 任务 数据集 方法 平衡准确率 加权F1分数 语音注意力解码 KUL DARNet 0.9481 ± 0.036 0.9567 ± 0.025 语音注意力解码 KUL MindMix 0.9982 ± 0.008 0.9991 ± 0.004 情感分析 HR-EEG4EMO LaBraM 0.7295 ± 0.082 0.7829 ± 0.081 情感分析 HR-EEG4EMO MindMix 0.8878 ± 0.045 0.8869 ± 0.046 音乐检索 MAD-EEG CBraMod 0.8011 (Duo Acc.) 0.7654 (Trio Acc.) 音乐检索 MAD-EEG MindMix 0.9475 (Duo Acc.) 0.8824 (Trio Acc.) 实际意义:为非侵入式听觉脑机接口和跨模态神经解码建立了强大的基准,推动了从“信号处理”到“神经-声学语义对齐”的研究范式转变。 主要局限性:论文明确指出,当前大规模配对EEG-音频数据的稀缺是制约该领域发展的首要瓶颈,也限制了对模型扩展规律的研究。 🏗️ 模型架构 MindMix采用双流架构,包含EEG编码器、音频编码器和跨模态对齐模块,最终通过对比学习目标进行端到端优化。 ...

2026-05-02 · 更新于 2026-05-21 · 3 min · 459 words

MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark

📄 MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark #基准测试 #数据集 #语音问答 #模型评估 #模型比较 🔥 8.5/10 | 前25% | #语音问答 | #模型评估 | #基准测试 #数据集 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Dingdong WANG(香港中文大学) 通讯作者:未说明(论文未明确指定通讯作者;通讯邮箱为第一作者邮箱:dingdongwang@link.cuhk.edu.hk) 作者列表:Dingdong WANG (香港中文大学), Junan Li (香港中文大学), Jincenzi Wu (香港中文大学), Dongchao Yang (香港中文大学), Xueyuan Chen (香港中文大学), Tianhua Zhang (香港中文大学), Helen M. Meng (香港中文大学) 💡 毒舌点评 亮点:该工作像一位严谨的语言学教授,为“只会听个响”的语音大模型们精心设计了一场覆盖音素、韵律、修辞等全方位的“期末统考”,诊断出当前模型普遍存在的“语音学文盲”和“韵律感知障碍”,指明了未来训练的重点补课方向。 短板:考试形式局限于“单选题”,虽然高效,但无法评估模型在真实对话中灵活运用这些能力进行生成或交互的水平,有点“高分低能”的潜在风险。 🔗 开源详情 代码:论文中未提及代码仓库链接。评估用的脚本或提示词模板未开源。 模型权重:未提及。论文评估了多个现有模型,但未提供任何自己训练的模型。 数据集:公开。论文明确提供了数据集获取链接:https://huggingface.co/datasets/ddwang2000/MMSU。 Demo:未提及。 复现材料:论文在附录中详细说明了数据构建过程(自定义录音、人工审核)、任务定义、任务示例、错误案例分析以及使用的GPT提示词。这为理解基准构建和部分复现提供了丰富信息,但完整的评估流程复现仍需额外工作。 论文中引用的开源项目:论文依赖并引用了多个开源数据集和模型,包括:CommonVoice, MELD, GigaSpeech, Switchboard, SLURP, SEAME, Fake-or-Real, RAVDESS, CoVoST 2, EDACC, VCTK, CHILDES, LogicBench等(完整列表见附录B)。评估的模型包括BLSP, Qwen-Audio, Kimi-Audio, Gemini, GPT-4o-Audio等众多开源和闭源SpeechLLMs。 📌 核心摘要 问题:当前语音大模型(SpeechLLMs)的评估基准普遍存在三大缺陷:日常语音现象(如不流畅、语调变化、重音)覆盖不足、过度依赖合成语音导致不真实、以及评估设计缺乏语言学理论基础。这导致无法全面、真实地评估模型对语音的深层理解能力。 方法核心:本文提出了MMSU,一个全新的、基于语言学理论的语音理解与推理基准。它系统性地整合了语音学、韵律学、修辞学、句法学、语义学和副语言学等理论,构建了包含感知(24个任务) 和推理(23个任务) 两大维度、共计47个任务的评估框架。数据包含5000个精心设计的音频-问题-答案三元组。 创新与对比:与之前基准(如VoiceBench, ADU-Bench, MMAU)相比,MMSU的新颖之处在于:(a) 理论驱动:首次系统性地将语言学原理融入任务设计;(b) 全面覆盖:涵盖了前所未有的语音现象广度(从音素辨析到双关语理解);(c) 数据真实性:主要采用真实世界录音(76.74%开源数据,13.44%专业录制),仅少量使用TTS补充。 实验结果:论文对22个先进的SpeechLLMs和OmniLLMs进行了评估。关键结果如下表所示(数据摘自论文表3): 模型 类别 大小 感知准确率(%) 推理准确率(%) 总体平均准确率(%) Human 人类基线 - 91.24 86.77 89.72 Gemini-1.5-Pro 闭源 - 46.10 76.16 60.68 Qwen2.5-Omni-7B 开源 7B 42.50 79.83 60.57 Kimi-Audio 开源 7B 43.52 76.03 59.28 GPT-4o-Audio 闭源 - 39.67 71.96 56.38 * 人类表现(89.72%)远超所有模型,最优模型Gemini-1.5-Pro(60.68%)与其存在近30%的差距,凸显了任务的挑战性。 * 开源模型(如Qwen2.5-Omni-7B)性能已接近甚至超越部分闭源模型(如GPT-4o-Audio)。 * 关键发现:模型在感知任务(尤其是音系学相关任务)上表现普遍较差,与人类“推理难于感知”的认知模式相反;噪声注入后性能下降轻微,证明模型确实在使用音频信号。图5展示了模型在噪声条件下的鲁棒性对比。 实际意义:MMSU为社区提供了一个标准化、高难度的“体检工具”,能有效诊断出当前SpeechLLMs在精细语音感知和复杂语义推理上的短板(特别是音系处理能力),为下一代更类人的语音交互模型研发指明了优化方向。 主要局限性:a) 基准主要覆盖英语和中英混合语音,对其他语言的评估能力未体现;b) 评估形式为固定选项的多选题,可能无法完全反映模型开放式生成或对话中的理解能力;c) 尽管追求真实,数据中仍有9.82%的合成语音。 🏗️ 模型架构 本文提出的是基准测试(Benchmark),而非一个新的模型。因此,其“架构”指的是基准本身的层级结构设计。 MMSU的架构设计是一个三层的树状分类体系,旨在系统性地评估语音理解能力: ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 229 words

Music Flamingo: Scaling Music Understanding in Audio Language Models

📄 Music Flamingo: Scaling Music Understanding in Audio Language Models #音乐理解 #强化学习 #数据集 🔥 8.5/10 | 前25% | #音乐理解 | #强化学习 | #数据集 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 +0.5 | 置信度 高 👥 作者与机构 第一作者:Sreyan Ghosh (NVIDIA, USA; University of Maryland, College Park, USA) 与 Arushi Goel (NVIDIA, USA) 共同第一作者 通讯作者:未明确指定,但提供了联系邮箱 sreyang@umd.edu, arushig@nvidia.com 作者列表:Sreyan Ghosh (NVIDIA, University of Maryland), Arushi Goel (NVIDIA), Lasha Koroshinadze (University of Maryland), Sang-gil Lee (NVIDIA), Zhifeng Kong (NVIDIA), Joao Felipe Santos (NVIDIA), Ramani Duraiswami (University of Maryland), Dinesh Manocha (University of Maryland), Wei Ping (NVIDIA), Mohammad Shoeybi (NVIDIA), Bryan Catanzaro (NVIDIA) 💡 毒舌点评 本文档堪称“音乐理解大模型”的系统性工程手册,从数据构建、模型增强到推理训练全流程拉满,最终在多个榜单刷出SOTA,证明了其有效性。然而,其核心创新更多是针对垂直领域(音乐)的“特化”与“整合”(构建新数据集、改进训练流程),在基础模型架构或训练原理上并未提出颠覆性的新思想,更像是为特定应用打造的“精装套件”,而非一个通用的方法论突破。 ...

2026-05-02 · 更新于 2026-05-21 · 3 min · 495 words

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching #多模态模型 #流匹配 #音频生成 #语音对话系统 🔥 8.5/10 | 前25% | #多模态模型 | #流匹配 | #音频生成 #语音对话系统 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Run Luo(中国科学院深圳先进技术研究院,中国科学院大学) 通讯作者:Xiaobo Xia(新加坡国立大学,中国科学技术大学);Min Yang(中国科学院深圳先进技术研究院,深圳大学先进技术研究院) 作者列表:Run Luo(中国科学院深圳先进技术研究院,中国科学院大学)、Xiaobo Xia(新加坡国立大学,中国科学技术大学)、Lu Wang(Rtizz-AI)、Longze Chen(中国科学院深圳先进技术研究院,中国科学院大学)、Renke Shan(Rtizz-AI)、Jing Luo(中国科学院深圳先进技术研究院,中国科学院大学)、Min Yang(中国科学院深圳先进技术研究院,深圳大学先进技术研究院)、Tat-Seng Chua(新加坡国立大学) 💡 毒舌点评 亮点在于其架构的简洁与统一性,用单一DFM骨干取代了常见的AR+Diffusion混合或解耦设计,这在处理需要深度融合的多模态检索任务时确实显示出优势,实验也验证了这一点。短板则受限于“论文中未说明”训练硬件的具体规格和训练总时长,且其核心贡献——DFM在统一建模上的潜力——受限于仅7B的参数规模,大规模Scaling下的表现未知,使得“下一代范式”的论断稍显仓促。 🔗 开源详情 代码:是,提供了GitHub仓库链接:https://github.com/ritzz-ai/Next-OMNI 模型权重:是,论文明确提到“开源”模型检查点,并提供了链接。 数据集:部分公开。论文中使用的大部分数据集为公开数据集(如LAION, LibriSpeech等),但也包含“私有数据”。论文未提供统一的训练数据下载链接,但详细列出了数据来源和构成(表8)。 Demo:论文中未提及在线演示。 复现材料:非常充分。附录中提供了模型设计细节(D)、数据策展详情(E)、训练配方(F,表9)和额外的实验与可视化结果(G, H, I)。 论文中引用的开源项目:主要包括:Qwen2.5系列(骨干/对齐损失)、CLIP-ViT(视觉编码器初始化)、Whisper(音频编码器初始化)、FLUX(图像生成数据合成)、MMEvol(指令数据增强)、以及训练数据相关的多个公开数据集工具(如LAION, Common Crawl)。 📌 核心摘要 本文旨在解决现有统一多模态模型在理解和生成任务间存在固有冲突、架构冗余(混合/解耦设计)导致难以支持跨模态检索等更通用场景的问题。核心方法是提出NExT-OMNI,首个完全基于离散流匹配(DFM)的开源全能态基础模型。与已有的自回归或混合架构相比,其新在:1)完全摒弃自回归范式,采用DFM进行并行去噪,原生支持双向信息融合;2)设计了带有重建损失的统一表征编码器,为生成、理解和检索任务提供一体化特征;3)引入动态长度生成策略和自适应缓存机制以提升效率。主要实验结果如下:在全能态理解基准(OmniBench, WorldSense, AV-Odyssey)上,平均得分39.7,优于OpenOmni(36.5);在多轮视觉交互(OpenING)上,平均分55.0,显著高于前代模型;在多模态检索(MMEBEDIR子集)上,平均Top-5准确率32.9,优于所有对比模型(MMaDA为31.8);在语音交互(Spoken QA)上取得有竞争力的结果。实际意义在于,它为构建更统一、高效的全能态基础模型提供了一个有前景的新范式。主要局限性在于,受限于计算资源,模型仅在7B规模上训练和验证,其在大规模下的潜力尚未证明。 ...

2026-05-02 · 更新于 2026-05-21 · 2 min · 248 words