多模态模型

Benchmarking Single-Factor Physical Video-to-Audio Generation

📄 Benchmarking Single-Factor Physical Video-to-Audio Generation #音频生成 #多模态模型 🔥 9/10 | 前25% | #音频生成 | #多模态模型 | arxiv 学术质量 6.4/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度高 👥 作者与机构作者：Tingle Li (UC Berkeley, NVIDIA), Siddharth Gururani (NVIDIA), Kevin J. Shih (NVIDIA), Gantavya Bhatt (University of Washington), Sang-gil Lee (NVIDIA), Zhifeng Kong (NVIDIA), Arushi Goel (NVIDIA), Gopala Anumanchipalli (UC Berkeley), Ming-Yu Liu (NVIDIA)。注意：Tingle Li, Siddharth Gururani, Kevin J. Shih 为共同第一作者（Equal contribution）。机构：UC Berkeley, NVIDIA, University of Washington。项目主页：https://research.nvidia.com/labs/cosmos-lab/flatsounds/ ...

COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings

📄 COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings #多模态模型 #对比学习 ✅ 6.5/10 | 前50% | #音频检索 | #对比学习 | #多模态模型 | arxiv 学术质量 5/7 | 影响力 1/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构论文标题：COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings 作者：Yonggang Zhu, Liting Gao, Aidong Men, Wenwu Wang 机构：北京邮电大学人工智能学院英国萨里大学视觉、语音与信号处理中心 (CVSSP) 通讯作者：Wenwu Wang 资助信息：China Scholarship Council (202506470003) 💡 毒舌点评这篇论文试图为CLAP模型中已知的模态间隙问题提供一个新的“概念分解”视角，并由此提出一个无训练的嵌入压缩方法PLSHead。优点在于它整合分析了嵌入空间结构、相似性计算机制和现有投影解码方法，理论推导有一定新意。然而，作为一篇顶会投稿，其“创新性”需要打折扣：1）核心工具PLS-SVD是成熟的统计方法，其在CLAP上的应用属于工程组合；2）提出的PLSHead方法本质是启发式的截断，关键参数K的选择缺乏理论指导；3）实验部分大量篇幅复现和比较已有的投影解码（PD）方法，并宣称其PLSHead可“替代”PD，但实际上在零样本字幕任务中并未显著超越使用完整记忆库的PD。此外，论文声称“首次提出统一的概念分解框架”，但相关工作列举了多种多模态嵌入分解方法（如SpLiCE, CCA+匹配），对“首次”的claim需更严谨。总体而言，工作扎实但突破性有限，更像是一篇细致的分析性文章。 ...

Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions

📄 Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions #联邦学习 #数据增强 #多模态模型 #音频分类 🔥 8.5/10 | 前25% | #音频分类 | #联邦学习 | #数据增强 #多模态模型 | arxiv 学术质量 5.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度中 👥 作者与机构未提及论文作者和机构信息。 💡 毒舌点评这篇论文试图解决一个实际且重要的问题——呼吸声分类模型在跨听诊器设备时的性能下降，并提出了一个包含因果干预、反事实文本增强和梯度对齐的联邦学习框架（BTS-CAFE）。其核心动机（打破设备风格与病理内容的虚假关联）是合理的。然而，评审感觉论文在几个关键方面存在不足：1) “首次提出”的声明过于绝对，对相关工作的综述和定位不够严谨；2) 实验设置虽模拟了联邦场景，但“单客户端”的评估与实际大规模联邦应用存在差距；3) 作者声称的“最佳”性能有时仅比次优方法高零点几，统计显著性存疑；4) 讨论部分对局限性的挖掘流于表面，未深入探讨方法在更复杂异质场景下的潜在失效模式。总体而言，这是一份扎实的工作，但在深度和说服力上仍有提升空间。 📌 核心摘要本文针对呼吸声分类（RSC）模型因听诊器设备异质性导致的分布偏移问题，提出了一个联邦域泛化（FedDG）框架BTS-CAFE。其核心观察是，听诊器特有的设备风格（S）与疾病相关内容（C）在表征中高度纠缠，传统的确定性风格移除方法会损害病理信息。为此，BTS-CAFE集成了三个关键组件：1）因果启发式的生成式设备风格干预网络（GIN），通过可控的增益、随机分组卷积和频率掩码进行内容保持的风格扰动，近似于因果干预 do(S)；2）反事实文本增强，中和文本元数据中可能携带的设备捷径；3）基于单样本全模型梯度的对齐正则化，鼓励跨客户端的设备不变决策边界。基于CLAP多模态预训练模型，该方法在ICBHI和SPRSound数据集的“留一设备外”（LODO）联邦验证设置下，相比传统数据增强和联邦学习基线，在域外（OOD）性能上取得了一致的提升。 🔗 开源详情代码：论文中未提及具体代码仓库链接。文中明确声明“Code will be released upon publication”。模型权重：未提及。数据集： ICBHI：论文引用了原始数据集 [24]，但未提供获取链接。通常可通过PhysioNet获取。 SPRSound：论文引用了数据集 [30]，未提供获取链接。 Demo：未提及。复现材料：提供了关键训练配置（学习率、轮次、硬件）、评估协议（LODO, Score指标）和超参数。但未提供模型权重或完整代码包。论文中引用的开源项目： CLAP：提供了HuggingFace链接 https://huggingface.co/laion/clap。 AST, BTS, FedAvg, FedSR, FedIIR, PromptFL, FedCAug, CutMix, Mixup, RepAugment, SpecAugment：仅提供了文献引用，未提供代码仓库链接。 🏗️ 方法概述和架构 BTS-CAFE框架构建在BTS多模态音频-语言预训练模型之上，旨在解决联邦学习（FL）场景下，由客户端（每个客户端使用单一听诊器设备）异质性引起的域偏移问题。其核心思想是，通过因果启发式的干预和正则化，使全局模型学习与设备风格S无关、只依赖疾病内容C的表征，从而泛化至未见设备d⋆。整个框架包含以下三个核心组件，它们在本地训练循环中协同作用： ...

MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs

📄 MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs #音乐生成 #音频问答 #强化学习 #多模态模型 #参数高效微调 ✅ 7.5/10 | 前50% | #音乐生成 | #强化学习 | #音频问答 #多模态模型 | arxiv 学术质量 4.9/7 | 影响力 1.8/2 | 可复现性 0.8/2 | 置信度中 👥 作者与机构作者：Daeyoung Kwon, Qiyu Wu, Shinobu Kuriya, Junghyun Koo, Shuyang Cui, Zhi Zhong, Wei-Hsiang Liao, Hiromi Wakaki, Yuki Mitsufuji 机构：首尔大学，索尼集团，索尼AI 💡 毒舌点评这篇工作像一位认真但略显保守的工程师：它发现了一个重要的问题（音乐LLM缺乏时序定位能力），并搭建了一套完整、系统但不够性感的解决方案（构建基准+提出四阶段训练流程）。优点是踏实、全面，消融实验做得像实验报告一样工整。缺点是缺乏令人眼前一亮的“啊哈”时刻：MusTBench的构建严重依赖自动化的、可能存在噪声的管道（用模型预测边界和情绪），这让人对其“专家验证”的成色打个折扣；提出的MusT训练流程本质上是现有技术（LoRA、时间戳描述、SFT、GRPO）在音乐时序任务上的有序组合，创新性有限。最令人不满的是，对于一篇强调“时序定位”重要性的论文，竟然完全没有提供模型计算开销（训练/推理时间、显存）的数据，这在实际应用中是关键考量。此外，强化学习部分使用的奖励函数设计（指数衰减、软F1）参数（如15秒尺度、σ=15）的选择缺乏理论或充分消融支撑，显得有些“拍脑袋”。总的来说，这是一篇扎实的系统性工作，但未能将问题的重要性与解决方案的独创性匹配起来。 📌 核心摘要本文针对当前大型音频语言模型（LALMs）在音乐理解中缺乏精确时序定位能力的问题，做出了三项贡献：1）识别并明确了“音乐时序定位”这一关键能力缺失；2）提出了MusTBench，一个由音乐专家验证的、包含五个时序定位问答任务的基准；3）提出了MusT，一个包含编码器适应、LLM适应、监督微调和强化学习优化的四阶段训练流程，有效提升了模型的时序定位性能。 🔗 开源详情代码：论文在摘要结尾提及“Code and benchmark data will be available soon”，但未提供任何具体的代码仓库链接（如GitHub）。模型权重：论文未提及任何已发布的模型权重下载链接或HuggingFace/ModelScope页面。数据集：论文详细描述了“MusTBench”基准的构建过程，但正文中仅指出其数据“will be available soon”，未提供具体的下载链接、托管平台或开源协议。 Demo：论文中未提及。复现材料：论文在附录（§A.4和§A.5.2）提供了详细的训练配置和超参数表格（Table 11），包括各阶段的学习率、批大小、训练数据量、LoRA设置等。此外，附录包含具体的实现细节（如动态采样、损失函数、奖励函数公式）。但这些材料无法替代缺失的代码和数据集。论文中引用的开源项目： MERT (音频编码器)：论文引用 Li et al. (2024)，未提供直接项目链接。 LoRA (高效微调)：论文引用 Hu et al. (2022)，未提供直接项目链接。 Qwen2.5 Omni (基础模型)：论文引用 Xu et al. (2025)，未提供直接项目链接。其他工具与数据集：论文提及使用了 librosa, madmom, Essentia (音频分析库)以及 Slakh2100, MTG-Jamendo, OpenMIC-2018, MusicCaps (数据集)，但均未提供具体版本或获取链接。 🏗️ 方法概述和架构本文提出的MusT模型是基于Qwen2.5 Omni架构的扩展。其核心设计是引入了一个新的“时序感知音乐编码器”（MusT encoder）与原有的Qwen音频编码器构成双编码器系统，并通过一个四阶段训练流程来系统性地增强模型的时序定位能力。架构与流程如下： ...

Native Audio-Visual Alignment for Generation

📄 Native Audio-Visual Alignment for Generation #音频生成 #多模态模型 #扩散模型 ✅ 7.8/10 | 前50% | #音频生成 | #多模态模型 | #扩散模型 | arxiv 学术质量 8.0/7 | 影响力 7.0/2 | 可复现性 0.2/2 | 置信度高 👥 作者与机构作者：Longbin Ji, Guan Wang, Xuan Wei, Chenye Yang, Xiangrui Liu, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Jingzhou He 单位：ERNIE Team, Baidu Inc. 💡 毒舌点评这篇论文的工作是扎实的，但在某些关键细节的阐述上如同雾里看花。所谓“原生对齐”和“上下文条件解耦”听起来很美，但具体的模态交互机制（自注意力的具体实现、位置编码的细节）和“对齐”是如何通过优化目标学习到的，描述得不够透明，这让方法的可复现性和理论深度打了折扣。评估部分，尽管指标全面，但自家提出的指标（如IB-Score）和自家模型拿最优，而通用指标（如FD）并非最佳，这种选择性最优需要更审慎的解读。此外，声称“显著优于”基线，但在部分关键指标（如TI2AV任务下的总体质量）上优势并不明显，结论稍显强势。开源方面，除了一个项目主页，代码、权重、数据均未见踪影，这对于一篇声称复现重要性的论文来说是重大减分项。总体而言，这是一篇工程完成度高、有一定启发性的工作，但距离“完美”或“无可辩驳的优越”还有距离，其“严苛”之处在于对技术黑箱和评估话术的审视。 📌 核心摘要本文针对音视频联合生成中同步性与语义条件控制耦合的问题，提出了NAVA（Native Audio-Visual Alignment）框架。该框架的核心思想是将音频-视频的同步对齐与外部文本/音色条件的注入解耦：首先在一个专用的“对齐空间”内让音频和视频令牌通过自注意力交互，建立原生的事件级对应关系；随后，通过交叉注意力注入文本和音色等上下文条件，指导去噪过程。这一解耦由“Align-then-Fuse MMDiT”架构实现，前10层为分层对齐层（HAL），后20层为统一融合层（UFL）。为实现可控的多说话人生成，论文提出了“Timbre-in-Context Conditioning”机制，将参考音色表示为上下文令牌并绑定到对应的语音片段。训练采用三阶段渐进式多任务策略。实验在Verse-Bench和Seed-TTS基准上进行，结果表明，NAVA以6.3B参数在音视频同步性（Sync-C）和视频质量（IB-Score）上达到了最优水平，并在音色控制任务中取得了最佳的说话人相似度，同时保持了有竞争力的音频质量。 🔗 开源详情代码：论文中未提供代码仓库链接。仅给出项目主页 ernie-research.github.io/NAVA，通常此类主页会链接到代码，但当前页面未直接提供开源代码地址。模型权重：论文中未提供模型权重的下载链接。虽提及从Wan2.2-5B初始化，但未说明Wan2.2系列模型的具体获取方式。数据集：论文中未提供训练数据集的下载链接。详细描述了构建约1500万片段的训练语料库的流程，但未提供这些数据的公开获取地址。复现材料：附录详细描述了数据构建流程、数据统计信息、提示词工程模板以及训练基础设施与成本（约107，520 H100 GPU小时）。但未提供具体的训练超参数配置文件、中间检查点或最终模型的下载。 🏗️ 方法概述和架构 NAVA框架旨在实现“原生音视频对齐”（Native Audio-Visual Alignment），即在生成过程中直接建立音频和视频的同步对应，同时将外部条件（如文本、音色）作为独立于同步过程的引导信号。 ...

OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

📄 OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants #多模态模型 #基准测试 #语音识别 #语音合成 ✅ 7.8/10 | 前50% | #语音识别 | #多模态模型 | #基准测试 #语音合成 | arxiv 学术质量 4.9/7 | 影响力 1.2/2 | 可复现性 1.7/2 | 置信度高 👥 作者与机构作者：Xudong Lu, Xueying Li, Annan Wang, Yang Bo, Jinpeng Chen, Zengliang Li, Nianzu Yang, Rui Liu, Xue Yang, Jingwen Hou, Hongsheng Li 机构：CUHK MMLab (香港中文大学多媒体实验室), SJTU (上海交通大学), NTU (南洋理工大学), McMaster (麦克马斯特大学), CityUHK (香港城市大学), JUFE (江西财经大学) ...

State-Anchored Complete-View Distillation for Robust Conversational Multimodal Emotion Recognition

📄 State-Anchored Complete-View Distillation for Robust Conversational Multimodal Emotion Recognition #语音情感识别 #多模态模型 #知识蒸馏 🔥 8/10 | 前50% | #语音情感识别 | #知识蒸馏 | #多模态模型 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构作者：Zhaoyan Pan, Xiangdong Li, Wenke Wu*, Mengting Ma, Ye Lou, Ji Zhou, Jiatong Pan, Wei Zhang† 机构：1 浙江大学软件技术学院，2 浙江大学计算机科学与技术学院表示同等贡献，† 表示通讯作者。 💡 毒舌点评这篇论文的工作是扎实的，但包装得过于完美，以至于一些内在的脆弱性被精心掩盖了。作者提出的“高斯启发状态”像是在概率模型和确定性匹配之间走钢丝，理论根基略显模糊。NCE组件用batch内的“捐赠者”来模拟现实世界中复杂多变的非语言冲突，这种简化虽然聪明，但也像是在用理想化的实验室条件去预测混沌的真实对话场景。整篇论文的“贡献”部分像一份完美的产品说明书，但审稿人需要的是对科学发现本质的探讨，而不仅仅是功能的罗列。实验很全面，但当一个方法在所有指标上都“显著”优于基线时，我们更应该警惕这是否是实验设计或评估指标本身的局限，而非方法的绝对优越性。成本效益分析的缺失也让人质疑，在资源敏感的应用中，这额外的183%训练成本是否真的值得。 📌 核心摘要本文针对对话多模态情感识别（MER）在模态缺失或不可靠场景下的鲁棒性问题，提出了一个名为CoRe-KD（完整视图参考引导的知识蒸馏）的新框架。核心思想是避免对缺失模态进行直接重建，而是利用一个在完整视图数据上训练并冻结的教师模型，为学生模型提供结构化的参考信号。该框架包含两个关键组件：1）完整视图状态锚定（CSA），通过预测层、融合状态层和模态特定状态层三个层级的对齐，将学生模型的不完整视图预测和状态与教师参考进行匹配；2）非语言冲突暴露（NCE），在训练时构造保持目标标签但替换非语言模态的冲突视图，以增强模型对误导性非语言线索的鲁棒性。在IEMOCAP（4类和6类）、MELD-7数据集上的实验，以及CMU-MOSEI上的补充检查表明，CoRe-KD在固定缺失和随机缺失协议下均显著优于现有的重建、蒸馏和适配等基线方法。消融研究验证了CSA和NCE各组件的贡献。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文使用了以下公开基准数据集，并说明了获取方式： IEMOCAP：通过官方申请程序获取，仅用于许可的学术研究。链接：https://www.sci.usc.edu/software/iemocap/ MELD：公开发布的研究基准。链接：https://github.com/declare-lab/MELD CMU-MOSEI：公开发布的研究基准。链接：https://github.com/CMU-MultiComp/CMU-MultimodalSDK Demo：论文中未提及。复现材料：论文在附录中提供了详细的复现信息，包括：实验设置与协议：详见附录A，包括数据集划分（表A.1）、特征维度（表A.2）、缺失模态评估协议、训练视角构建和非冲突视角构建。超参数与优化：详见附录A.6，优化器为Adam，学习率为\(1e-5\)，权重衰减\(1e-5\)，批大小16。IEMOCAP和MELD训练150个epoch，CMU-MOSEI训练100个epoch。KD温度\(\tau=2\)，损失权重\(\lambda_{\text{kd}}=1.0, \lambda_{\text{state}}=0.5, \lambda_{\text{mstate}}=0.5, \lambda_{\text{NCE}}=1.0\)。NCE视角采样概率为0.2。教师模型架构：详见附录C，包括完整的Transformer编码器结构、高斯启发状态头实现（式C.1-C.12）和PoE融合公式。基线公平性控制：详见附录B，说明了复现设置、特征和教师控制以及训练稳定性（表B.1）。硬件环境：所有实验在四块NVIDIA RTX A5000 24GB GPU上运行。推理：推理时仅使用学生模型，教师模型和训练组件被丢弃。论文中引用的开源项目： openSMILE：用于提取声学特征。论文链接：https://ieeexplore.ieee.org/document/5745357 RoBERTa：用于提取文本特征。论文链接：https://arxiv.org/abs/1907.11692 DenseNet：用于提取视觉特征。论文链接：https://arxiv.org/abs/1608.06993 data2vec：用于MELD声学特征提取。论文链接：https://arxiv.org/abs/2202.03555 TimeSformer：用于MELD视觉特征提取。论文链接：https://arxiv.org/abs/2102.05095 Wav2Vec：用于CMU-MOSEI声学特征提取。论文链接：https://arxiv.org/abs/2006.11477 DeBERTa：用于CMU-MOSEI文本特征提取。论文链接：https://arxiv.org/abs/2006.03650 MA-Net：用于CMU-MOSEI视觉特征提取。论文链接：https://arxiv.org/abs/2104.14200 MulT：作为教师骨架之一。论文链接：https://arxiv.org/abs/1905.09283 MISA：作为教师骨架之一。论文链接：https://arxiv.org/abs/2002.09854 Corr-KD：作为对比基线。论文链接：https://arxiv.org/abs/2405.11685 MoMKE：作为对比基线。论文链接：https://arxiv.org/abs/2401.11938 MCULoRA：作为对比基线。论文链接：https://arxiv.org/abs/2502.13076 ComP：作为对比基线。论文链接：https://arxiv.org/abs/2506.01573 IMDer：作为对比基线。论文链接：https://arxiv.org/abs/2312.15040 LNLN：作为对比基线。论文链接：https://arxiv.org/abs/2407.01474 🏗️ 方法概述和架构本文提出的CoRe-KD框架采用教师-学生架构进行训练，旨在提升对话多模态情感识别模型在模态缺失条件下的鲁棒性。其核心流程与组件如下： ...

VideoFDB: Evaluating Full-Duplex Vision-Speech Capabilities in Conversational Agents

📄 VideoFDB: Evaluating Full-Duplex Vision-Speech Capabilities in Conversational Agents #语音合成 #语音识别 #多模态模型 ✅ 7.9/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 | arxiv 学术质量 5.9/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构 Amrita Mazumdar, Seonwook Park, Rajarshi Roy, Nikhil Srihari, Shengze Wang, Yuhao Zhou, Julia Wang, Koki Nagano, Shalini De Mello. 机构：NVIDIA, David AI. 论文为arXiv预印本（ID: 2605.30256），未说明投稿会议。 💡 毒舌点评这篇论文做了一件“正确但不够性感”的事：它为新兴的全双工音视觉对话代理领域建立了一个急需的评估基准。这就像给一群刚学会跑的婴儿做体能测试——很有必要，但别指望能测出马拉松冠军。其核心贡献在于“定义问题”而非“解决问题”，这在学术上是合法的，但也意味着其影响力上限在论文发表时就已被锁定。实验设计严谨，分析也很到位，尤其是对级联系统局限性的剖析。然而，数据集规模（237片段）和语言单一性（英语）是其阿喀琉斯之踵，严重限制了结论的普适性。用它来评判现有模型可以，但若想用它指导下一代模型的设计，那证据就稍显薄弱了。 📌 核心摘要本文提出了VideoFDB，首个用于评估全双工音视觉到音视觉（AV2AV）对话代理的基准。现有基准无法评估代理同时听、说、观察并产生非语言线索（如点头、微笑）的能力。VideoFDB包含：1）一个基于非语言交流科学的分类法，涵盖11种对话动态；2）一个包含237个人类标注双人视频通话片段的数据集；3）一个基于评分标准和语言模型裁判的评估框架，从“感知”（流利度、对话流、语义关联）和“生成”（情感匹配、非语言线索恰当性）两个维度评估代理。实验评估了闭源（Gemini, OpenAI）和开源（MiniCPM-o等）模型，以及级联语音-头像系统。主要发现是：所有模型均远低于人类水平；视觉输入常被用于显式问答而非提升对话动态；级联系统无法生成实时、独立的非语言线索。这揭示了当前系统在利用视觉信息进行自然对话方面的根本局限。 🔗 开源详情代码：论文中提及将发布评估代码至公开的HuggingFace，但未提供具体URL或代码仓库链接。复现所需的评估流程、Prompt模板（附录F.5与F.6）、评分标准（Rubric）详细说明见于论文附录F。模型权重：论文评估了多个开源模型（MiniCPM-o 4.5， MiniOmni2， VITA-1.5），但未在论文中提供其模型权重的具体下载链接。这些模型的权重通常可在其各自的GitHub仓库中获取。数据集：论文提供了VideoFDB评估数据集的匿名访问地址及访问方式。匿名访问页面：https://anonvfdb.github.io/ 访问密码：sH6A+P12qMaJWtyMJ2vIx9Oi 承诺在论文发表前，将数据集发布至公开的HuggingFace，但未提供具体链接。匿名页面包含两个验证片段、分类法和元数据模式，完整数据集约5GB。复现材料：论文附录详细描述了评测流程、Prompt模板（Appendix F.5 与 F.6）、评分准则（Rubric）以及数据集构建细节（Appendix A），这些构成复现评测的关键材料。论文中引用的开源项目：模型/方法：论文引用了Moshi, dGSLM, OmniFlatten, SyncLLM, SALM, PersonaPlex, Qwen2.5/Qwen3-Omni, MiniCPM-o, MiniOmni2, VITA-1.5等开源项目。工具/平台：LiveKit, Anam, Keyframe, Silero VAD, Parakeet ASR。补充链接（自动提取）：代码仓库：https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf 代码仓库：https://github.com/snakers4/silero-vad HuggingFace：https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2 🏗️ 方法概述和架构 VideoFDB的核心方法是构建一个全面的评估体系，包含三个相互关联的组件：评估数据集、评估框架和评估指标。 ...

语音/音乐/音频论文速递 2026-05-29

语音/音乐/音频论文速递 2026-05-29 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 5篇 █████ #语音识别 5篇 █████ #音频生成 2篇 ██ #基准测试 1篇 █ #多模态模型 1篇 █ #音频分类 1篇 █ #音频深度伪造检测 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文评分分档主任务 🥇 DirectorBench: Diagnosing Long-Form Video Generation wi 9.8分前25% #基准测试 🥈 Benchmarking Single-Factor Physical Video-to-Audio Gene 9.0分前25% #音频生成 🥉 Audio Jailbreaks in Large Audio-Language Models: Taxono 8.9分前25% #多模态模型 4. HoliTok:A Coutinuous Holistic Tokenization with Robust 8.6分前25% #语音合成 5. Dial HEALTHDIAL for Advice: A Multilingual and Multi-Pa 8.6分前25% #语音合成 6. Mitigating Stethoscope-Induced Shortcuts in Respiratory 8.5分前25% #音频分类 7. Audio Deepfake Detection with Half-Truth Localisation U 8.4分前50% #音频深度伪造检测 8. ChildVox: A Speech, Audio, and Large Audio-Language Mod 8.0分前25% #语音识别 9. State-Anchored Complete-View Distillation for Robust Co 8.0分前50% #语音情感识别 10. VideoFDB: Evaluating Full-Duplex Vision-Speech Capabili 7.9分前25% #语音合成 11. Native Audio-Visual Alignment for Generation 7.8分前50% #音频生成 12. OmniInteract: Benchmarking Real-World Streaming Interac 7.8分前50% #语音识别 13. MusTBENCH: Benchmarking and Advancing Temporal Groundin 7.5分前50% #音乐生成 14. Archon: A Unified Multimodal Model for Holistic Digital 7.5分前50% #语音合成 15. MELD: Mel-Spectrogram-Based Speech Language Modeling wi 7.3分前50% #语音合成 16. The WER Trap: Shattering the Illusion of Unified Tokens 7.0分前50% #语音识别 17. Decoding Strategies for Diffusion-Based ASR: A Systemat 6.8分前50% #语音识别 18. COMET: Concept Space Dissection of the Modality Gap in 6.5分前50% #音频检索 19. AgentHijack: Benchmarking Computer Use Agent Robustness 5.6分前50% - 20. Data-Efficient On-Policy Distillation for Automatic Spe 5.1分前50% #语音识别 📋 论文列表 🥇 DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation 🔥 9.8/10 | 前25% | #音视频 | #多智能体评估 | #视频生成 #多模态生成评估 | arxiv ...

A Conflict-Aware Penalty and Statistical Loss Framework for Balancing Modalities and Enhancing Stability in Multimodal Sentiment Analysis

📄 A Conflict-Aware Penalty and Statistical Loss Framework for Balancing Modalities and Enhancing Stability in Multimodal Sentiment Analysis #多模态模型 ✅ 6.8/10 | 前50% | #多模态模型 | #多模态模型 | arxiv 学术质量 6.8/7 | 影响力 6.5/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构 Dai, Liang, Mai (三位作者，具体全名未在提供的原文片段中列出)。机构：华南师范大学计算机科学学院。 💡 毒舌点评这篇论文试图解决多模态学习中一个真实且重要的问题——模态不平衡与训练不稳定。作者提出的冲突感知惩罚（CP）动机清晰，直击现有梯度调制方法（如OGM）仅依赖性能比率、无法处理梯度范数冲突的痛点。将统计损失（SL）作为正则化器并与CP结合，思路也合理。消融实验（Table 2）是本文的亮点之一，通过详尽的组合对比（A0-A6， B1-B5， C1-C5），清晰地展示了各组件的作用与相互依赖，尤其是CP防止SL崩溃的协同效应（A5 vs. A6），论证有力。然而，论文的弱点也十分明显：1）创新性有限：核心方法本质上是对现有梯度调制（GM）框架的补充性改进（加入冲突检测与惩罚项），且AME、GE、门控融合等均为已有技术，框架整合性质较强。2）理论深度不足：对“梯度范数冲突”的形式化定义较为简单（公式6），缺乏更深入的理论分析来解释为何这种冲突会导致性能崩溃，以及CP为何能有效缓解。3）实验局限：虽然声称SOTA，但在CMU-MOSEI上，其Acc-2和F1与UniMSE、ITHP差距极小甚至落后（如Acc-2: 87.32% vs. UniMSE 85.9%? 此处原文表格数据需核实），优势主要体现在Corr指标上，通用性和鲁棒性有待更大规模数据集验证。4）开源缺失：声称将发布代码但未提供，严重削弱了可复现性承诺的价值。 📌 核心摘要该论文研究多模态情感分析（MSA）中的模态不平衡与训练不稳定问题。针对文本模态主导优化导致的“梯度范数冲突”（即预测误差小的模态可能仍施加过大的梯度范数），以及分布正则化（统计损失）与梯度调制耦合导致的性能崩溃，提出了一个统一框架。核心创新包括：1）冲突感知惩罚（CP），在训练中显式检测并惩罚发生梯度范数冲突的模态；2）统计损失（SL），通过对齐编码器输出的分布统计量（均值、方差）与输入经验统计量进行正则化。CP通过平衡梯度压力，既直接解决了梯度范数冲突，又防止了主导模态干扰SL目标，实现了协同稳定的训练。框架还整合了自适应模态编码（AME）、门控跨模态融合和单模态辅助头等组件。实验在CMU-MOSI上取得所有指标的最优结果（如Acc-2: 89.31%， MAE: 0.638），在CMU-MOSEI上获得最高的皮尔逊相关系数（0.820）。消融研究验证了各组件，特别是CP与SL协同的有效性。 🔗 开源详情代码：论文中承诺“Code and hyperparameter configurations will be released upon publication”，但未提供具体的代码仓库链接。因此，目前代码不可用。模型权重：论文中未提及发布预训练模型权重。数据集：论文使用了CMU-MOSI和CMU-MOSEI公开数据集，并引用了原始论文。未提供数据集的直接下载链接，但这两个数据集在社区内广泛可获取。 Demo：论文中未提及。复现材料：论文未提供可下载的检查点、配置文件或脚本。复现依赖于论文中描述的实验设置细节。 🏗️ 方法概述和架构本文提出的多模态情感分析框架旨在解决模态不平衡与训练不稳定问题，其整体流程如图1所示，主要包含以下四个关键步骤： ...