多模态模型

语音/音频论文速递 2026-05-09

语音/音频论文速递 2026-05-09 共分析 3 篇论文 ⚡ 今日概览 📥 抓取 3 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #跨模态 1篇 █ #音频生成 1篇 █ #移动代理 1篇 █ 📊 论文评分排行榜（3 篇，按分数降序）排名论文评分分档主任务 🥇 Audio-Visual Intelligence in Large Foundation Models 8.0分前25% #跨模态 🥈 PersonaGesture: Single-Reference Co-Speech Gesture Pers 7.0分前25% #音频生成 🥉 X-OmniClaw Technical Report: A Unified Mobile Agent for 6.5分前50% #移动代理 📋 论文列表 🥇 Audio-Visual Intelligence in Large Foundation Models 🔥 8.0/10 | 前25% | #跨模态 | #预训练 | #多模态模型 #生成模型 | arxiv ...

Modality-Aware Contrastive and Uncertainty-Regularized Emotion Recognition

📄 Modality-Aware Contrastive and Uncertainty-Regularized Emotion Recognition #语音情感识别 #多模态模型 #对比学习 #知识蒸馏 #缺失模态处理 🔥 8.0/10 | 前25% | #语音情感识别 | #对比学习 | #多模态模型 #知识蒸馏 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Yan Zhuang（电子科技大学）通讯作者：Jiawen Deng（电子科技大学），Fuji Ren（电子科技大学、深圳先进技术研究院）作者列表：Yan Zhuang（电子科技大学）、Minhao Liu（电子科技大学，深圳先进技术研究院）、Yanru Zhang（电子科技大学，深圳先进技术研究院）、Jiawen Deng（电子科技大学）、Fuji Ren（电子科技大学，深圳先进技术研究院） 💡 毒舌点评论文的亮点在于将“模态缺失”问题转化为“表示一致性”问题，并设计了优雅的对比学习机制（MCB-CL）来显式地对齐“相同语义、相同模态组合”的样本，直击现有方法痛点。然而，论文声称解决了“跨模态组合不一致”（如图1b），但SUGR模块主要处理的是“预测不确定性”，通过不确定性差异动态调整损失权重，其作用是让模型更关注那些因缺失导致预测变差的样本，而非在表示空间中直接约束同一语义在不同模态组合下的对齐，这部分论证略显间接；此外，方法高度依赖教师模型，在教师本身存在语言偏见时，学生模型的“鲁棒性”可能部分源于对偏见的抑制（如附录A.5.8所示），而非纯粹的多模态融合能力提升。 📌 核心摘要要解决什么问题：多模态情感识别（MER）在实际场景中面临模态缺失与异构性问题，导致同一情感语义在不同可用模态组合下产生表示不一致和预测不稳定（图1展示了组内与跨组不一致现象）。方法核心是什么：提出了MCUR框架，它是一个基于知识蒸馏的两阶段端到端框架。其核心包含两个模块：（1）模态组合与类别联合对比学习（MCB-CL），通过贝叶斯分解引入对比损失，鼓励相同情感类别且相同模态组合的样本在表示空间中聚集；（2）样本级不确定性引导正则化（SUGR），通过计算教师与学生模型预测的不确定性差异，动态调整任务损失和蒸馏损失的权重，使模型更关注不确定性高的样本。与已有方法相比新在哪里：不同于以往侧重模态重建或笼统知识蒸馏的方法，MCUR将问题聚焦于表示空间结构的约束。MCB-CL显式地将模态组合（c_i）信息引入对比学习目标，实现了更细粒度的监督；SUGR则利用不确定性差异进行自适应样本加权，而非对所有缺失场景一视同仁。主要实验结果如何：在MOSI、MOSEI、IEMOCAP三个基准数据集上，MCUR在14种模态缺失场景（7种固定缺失，7种随机缺失）的平均性能均优于基线方法。平均F1分数提升显著：在MOSI上提升2.2%，MOSEI上提升2.67%，IEMOCAP上提升4.37%。消融实验表明，移除MCB-CL或SUGR模块中的不确定性项会导致平均ACC和F1下降超过1个点。不确定性分析（图3）显示，加入MCB-CL能有效降低预测的Brier分数和NLL，尤其在模态表征较弱的场景下（如仅V、A输入）。实际意义是什么：该工作提升了MER系统在模态部分缺失或不可靠时的鲁棒性和预测稳定性，使其更适用于真实世界的动态、异构环境（如用户设备差异、传感器临时失效）。主要局限性是什么：实验基于对缺失模态的模拟（随机丢弃），可能与真实世界中模态降质或丢失的复杂性存在差距；方法依赖一个预先训练好的教师模型，增加了训练成本和部署复杂度；在极端缺失（高缺失率）或噪声与缺失并存的场景下，鲁棒性有待进一步验证（论文在附录A.5.6中进行了初步验证）。 🔗 开源详情代码：论文中未提及代码链接（论文中多次提到“使用官方实现”或“重新实现”其他方法，但未提供作者自己方法“MCUR”的代码仓库地址）。模型权重：论文中未提及（未提供预训练模型或检查点的下载链接）。数据集：论文中使用了三个公开的多模态情感识别数据集，但未提供具体获取链接。论文中提及的数据集名称及通常获取方式如下： MOSI 数据集：常通过 CMU-Multimodal SDK 获取。 MOSEI 数据集：常通过 CMU-Multimodal SDK 获取。 IEMOCAP 数据集：需通过其官网 USC IEMOCAP 申请获取。 Demo：论文中未提及。复现材料：论文在附录 A.2 “Additional Implementation Details” 中提供了详细的复现信息，包括：训练配置：使用了 AdamW 和 Adam 优化器，详细的学习率、随机种子、超参数搜索范围等。模型结构：提供了教师模型（Figure 4）和 MCUR 框架（Figure 2）的结构图。训练策略：描述了教师模型的预训练方法、学生模型的训练损失函数以及模拟模态缺失的方法。基线复现细节：说明了如何公平复现所有对比方法。额外分析：提供了训练损失收敛分析（Figure 5）和表示可视化（Figure 6）。论文中引用的开源项目： BERT：论文中使用了预训练的 BERT 嵌入处理语言模态。链接：https://github.com/google-research/bert Facet toolkit：用于提取视频（人脸）特征。论文中未提供链接（通常指 iMotions 公司的 Facet 模块，需商业授权）。 COVAREP toolkit：用于提取音频特征。链接：http://covarep.github.io/covarep/ Perceiver：论文中使用的 Perceiver 编码器的实现参考了以下链接（论文中列出了编号[13, 22, 41, 45]，对应不同的Perceiver变体实现）。通用实现可参考：https://github.com/lucidrains/perceiver-pytorch Variational Information Bottleneck (VIB)：模型中使用的关键组件。论文中列出了参考文献[1, 8, 16, 29, 36]，其中[8]的原始实现可参考：https://github.com/HIPS/neural-tangents (VIB的原始论文作者之一)。 Decoupled Knowledge Distillation (DKD)：SUGR模块中用于分类任务的知识蒸馏方法。链接：https://github.com/megvii-research/mdistiller (包含了DKD的实现)。基线方法：论文对比了以下方法的官方或公开实现（论文中提到使用了“官方实现”）： CorrKD：论文中提到官方代码未公开，作者根据论文描述重新实现。 MMANet：论文中提到了官方实现，但未给出具体链接。通常可能在：https://github.com/DAMO-NLP-SG/MMANet (此为推测，论文未明确给出)。 MPLMM、IMDer、LNLN：论文中提及了这些方法，但未提供其官方代码链接。其他依赖：论文在实现细节中提到了 PyTorch 和 CUDA 11.5。链接：https://github.com/pytorch/pytorch。 🏗️ 方法概述和架构 MCUR是一个基于知识蒸馏（KD）的两阶段端到端框架，旨在训练一个对模态缺失鲁棒的学生模型。整体流程为：首先，使用完整模态数据训练一个教师模型；然后，在训练学生模型时，模拟各种模态缺失场景，并通过MCB-CL和SUGR两个核心模块，引导学生学习与教师一致且对缺失鲁棒的表示。 ...

JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions

📄 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions #音频质量评估 #大语言模型 #多模态模型 #零样本 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Leying Zhang（上海交通大学计算机科学与技术学院，听觉认知与计算声学实验室，AI研究院）通讯作者：Yanmin Qian（上海交通大学计算机科学与技术学院，听觉认知与计算声学实验室，AI研究院）作者列表： Leying Zhang（上海交通大学） Bowen Shi（独立研究者，美国） Haibin Wu（独立研究者，美国） Bach Viet Do（独立研究者，美国） Yanmin Qian（上海交通大学） 💡 毒舌点评这篇论文把“指令跟随”从聊天机器人玩出了新花样，成功让一个3B参数的LLM学会了听声辨器，成为一个跨领域的全能“音频考官”，实验结果全面碾压了各种老牌打分模型和通用多模态大模型，实用性拉满。不过，它的“超能力”似乎建立在对训练数据分布的高度适应上，一旦遇到像语速评估这种对时序动态要求苛刻的任务，就立马“打回原形”，暴露了当前LLM在细粒度音频感知上的本质短板。 📌 核心摘要要解决的问题：随着生成式音频模型的快速发展，现有评估方法（传统客观指标或通用多模态大模型）在领域泛化能力、零样本任务适应性和指令灵活性上存在严重瓶颈。一个模型往往只能用于特定任务或评估维度。方法核心：提出JASTIN框架，将音频评估重新定义为指令驱动的自回归推理任务。其核心架构是冻结的预训练音频编码器（PE-A-Frame-base）+ 轻量级可训练音频适配器 + 微调的大语言模型（Llama-3.2-3B）。通过交错的对话模板输入，将自然语言评估指令与音频特征一起输入LLM，直接生成数值评分。与已有方法相比新在哪里：统一泛化：单个模型可零样本处理语音、音乐、音效等24种评估任务，无需任务特定重训练。创新的数据准备管道：采用多源（人工标注、伪标签、代理任务数据）、多任务、多校准（动态评分范围、语义反转）、多描述（LLM驱动重述）的异构数据增强策略，极大提升了模型对指令和评估标准的理解与鲁棒性。指令鲁棒性与人类中心对齐：模型能灵活适应评分规则和标定的变化，同时对同义指令保持稳定输出，其预测结果与人类主观评分的相关性达到了新的SOTA水平。主要实验结果�� 在QualiSpeech和SpeechEval两个语音数据集上，JASTIN在几乎所有指标上的皮尔逊(PCC)和斯皮尔曼(SRCC)相关系数均超过所有对比基线（包括专用评估模型、通用MLLM和传统指标）。例如，在QualiSpeech的失真(Dist.)指标上，JASTIN的PCC达到0.561，而第二好的专用模型QualiSpeech仅为0.518。在跨领域AES数据集（语音、音效、音乐）上，JASTIN性能与专用的AES模型相当或更优，例如在语音质量(PQ)指标上PCC达0.707（AES模型为0.730），在音乐内容享受度(CE)上PCC达0.749（超过AES的0.748）。在域外(OOD)任务（音乐文本对齐、整体音乐质量、合成语音MOS、ASMR语音MOS）上，JASTIN显著超越所有通用大模型（如Gemini-3-Pro, Qwen3-Omni），证明了其出色的零样本泛化能力。例如，在音乐文本对齐(M-TA)任务上，JASTIN的PCC为0.487，而Gemini-3-Pro仅为0.175。实际意义：提供了一个通用、灵活、可扩展的自动化音频评估基础框架。研究人员和开发者可以像给人类评估员下指令一样，用自然语言定义评估任务和标准，无需为每个新任务收集数据或训练专用模型，极大降低了音频质量评估的门槛和成本。主要局限性：在时间敏感任务（如语速评估）上表现不佳，相关系数很低，与大多数基线模型一样，揭示了当前LLM架构在精细时序动态感知上的共同弱点。在处理高度专业化或美学驱动的音频领域（如ASMR）时，模型可能因内部语音质量先验知识而产生误判，将高保真的耳语误认为音频伪影。仅支持单音频评分，尚不支持多音频比较或参考音频评估。 🔗 开源详情代码：https://github.com/vivian556123/Jastin 模型权重：音频编码器基础模型：https://huggingface.co/facebook/pe-a-frame-base （论文中引用的第三方预训练模型，非Jastin自训练权重）语言模型骨干：https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct （论文中引用的第三方预训练模型，非Jastin自训练权重） Jastin模型本身的训练权重：论文中未提及下载链接或开源权重。数据集：论文中提及用于训练的多源数据集，但未提供统一的下载包或开源链接。具体数据集名称及来源见下文“论文中引用的开源项目”部分。 Demo：论文中未提及。复现材料：论文中开源了模型设计、推理脚本、数据处理脚本以及所有模板、任务描述和提示。这些材料已包含在上述GitHub代码仓库中。论文中详细说明了训练配置（如使用8个A100 GPU，训练6000步等），但未提供训练好的检查点（checkpoint）。论文中引用的开源项目：模型： PE-A-Frame: https://huggingface.co/facebook/pe-a-frame-base Llama-3.2-3B: https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct 数据集（部分提及）： ChildSpeech: https://huggingface.co/datasets/TomRoma/Child_Speech_dataset_Whisper 其他作为数据来源被提及的公开数据集名称：BVCC、QualiSpeech、SpeechEval、UrgentMOS、LibriTTS、Expresso、CommonVoice、EARS、AudioSet、FreeSound、MusicCaps、MUSDB18、LibriSpeech、NCSSD、CHAINs。完整任务列表：在论文的补充材料中提及，链接为 https://github.com/vivian556123/Jastin/blob/main/prompts-and-tasks.html 🏗️ 模型架构 JASTIN的整体架构如图1所示，旨在将连续的音频信号与离散的文本指令在LLM的语义空间中对齐。 ...

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

📄 OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models #音频分类 #数据集 #预训练 #领域适应 #多模态模型 ✅ 7.5/10 | 前25% | #音频分类 | #数据集 | #预训练 #领域适应 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yida Xue（浙江大学计算机科学与技术学院；浙江大学软件技术学院）通讯作者：Ningyu Zhang（浙江大学计算机科学与技术学院；浙江大学软件技术学院；海洋感知国家重点实验室）、Guozhou Zheng（舟山海洋研究中心；海洋感知国家重点实验室）作者列表：Yida Xue（浙江大学计算机科学与技术学院，浙江大学软件技术学院），Ningyu Zhang（浙江大学计算机科学与技术学院，浙江大学软件技术学院，海洋感知国家重点实验室），Tingwei Wu（浙江大学计算机科学与技术学院，浙江大学软件技术学院），Zhe Ma（浙江大学计算机科学与技术学院），Daxiong Ji（浙江大学软件技术学院），Zhao Wang（浙江大学软件技术学院），Guozhou Zheng（舟山海洋研究中心，海洋感知国家重点实验室），Huajun Chen（浙江大学计算机科学与技术学院，ZJU-杭州全球科技创新中心，海洋感知国家重点实验室） 💡 毒舌点评亮点：该工作首次系统性地整合了声呐、水下图像、科学图表和文本等多源异构海洋数据，并构建了配套的知识图谱引导的指令数据与评估基准，填补了领域空白，为海洋科学Foundation Model的开发铺平了道路。短板：作为一篇数据集论文，其方法论创新主要体现在工程化的数据处理和整合流程上，缺乏在模型架构或训练范式上的突破；对于如此大规模多模态数据的噪声分布、跨模态对齐的误差分析以及数据偏见等关键问题讨论不足。 📌 核心摘要要解决什么问题：海洋科学领域缺乏大规模、高质量、多模态对齐的数据集，导致通用多模态大模型（MLLMs）在海洋科学任务上应用受限，存在严重的“数据瓶颈”。方法核心是什么：提出OceanPile，一个为海洋基础模型设计的大规模多模态语料库，包含三个核心组件：用于预训练的OceanCorpus（整合文本、声呐、水下图像等多源数据）；用于指令微调的OceanInstruction（基于层次化海洋概念知识图谱生成的指令数据）；以及用于评估的OceanBenchmark（手动标注的基准测试集）。与已有方法相比新在哪里：相比于零散的单一模态海洋数据集（如声呐或图像数据集）或目标单一的海洋大模型（如OceanGPT），OceanPile首次提供了覆盖物理、化学、生物等多学科，整合了声学、视觉、文本等多模态，且经过对齐和质量控制的综合性资源，旨在全面支持海洋科学MLLM的预训练、微调和评估。主要实验结果如何：实验表明，使用OceanInstruction微调的模型在OceanBenchmark上性能显著提升。例如，Qwen3-VL-8B-Instruct的多模态总体得分从13.07提升至32.59（+19.52），超越了GPT-4o（14.35）和GPT-5（9.67），并略优于Gemini-3-Flash（31.21）。具体任务提升显著：海洋物种识别（Marine Organisms VQA）从9.96提升至48.52（+38.56）。关键数据见下表：模型文本基准：海洋科学QA (%) 多模态基准海洋科学VQA (%) 声呐VQA (%) 海洋生物VQA (%) 总体 (%) Qwen3-30B 25.49 - - - - Qwen3-30B (with OceanPile) 26.47 - - - - Qwen3-VL-8B - 21.21 8.04 9.96 13.07 Qwen3-VL-8B (with OceanPile) - 29.29 19.97 48.52 32.59 GPT-5 16.67 19.19 0.71 9.11 9.67 GPT-4o 6.86 16.16 5.71 21.19 14.35 Gemini-3-Flash 24.51 32.32 11.11 50.21 31.21 实际意义是什么：为海洋科学AI研究提供了关键的基础设施（数据集和基准），有望加速海洋环境感知、物种识别、资源勘探等领域的智能化进程，推动领域专用大模型的发展。 ...

To Fuse or to Drop? Dual-Path Learning for Resolving Modality Conflicts in Multimodal Emotion Recognition

📄 To Fuse or to Drop? Dual-Path Learning for Resolving Modality Conflicts in Multimodal Emotion Recognition #语音情感识别 #多模态模型 #强化学习 #知识蒸馏 #基准测试 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #强化学习 #知识蒸馏 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yangchen Yu（合肥工业大学计算机科学与信息工程学院）通讯作者：Jia Li（合肥工业大学计算机科学与信息工程学院）作者列表：Yangchen Yu（合肥工业大学计算机科学与信息工程学院）、Qian Chen（合肥工业大学计算机科学与信息工程学院）、Jia Li（合肥工业大学计算机科学与信息工程学院）、Zhenzhen Hu（合肥工业大学计算机科学与信息工程学院）、Jinpeng Hu（合肥工业大学计算机科学与信息工程学院）、Lizi Liao（新加坡管理大学计算与信息系统学院）、Erik Cambria（南洋理工大学计算与数据科学学院；麻省理工学院媒体实验室）、Richang Hong（合肥工业大学计算机科学与信息工程学院） 💡 毒舌点评这篇论文最大的亮点在于它给“多模态融合”这件事安了一个“交通灯”——能调和的（良性冲突）走蒸馏融合通道，调和不了的（严重冲突）就走强化学习选择通道，这个双路径设计思路清晰且有实证支撑，实验也做得相当全面扎实。但短板也很明显：对“严重冲突”的定义依赖启发式规则（单模态极性与多模态标签不一致），这在实际无标注场景下难以直接应用；此外，ADA的奖励函数设计相对朴素，可能无法完美捕捉“选择可靠性”的微妙之处。 📌 核心摘要问题：多模态情感识别（MER）中，传统融合方法在模态间存在冲突（如讽刺时文本与表情矛盾）时会失效，甚至不如单模态模型。核心方法：提出双路径冲突解决框架（DCR）。路径I（AFD）通过反向知识蒸馏，将音视频模态的时序情感线索融入文本表征，用于处理可调和的“良性冲突”。路径II（ADA）将路径选择建模为上下文赌博机问题，通过强化学习在融合结果和各单模态预测中做出决策，用于处理不可调和的“严重冲突”。创新之处：首次系统性地将模态冲突按“可解性”分类（良性/严重），并设计了针对性的“软校准”（AFD）与“硬裁决”（ADA）的协同处理机制，区别于以往单一的融合或丢弃策略。主要实验结果：在MELD、IEMOCAP、CMU-MOSEI、CH-SIMS和CH-SIMS v2五个基准上，DCR均取得SOTA或极具竞争力的性能。例如，在MELD上WF1达到68.84%，优于TelME（67.37%）；在CH-SIMS v2上MAE达到0.290，优于MulT（0.291）。在CH-SIMS的冲突子集上，DCR在良性冲突子集准确率达72.4%，严重冲突子集达50.3%，显著优于基线（TelME分别为61.8%，41.5%）。实际意义：为构建更鲁棒、可解释的多模态情感识别系统提供了新范式，尤其在对话、人机交互等易出现情感信号矛盾的场景中具有应用潜力。主要局限：冲突的启发式分类方法可能不完美；ADA的策略优化可能受有限动作空间和奖励设计约束；框架增加了模型复杂度。 🔗 开源详情代码：https://github.com/MSA-LMC/DCR 模型权重：论文中未提及具体的模型权重托管平台（如 HuggingFace、ModelScope）链接。论文仅在摘要中提到“Source code and models will be released at https://github.com/MSA-LMC/DCR”，表明模型权重将随代码一同发布。数据集：论文中未提及各数据集的具体获取链接或开源协议。论文仅描述了五个使用的数据集：MELD、IEMOCAP、CMU-MOSEI、CH-SIMS 和 CH-SIMS v2。 Demo：论文中未提及在线演示链接。复现材料：论文中提及了实现细节，包括：使用 PyTorch 实现。训练于单块 NVIDIA RTX 4090 GPU。使用预训练模型作为特征提取器：RoBERTa-large (文本), Whisper-large-v3 (音频), CLIP-ViT-B/16 (视觉)。报告了随机种子（从 {41, 42, 43, 44, 45} 中选择）、学习率 (1e-4)、批大小 (32) 等超参数设置。提供了具体的数据增强策略参数（如模态丢弃概率 p1=0.2, p2=0.05, 高斯噪声 σ=0.01）。论文中未提供独立的配置文件、检查点或详细的复现指南链接。论文中引用的开源项目：论文引用了多个开源项目作为基线或组件，但未提供所有项目的具体链接。以下为论文中明确提及名称的开源相关项目（按章节顺序）：模型/基线方法：大部分作为参考文献引用，论文正文中未提供其 GitHub 链接。例如：MMML, TelME, FacialMMT, DialogueCRN, DialogueRNN, SACL-LSTM, MulT, PMR, Self-MM, UniMSE, SDT, RMER-DT, ECERC, GraphCFC, MMGCN, DialogueGCN, Joyful, LMF, DashFusion, HFR-AME, MAG-BERT, MFON, ConKI, CLGSI, KEBR, BC-LSTM, EmoCaps, BiosERC, InstructERC, DialogueMMT。预训练模型：作为特征提取器使用，论文中提到了其名称但未提供开源链接。例如：RoBERTa-large, Whisper-large-v3, CLIP-ViT-B/16。技术/方法：作为论文中使用的方法被引用。例如：Grad-CAM [60], A2C (优势演员-评论家算法) [33], CMAB (上下文多臂老虎机) [16]。 🏗️ 模型架构图3展示了DCR框架的整体架构，它是一个包含两条互补路径的串行-并行结构： ...

语音/音频论文速递 2026-05-07

语音/音频论文速递 2026-05-07 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频分类 3篇 ███ #音乐信息检索 2篇 ██ #音乐生成 2篇 ██ #音频质量评估 1篇 █ #语音识别 1篇 █ #语音情感识别 1篇 █ #标签分布学习 1篇 █ #视频编辑 1篇 █ 📊 论文评分排行榜（22 篇，按分数降序）排名论文评分分档主任务 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Ev 8.5分前10% #音频质量评估 🥈 PHALAR: Phasors for Learned Musical Audio Representatio 8.5分前10% #音乐信息检索 🥉 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分前25% #语音识别 4. To Fuse or to Drop? Dual-Path Learning for Resolving Mo 8.0分前25% #语音情感识别 5. Trustworthy Federated Label Distribution Learning under 8.0分前25% #标签分布学习 6. AVI-Edit: Audio-sync Video Instance Editing with Granul 8.0分前25% #视频编辑 7. Empirical Study of Pop and Jazz Mix Ratios for Genre-Ad 7.5分前50% #音乐生成 8. Hearing the Ocean: Bio-inspired Gammatone-CNN framework 7.5分前25% #音频分类 9. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 7.5分前25% #音频安全 10. SEI-SHIELD: Robust Specific Emitter Identification Unde 7.5分前25% #信号处理 11. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.5分前25% #音频分类 12. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分前25% #语音对话系统 13. APEX: Large-scale Multi-task Aesthetic-Informed Popular 7.5分前25% #音乐评估 14. Spatial-Magnifier: Spatial upsampling for multichannel 7.0分前25% #语音增强 15. VocalParse: Towards Unified and Scalable Singing Voice 7.0分前25% #音乐转录 16. Benchmarking LLMs on the Massive Sound Embedding Benchm 7.0分前50% #音频分类 17. Stage-adaptive audio diffusion modeling 7.0分前25% #音频生成 18. Adaptive Diagonal Loading for Norm Constrained Beamform 7.0分前25% #波束成形 19. RenCon 2025: Revival of the Expressive Performance Rend 7.0分前50% #音乐生成 20. Beyond Seeing Is Believing: On Crowdsourced Detection o 7.0分前25% #音频深度伪造检测 21. Stage Light is Sequence^2: Multi-Light Control via Imit 7.0分前25% #舞台技术 22. Library learning with e-graphs on jazz harmony 6.5分前50% #音乐信息检索 📋 论文列表 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv ...

Enhancing Self-Supervised Talking Head Forgery Detection via a Training-Free Dual-System Framework

📄 Enhancing Self-Supervised Talking Head Forgery Detection via a Training-Free Dual-System Framework #说话头伪造检测 #音频安全 #自监督学习 #多模态模型 #免训练推理 ✅ 7.5/10 | 前25% | #说话头伪造检测 | #自监督学习 | #音频安全 #多模态模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：Ke Liu（电子科技大学）通讯作者：未说明作者列表：Ke Liu（电子科技大学），Jiwei Wei（电子科技大学），Shuchang Zhou（电子科技大学），Yutong Xiao（电子科技大学），Ruikun Chai（电子科技大学），Yitong Qin（电子科技大学），Yuyang Zhou（海南大学），Yang Yang（电子科技大学） 💡 毒舌点评论文最大的亮点在于其巧妙的系统设计：将“不确定样本路由”与“大型多模态模型的免训练精细推理”解耦，既保留了原检测器的泛化性，又利用了基础模型的强理解能力来攻坚克难，思路清晰且具启发性。然而，短板也很明显：推理阶段依赖Qwen-7B这样的大型模型，计算开销和部署成本极高，这使得其宣称的“训练免费”优势在实际应用中可能大打折扣；此外，整个系统的复杂度（文本原型生成、帧/patch选择策略、提示工程）也带来了新的调优负担。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重的特定存储库链接（如Hugging Face或ModelScope）。论文中使用了预训练的第三方模型，但未提供其具体权重文件链接。数据集： AVLips：论文中称其为“publicly available”（公开可用），但未提供具体URL。请通过检索论文引用（Liu et al., 2024）获取。 FakeAVCeleb (FKAV)：论文中提及（Khalid et al., 2021），但未提供具体URL。请通过检索论文引用获取。 TalkingHeadBench (THB)：论文中提及（Xiong et al., 2026），但未提供具体URL。请通过检索论文引用获取。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及包含训练配置、检查点、附录等在内的具体复现材料链接。论文中引用的开源项目： CLIP：论文中使用了“frozen CLIP (Radford et al., 2021)”作为证据挖掘工具。项目主页通常为：https://github.com/openai/CLIP。 Qwen：论文中使用了“Qwen (Wang et al., 2024a)”进行视觉语言推理。项目主页通常为：https://github.com/QwenLM/Qwen2-VL。 BGE-Reranker-Large：论文中使用了“a text reranker (Rachidy et al., 2025)”进行排名分数估计。项目主页通常为：https://github.com/FlagOpen/FlagEmbedding。 AVH-Align：论文中的基础检测器，但未提供其官方代码仓库链接。请通过检索论文引用（Smeu et al., 2025）获取。（注：以上链接为通用开源项目主页，论文本身未提供具体链接。）补充信息 [作者与机构] 补充：论文作者列表中，Yang Yang 同样来自电子科技大学，根据学术惯例，其作为最后一位作者可能承担通讯或资深作者的角色，尽管原文未明确标注。 [模型架构] 补充：论文在介绍系统-2时明确指出，引入它的目的不是重复基检测器已建模的音视频对齐，而是为重新审视不确定样本提供一个互补的视觉-语言视角。这一动机更清晰地解释了系统-2与系统-1（音视频检测器）在分析维度上的区别。 [核心摘要/创新点] 补充：在“与已有方法相比新在哪里”部分，论文强调了一种范式转变：即不再仅仅致力于设计更强的检测器（“模型竞赛”），而是转向挖掘和释放现有检测器在困难样本上剩余的判别潜力。这一视角的提出是其核心贡献之一。 [实验结果] 补充：在表1中，AVH-Align*+TFDS 在AVLips数据集上的AP提升幅度为+13.2个百分点（从74.3%到87.5%），这是一个非常显著的性能增益，分析中提到了AP提升13.2%但未明确列出基线数值。在表2关于不确定子集的分析中，AVLips数据集上不确定子集的AUC从基线的31.6% 提升至67.1%，绝对提升达35.5个百分点，该数据直接量化了TFDS在困难样本上的强大修正能力。 [消融实验] 补充：表4的消融实验结果中，“w/o CLIP”（移除CLIP证据挖掘）和“w/o Qwen”（移除Qwen推理）两项消融在THB和AVLips上均导致了显著的性能下降（如AVLips上AP分别从87.5降至81.3和75.7），这定量证实了视觉证据挖掘模块和语义推理阶段均为系统不可或缺的关键组件。 [评分理由/毒舌点评] 补充：论文在其结论中再次总结，TFDS的核心价值在于通过显式精炼（refine）其不确定预测，从一个固定的（fixed）自监督检测器中获得了显著增益，而无需重新训练新检测器。这一陈述强化了其“免训练增强”的定位和实践意义。 [细节详述] 补充：论文在4.1.1节说明，用于估计系统-1路由阈值τ的验证集数据，与用于重训练基检测器AVH-Align*的验证集数据是同一份（来自AVLips的6:1:3划分中的“1”部分）。 📌 核心摘要要解决的问题：现有的自监督说话头伪造检测器虽然泛化性较好，但在面对生成器不断进化、伪造痕迹越来越微弱时，对“困难样本”（不确定子集）的判别能力不足，导致整体性能瓶颈。方法核心：提出免训练双系统框架（TFDS）。系统-1：基于现有自监督检测器（如AVH-Align）的原始分数，通过验证集学习一个阈值，将测试样本快速路由为“置信子集”和“不确定子集”。系统-2：仅对不确定子集激活，利用冻结的CLIP模型挖掘可疑的视觉证据（帧和局部patch），将证据输入Qwen生成精细文本描述，再通过文本重排器转化为排名分数，最终通过“槽位保持重排”仅修正不确定子集内的样本相对排序。与已有方法相比新在哪里：不同于以往“设计更强检测器”的思路，本文转向“挖掘现有检测器的剩余潜力”。新在：1）双系统分工：模仿人类认知，让快速直觉判断（系统-1）和精细分析（系统-2）各司其职。2）免训练集成：将大型多模态模型作为即插即用的推理模块，而非训练目标的一部分。3）槽位保持精修：严格限制系统-2的输出仅用于局部重排，保护原检测器的全局决策结构。主要实验结果：在AVLips、FKAV、THB三个数据集上，TFDS能稳定提升基检测器（AVH-Align*）的性能。例如，在AVLips上AP提升13.2%，在THB上AP提升12.2%。提升主要集中在不确定子集（AVLips不确定子集AP提升17.1%，AUC提升35.5%）。在噪声、模糊、压缩等扰动下，性能提升依然显著（如反转扰动下AP提升25.6%）。消融实验表明，系统-1路由、CLIP证据挖掘、Qwen推理和槽位保持重排均为关键组件。实际意义：提供了一种“模型插件”式的新范式，无需重新训练检测器即可提升其性能上限，对快速响应新型生成器有一定实用价值。它强调了在模型性能已较高的情况下，精细化处理“难例”可能是更具性价比的优化方向。主要局限性：1）推理开销大：系统-2依赖大型视觉语言模型（Qwen-7B），导致推理速度慢、资源消耗高，难以满足实时或大规模检测需求。2）模块复杂度高：涉及多个子模块（帧选择、patch选择、文本原型、重排器），整体流程复杂，每个环节的超参数都可能影响最终效果。3）对基检测器的依赖：性能提升依赖于基检测器（AVH-Align）提供有效的粗排，若基检测器本身很差，路由和精修的基础可能不牢固。 🏗️ 模型架构整体架构是一个串行的两阶段流程，核心设计思想是“先粗筛，后精修”。 ...

MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model

📄 MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model #语音对话系统 #端到端 #多模态模型 #流式处理 #语音克隆 ✅ 7.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Jingyao Gong（Independent Researcher，独立研究者）通讯作者：未明确说明（论文中仅提供第一作者邮箱 gongjy.cs@foxmail.com，未指明通讯作者）作者列表：Jingyao Gong（Independent Researcher）毛舌点评该论文的亮点在于它将一个完整的“听-看-想-说”全模态闭环在0.1B的小模型规模上实现并彻底开源，包括训练代码、模型权重和处理过的多模态训练数据集，为社区提供了一个可完全复现和修改的小型研究基线。然而，其短板也十分明显：受限于极小的模型规模，在语音自然度、长句稳定性和复杂指令跟随能力上与大模型存在显著差距，其评估也主要集中在内部一致性而非端到端的用户体验，更像一个验证技术可行性的原型而非实用系统。核心摘要问题：旨在探索在极小参数规模（0.1B）下，构建一个能够同时处理文本、语音、图像输入并输出文本与流式语音的端到端全模态模型的可行性与设计范式。方法：采用“思考者-说话者”分离架构。“思考者”是完整的MiniMind语言模型主干，接收文本、经过投影的语音（SenseVoice）和图像（SigLIP2）特征；“说话者”是一个独立的4层MiniMind模块，接收来自思考者中层的语义桥接状态和自回归的Mimi语音编码历史，以预测8层的Mimi码本用于生成流式语音。说话人身份通过参考语音编码和预计算的CAM++嵌入在说话者模块中进行条件化。创新：核心创新在于为小规模全模态模型提出的三项设计选择：(1) 使用中层语义桥接，而非首层或末层状态，为说话者提供更干净的语义条件；(2) 公开了用于训练的多模态序列格式和数据集；(3) 为8个Mimi码本设计了参数高效的共享基础加低秩适配器的嵌入与输出头接口。主要实验结果：一致性：在内部一致性评估中，密集模型和MoE模型在平均字符错误率（CER）上分别为0.0897和0.0900。语音克隆：使用CAM++说话人嵌入进行评估，密集模型和MoE模型的总体语音克隆相似度（余弦相似度）分别为0.5995和0.5937。跨模型对比：在简短英文问答T2A一致性上，0.1B的MiniMind-O（Avg CER: 0.0964， Avg WER: 0.0973）落后于0.5B的Mini-Omni（Avg CER: 0.0101， Avg WER: 0.0185）和Mini-Omni2（Avg CER: 0.0371， Avg WER: 0.0431）。消融实验：说话者模块的隐藏维度从768降至512或384时，CER显著恶化。低秩适配器消融显示输出头的秩比嵌入层的秩更重要。实际意义：提供了一个完全可公开审查和复现的小规模全模态交互系统，降低了该领域的研究门槛。其明确的设计选择（如中层桥接）和完全开源的闭环数据，为分析和改进小模型全模态架构提供了可控的研究对象。主要局限性：语音自然度和长句生成的稳定性不足；视觉通路依赖冻结编码器和固定占位符，能力有限；评估主要关注内部转录一致性，未充分评估自然度、鲁棒性和安全性等。详细分析 01.模型架构 MiniMind-O 是一个端到端的全模态模型，其核心架构遵循“思考者-说话者”分离范式，整体数据流如图1所示。 ...

ReasonAudio: A Benchmark for Evaluating Reasoning Beyond Matching in Text-Audio Retrieval

📄 ReasonAudio: A Benchmark for Evaluating Reasoning Beyond Matching in Text-Audio Retrieval #音频检索 #基准测试 #多模态模型 #对比学习 #模型评估 ✅ 7.5/10 | 前25% | #音频检索 | #对比学习 | #基准测试 #多模态模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Honglei Zhang (南京大学软件学院) 通讯作者：未说明（论文未明确指定）作者列表： Honglei Zhang (南京大学软件学院) Yuting Chen (西北工业大学软件学院) Chenpeng Hu (西北工业大学软件学院) Siyue Zhang (南洋理工大学计算与数据科学学院) Yilei Shi (西北工业大学软件学院) 💡 毒舌点评本文最大的价值在于“撕开了一道口子”：用精心设计的合成基准，无情地揭示了当前多模态检索模型（即便是基于强大MLLM的）在“否定”、“时长”等基础推理任务上脆弱得可笑，最高平均准确率仅20.1%，这为后续研究划出了明确的“能力短板”地图。但硬伤也很明显：全靠合成数据得出的结论，多少有点“温室里的比武”，模型在真实世界嘈杂、语义模糊的查询中表现如何，这篇论文其实并没有给出答案。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重获取链接。数据集：ReasonAudio。论文中在摘要部分的脚注提到“The dataset is available on HuggingFace”，但未提供具体URL。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及训练配置、检查点等复现材料。论文中引用的开源项目： FSD50K (Fonseca et al., 2022)：https://zenodo.org/record/4060432 Freesound (Jiang et al., 2025)：https://freesound.org/ AudioCaps (Kim et al., 2019)：https://www.kaggle.com/datasets/costacr/audio-caps Clotho (Drossos et al., 2020)：https://zenodo.org/record/4783391 WavText5K (Deshmukh et al., 2022)：https://github.com/Declare-lab/WavText5K SoundDescs (Koepke et al., 2023)：https://zenodo.org/record/6990313 AudioSet (Sun et al., 2025)：https://research.google.com/audioset/ SVQ (MSEB) (Google Research, 2025)：https://github.com/google-research/google-research/tree/master/mseb Spoken SQuAD (Lee et al., 2018)：https://github.com/raoyongming/Spoken-SQuAD Qwen2-Audio (Chu et al., 2024)：https://github.com/QwenLM/Qwen2-Audio Step-Audio (Huang et al., 2025)：https://github.com/step-function-ai/Step-Audio BGE-M3 (Chen et al., 2024)：https://github.com/FlagOpen/FlagEmbedding Qwen3-Embedding (Zhang et al., 2025c)：https://github.com/QwenLM/Qwen3-Embedding CLAP (Elizalde et al., 2023)：https://github.com/LAION-AI/CLAP AudioCLIP (Guzhov et al., 2022)：https://github.com/AndreyGuzhov/AudioCLIP Wav2CLIP (Wu et al., 2022)：https://github.com/keunwoochoi/Wav2CLIP LCO-Embedding (Xiao et al., 2025)：https://github.com/LCO-AI/LCO-Embedding e5-omni (Chen et al., 2026)：https://github.com/microsoft/unilm/tree/master/e5-omni OmniEmbed (Xu et al., 2025)：https://github.com/XuLab-Connect/OmniEmbed CLIP (Radford et al., 2021)：https://github.com/openai/CLIP 补充信息 [模型架构] 补充：对于“基于MLLM的嵌入模型”这一范式，论文原文更具体地指出其设计动机和核心是“leverage pretrained multimodal large language models (MLLMs) to learn unified representations across modalities”（利用预训练的多模态大语言模型来学习跨模态的统一表示）。这明确了其架构创新点在于直接基于强大的多模态生成模型进行微调以获取检索嵌入，而非从头训练或使用纯编码器架构。 [实验结果] 补充：论文在第5节的分析中，对多选题测试和t-SNE可视化的结果有更深入和具体的解读。关于多选题测试（图2），论文指出OmniEmbed-7B在Duration任务上的准确率（50.8%）是“marginally above random chance”（略高于随机水平），而在Negation任务上的准确率（27.5%）则“indicating a failure to capture negation semantics and a bias toward matching mentioned sounds”（表明未能捕捉否定语义，并存在匹配查询中提及声音的偏见）。这比“接近随机”和“低于随机”的概括更具体地揭示了模型的问题本质。关于t-SNE可视化（图3），论文结论更明确地指出，嵌入空间的错位（misalignment）直接导致了“failing to encode logical constraints—particularly negation—into the shared embedding space”（未能将逻辑约束——尤其是否定——编码到共享嵌入空间）。这直接解释了模型在否定任务上表现低于随机水平的原因。 [核心摘要/毒舌点评] 补充：论文在摘要和结论中均强调了一个关键发现：所提出的五个推理任务“pose significant challenges to current models”（对当前模型构成重大挑战）。这不仅是实验结果，也是论文的核心诊断结论，明确了其作为“压力测试”基准的价值。 📌 核心摘要要解决什么问题：现有的文本-音频检索基准（如AudioCaps， Clotho）主要关注语义匹配，忽视了现实世界查询中常见的复杂逻辑推理需求（如否定、时序、并发、时长）。这导致当前检索模型的能力评估不全面。方法核心是什么：提出了首个推理密集型文本-音频检索基准ReasonAudio。通过从FSD50K和Freesound收集200种原子声音，程序化合成为10,000个具有精确时间关系的复合音频片段，并基于模板生成了1,000个涵盖五个推理任务（否定、排序、重叠、时长、混合）的文本查询。与已有方法相比新在哪里：不同于以往侧重于音频-文本描述对的检索数据集，ReasonAudio专注于评估模型对查询中逻辑和时间约束的理解与执行能力，是音频检索领域的首个推理专用基准。主要实验结果如何：在ReasonAudio上评测了三大范式十个模型，发现所有模型都表现不佳。两个阶段和CLIP式模型平均准确率低于10%。基于MLLM的嵌入模型表现最好，但最佳模型（OmniEmbed-7B）的平均准确率也仅为20.1%。具体而言，模型在“重叠”和“排序”任务上相对较好，但在“否定”和“时长”任务上严重失败，准确率极低。模型即使在只评估推理能力的多选题设置中，“否定”任务准确率也低于随机水平（27.5%）。实际意义是什么：本工作为社区提供了一个用于诊断和推进音频检索模型推理能力的标准化评测工具。实验结果明确指出了当前模型，特别是通过对比学习微调的MLLM，无法有效保留其骨干网络的推理能力，为未来的模型训练范式（如如何更好地对齐与约束嵌入空间）指明了改进方向。主要局限性是什么：基准完全基于合成音频构建，缺乏真实录音环境的声学复杂性和语义模糊性。评估的查询规模（1000条）虽满足实验需求，但与工业应用规模仍有差距。论文未提出新的模型方法，主要贡献在于诊断与评测。 🏗️ 模型架构本文是一篇基准测试与模型评估论文，并未提出一个新的检索模型架构。其核心“架构”是所提出的ReasonAudio基准的构建流程以及对现有模型范式的评测框架。 ...

Toward Structural Multimodal Representations: Specialization, Selection, and Sparsification via Mixture-of-Experts

📄 Toward Structural Multimodal Representations: Specialization, Selection, and Sparsification via Mixture-of-Experts #多模态模型 #自监督学习 #对比学习 #多任务学习 #模型评估 ✅ 7.0/10 | 前25% | #多模态模型 | #自监督学习 | #对比学习 #多任务学习 | arxiv 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Hahyeon Choi（未说明具体机构）通讯作者：Nojun Kwak（未说明具体机构）作者列表：Hahyeon Choi（未说明具体机构），Nojun Kwak（未说明具体机构）（注：论文作者列表仅提供姓名，未在正文中明确标注所属大学、实验室或公司。根据致谢部分，研究由韩国政府资助，但作者具体机构未在文中说明。） 💡 毒舌点评论文最大的亮点在于它没有陷入“目标函数炼丹”，而是从“表示结构”的角度为多模态学习提出了一个清晰、模块化的三阶段框架（S3），理论分析也挺到位，尤其是对对比学习和InfoMax方法缺陷的剖析。不过，短板也很明显：它把一个通用的多模态框架牢牢焊死在了“视频情感分析”这个应用场景上，实验完全基于MultiBench里的四个情感任务，既没碰音频，也没展示在更广泛任务（如检索、生成）上的威力，让人怀疑这“结构化”的优势到底有多通用。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中提及使用了 MultiBench 基准套件中的四个数据集：MOSEI、MOSI、UR-FUNNY 和 MUStARD。论文中未提供这些数据集的具体获取链接。 Demo：论文中未提及复现材料：论文中未提及训练配置、检查点等具体复现材料。文中提供了实验细节（如附录 G.2）和部分消融研究结果（如表 3，表 4），但未提供完整的代码或模型文件。论文中引用的开源项目： MultiBench：论文中提及的多模态基准套件，但未提供链接。 CLIP：论文中作为对比方法提及，但未提供链接。 FactorCL：论文中作为对比方法提及，但未提供链接。 FOCAL：论文中作为对比方法提及，但未提供链接。 JointOpt：论文中作为对比方法提及，但未提供链接。 DisentangledSSL：论文中作为对比方法提及，但未提供链接。补充信息细节详述补充：论文未在正文中提供具体的训练超参数（如学习率、优化器、训练轮数），但在附录G.2中说明其设置遵循先前工作（Liang et al., 2023; Wang et al., 2025）以进行公平对比。实验结果补充：论文Table 1提供了不同粒度χ和稀疏化比例p下的完整性能数据，更清晰地展示了“反U型”曲线。以χ=8在MOSEI上的结果为例，完整S3性能随p值从1.0降至0.1的变化为：75.78% (Special.) → 77.36% (p=1.0) → 77.95% (p=0.7) → 77.01% (p=0.1)。论文Table 2显示，与最强基线DisentangledSSL相比，S3在MOSI上的提升约为1.0%（65.16% vs 66.13%），在MUStARD上的提升约为1.0%（61.60% vs 62.56%）。细节详述补充：论文附录H.3的Table 4提供了“选择”阶段可训练参数的比例，显示仅更新路由器参数，其占比在0.0984%（χ=2）到1.0708%（χ=8）之间，强调了该阶段的高效性。模型架构补充：论文4.4节详细解释了超参数“粒度χ”与“扩展比ρ”的关系和设计动机。χ决定了专家隐藏维度（D_expert = D_ffn / χ），ρ决定了参数增加量（ρ = P_moe / P_ffn），总专家数N_expert = χ * ρ。论文固定ρ=8，并说明将激活专家数k设为等于χ，以保证与原始FFN的公平比较。核心摘要补充：论文在结论部分明确列出了未来研究方向，包括：(1) 针对关键任务的模态自适应信息保留；(2) 对模型深度中语义抽象的层自适应建模；(3) 减少标签依赖的自监督路由适应；(4) 更精确语义分解的增强专家特化；(5) 自适应粒度和剪枝策略的稀疏化。这反映了作者对框架局限性的认识和未来拓展路径。作者与机构补充：论文致谢部分明确说明研究由韩国政府通过IITP的三个基金（RS-2021-II211343, RS-2022-II220953, RS-2025-25442338）资助。 📌 核心摘要解决的问题：现有主流多模态表示学习方法存在根本矛盾——对比学习（Contrastive Learning）倾向于对齐共享信息但丢失模态独特信息，而信息最大化（InfoMax）方法试图保留所有信息却引入大量任务无关冗余。论文指出，这种矛盾部分源于缺乏将表示结构化的归纳偏置。方法核心：提出S3（特化、选择、稀疏化）框架，基于混合专家（MoE）模型构建结构化的多模态表示。特化（Specialization）：使用MoE编码器将多模态输入分解为概念级的“专家”表示，并通过信息最大化损失和分布语义一致性（DSC）约束进行自监督预训练。选择（Selection）：冻结编码器，仅微调路由网络，通过监督对比损失（促进任务充分性）和基于vMF分布的紧致性损失（促进信息最小性）来选择性激活任务相关专家。稀疏化（Sparsification）：在推理时，根据路由分数剪枝低贡献的专家路径，无需额外训练，得到更简洁的表示。创新之处：核心创新是从“结构”视角重新设计MMRL，将信息显式分解为可选择的语义组件，而非优化单一损失函数。这提供了理论上的“任务充分性”与“信息最小性”的统一框架，并发现了性能随稀疏度呈“反U型”曲线的关键现象。实验结果：在MultiBench的四个情感分析基准（MOSEI, MOSI, UR-FUNNY, MUStARD）上，S3框架在多个细粒度设置（χ=8）下取得了最优的线性探测准确率。例如，在MOSEI上，完整S3框架（χ=8，剪枝后）达到77.95% 的准确率，超过了之前最好的DisentangledSSL（77.45%）和CLIP（76.87%）。关键消融实验表明，三阶段流程是必要的，单独使用稀疏化效果不佳。实际意义：该框架为构建更可控、高效的多模态模型提供了新思路，其“选择-稀疏”机制允许在推理时动态权衡性能与计算效率，对边缘部署等场景有潜在价值。所提出的“结构化”理念可能启发其他领域表示学习的设计。主要局限：实验范围局限于视觉-文本模态和情感分析任务，未验证在其他模态（如音频）或任务（如检索、生成）上的通用性。评估仅使用线性探测，未与端到端微调或其他评估方式对比。理论上的“分布语义一致性”在实际模型中如何精确实现和验证仍需深入探讨。 🏗️ 模型架构 S3框架是一个三阶段的模块化流程，其核心架构基于混合专家（Mixture-of-Experts, MoE）构建。 ...