跨模态 | 语音/音频论文速递

MMAudioReverbs: Video-Guided Acoustic Modeling for Dereverberation and Room Impulse Response Estimation

📄 MMAudioReverbs: Video-Guided Acoustic Modeling for Dereverberation and Room Impulse Response Estimation #语音增强 #跨模态 #预训练 #迁移学习 ✅ 6.0/10 | 前50% | #语音增强 | #预训练 | #跨模态 #迁移学习 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Akira Takahashi (Sony Group Corporation, Sony AI) 通讯作者：未明确说明（但第一作者Akira Takahashi与第四作者Yuki Mitsufuji均来自Sony AI，且Yuki Mitsufuji为机构负责人，可能是主要联络人）作者列表：Akira Takahashi (Sony Group Corporation, Sony AI)、Ryosuke Sawata (Sony AI)、Shusuke Takahashi (Sony Group Corporation)、Yuki Mitsufuji (Sony Group Corporation, Sony AI) 💡 毒舌点评亮点：该研究巧妙地将一个为视频生成音频（V2A）的基础模型（MMAudio）通过“无需修改架构”的方式，重新用于解决物理声学问题（去混响和RIR估计），这种“模型复用”的思路颇具启发性，展示了预训练多模态模型作为通用物理先验的潜力。短板：实验的局限性过于明显——仅在一个数据集（SoundSpaces-Speech）上进行验证，且与多个SOTA方法（如AV-RIR）对比时，在关键指标（如RIR估计的ΔRT60）上并未显示出稳定优势，使得其“统一框架”的优越性难以服众。同时，完全缺乏开源承诺，极大地削弱了研究的可验证性和社区影响力。 ...

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #多模态模型 #跨模态 #模型评估 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #模型评估学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Caorui Li（东南大学、南京大学）通讯作者：Jiaheng Liu（南京大学）作者列表：Caorui Li（东南大学、南京大学）、Yu Chen（东南大学、南京大学）、Yiyan Ji（南京大学）、Jin Xu（阿里巴巴集团）、Zhenyu Cui（东南大学）、Shihao Li（南京大学）、Yuanxing Zhang（快手科技）、Zhenghao Song（M-A-P）、Dingling Zhang（南京大学）、Ying He（北京科技大学）、Haoxiang Liu（北京科技大学）、Yuxuan Wang（阿里巴巴集团）、Qiufeng Wang（东南大学）、Jiafu Tang（南京大学）、Zhenhe Wu（M-A-P）、Jiehui Luo（中央音乐学院）、Zhiyu Pan（南京大学）、Weihao Xie（华中科技大学）、Chenchen Zhang（M-A-P）、Zhaohui Wang（南京大学）、Jiayi Tian（阿里巴巴集团）、Yanghai Wang（南京大学）、Zhe Cao（南京大学）、Minxin Dai（南京大学）、Ke Wang（M-A-P）、Runzhe Wen（南京大学）、Yinghao Ma（伦敦玛丽女王大学）、Yaning Pan（复旦大学）、Sungkyun Chang（伦敦玛丽女王大学）、Termeh Taheri（伦敦玛丽女王大学）、Haiwen Xia（北京大学）、Christos Plachouras（伦敦玛丽女王大学）、Emmanouil Benetos（伦敦玛丽女王大学）、Yizhi Li（曼彻斯特大学）、Ge Zhang（M-A-P）、Jian Yang（M-A-P）、Tianhao Peng（M-A-P）、Zili Wang（M-A-P）、Minghao Liu（2077AI）、Junran Peng（北京科技大学）、Zhaoxiang Zhang（中国科学院）、Jiaheng Liu（南京大学） 💡 毒舌点评该工作系统性地定义了评估全模态大语言模型音频-视觉协同推理能力的难题，并通过一套严谨的“人-模型”协作流程构建了一个高质量的评测集，其发现揭示了当前模型在“真正理解”音视频内容上的巨大鸿沟。然而，其核心贡献是一个评测基准（Benchmark）而非一个解决该难题的新模型，且目前数据集尚未完全公开，这限制了其即时影响力。 ...

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

📄 OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM #多模态模型 #语音大模型 #对比学习 #跨模态 #大语言模型 ✅ 7.5/10 | 前25% | #多模态模型 | #多模态模型 | #语音大模型 #对比学习学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Hanrong Ye（NVIDIA）通讯作者：Hongxu Yin（NVIDIA）， Pavlo Molchanov（NVIDIA）作者列表：Hanrong Ye， Chao-Han Huck Yang， Arushi Goel， Wei Huang， Ligeng Zhu， Yuanhang Su， Sean Lin， An-Chieh Cheng， Zhen Wan， Jinchuan Tian， Yuming Lou， Dong Yang（以上作者标注为“Core Contribution”，均来自NVIDIA）， Zhijian Liu， Yukang Chen， Ambrish Dantrey， Ehsan Jahangiri， Sreyan Ghosh， Daguang Xu， Ehsan Hosseini-Asl， Danial Mohseni Taheri， Vidya Murali， Sifei Liu， Yao Lu， Oluwatobi Olabiyi， Yu-Chiang Frank Wang， Rafael Valle， Bryan Catanzaro， Andrew Tao， Song Han， Jan Kautz， Hongxu Yin§†， Pavlo Molchanov§*（标注“§Equal Advisory”，“†Corresponding Authors”），机构均为NVIDIA。 💡 毒舌点评论文在系统性地探索全模态LLM架构与数据配方上做得非常扎实，尤其是OmniAlignNet结合时间编码的设计有清晰的工程动机。然而，论文对模型的具体规模（参数量、计算成本）和数据合成管道的细节披露略显不足，使得“效率优势”的宣称（如0.2T token训练）的完整上下文不够透明，更像是一个精心调优的大型系统工程展示，而非在某个单一技术点上的颠覆性创新。 ...

Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers

📄 Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers #音视频 #扩散模型 #流匹配 #跨模态 #生成模型 🔥 8.0/10 | 前25% | #音视频 | #扩散模型 | #流匹配 #跨模态学术质量 5.8/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jibin Song (延世大学人工智能系， CineLingo) 通讯作者：Jibin Song (邮箱：sjbpsh1@yonsei.ac.kr， jibinsong@cinelingo-labs.com) 作者列表：Jibin Song (延世大学， CineLingo)、Mingi Kwon (延世大学， CineLingo)、Jaeseok Jeong (延世大学， CineLingo)、Youngjung Uh (延世大学， CineLingo) 💡 毒舌点评亮点：本文没有空谈同步的重要性，而是针对“MSE损失对动态区域监督不足”和“条件引导策略”这两个关键痛点，分别提出了动作感知损失（Loss层面）和音频同步引导（推理层面）的成套解决方案，并辅以新的评估指标CycleSync，形成了一个完整、闭环的技术方案，实验也证明了有效性。短板：新提出的CycleSync指标本质上是“视频->音频->对比”的循环测试，其准确性严重依赖于所使用的预训练V2A模型的保真度和泛化能力，这给评估引入了一个不透明的、外部的“黑箱”偏差，使得绝对分数的解读需要更加谨慎。 🔗 开源详情代码：论文明确承诺将发布代码，但文中未提供具体的GitHub或其他代码仓库链接。模型权重：论文明确承诺将发布训练好的模型，但未提供具体链接。数据集：使用的是公开数据集AVSync15和TheGreatestHits，论文中未提及是否发布新的数据集。 Demo：论文未提及提供在线演示。复现材料：提供了详细的实现细节，包括模型架构选择、损失函数公式、训练硬件、训练步数、关键超参数（如λ, w, δ, 批大小虽未明确但其他信息详尽），以及用户研究设置。这些信息充足，具备较高的可复现性。论文中引用的开源项目：视频生成骨干：Pyramid Flow (Jin et al., 2024a) 音频编码器：DenseAV (Hamilton et al., 2024) 文本编码器：CLIP (Radford et al., 2021) V2A模型（用于CycleSync评估）：V-AURA (Viertola et al., 2025) 其他对比基线：TempoTokens (Yariv et al., 2023), AVSyncD (Zhang et al., 2024) 📌 核心摘要本文致力于解决音频到视频（A2V）生成中，现有模型难以实现音频与视频运动之间精细时间同步的问题。论文提出了Syncphony，一个基于预训练扩散Transformer（DiT）骨干的生成框架。其方法核心是在DiT架构的后期层中引入音频交叉注意力，并通过两个关键技术提升同步性能：1) 动作感知损失，在训练时对高运动区域施加更大的损失权重，引导模型更关注与音频事件因果相关的运动；2) 音频同步引导，在推理时通过一个禁用了音频层的“异步模型”来引导完整模型，放大音频信号对运动的影响而不损害视觉质量。与已有的间接映射（如调制注意力权重、投影到文本空间）或从零构建时序层的方法不同，本文直接、精细地注入音频特征，并利用强大的预训练视频骨干保证生成质量。为评估同步性，论文还提出了新指标CycleSync，通过视频重建音频来间接衡量生成视频是否保留了原始音频的时序结构。在AVSync15和TheGreatestHits数据集上的实验表明，Syncphony在同步准确性（CycleSync得分更高）和视觉质量（FVD/FID更低）上均优于现有方法。该工作的实际意义在于为高质量、高同步性的视频生成提供了有效方案，但其局限性包括：动作感知损失的权重基于真值运动幅度，未显式区分音频相关与无关运动；CycleSync指标的可靠性受底层V2A模型影响；生成的视频分辨率（380×640）和时长（5秒）仍有提升空间。 ...

TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction

📄 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction #多模态模型 #预训练 #Transformer #脑编码 #跨模态 🔥 9.5/10 | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Stéphane d‘Ascoli（Meta AI）通讯作者：未说明作者列表：Stéphane d‘Ascoli（Meta AI）、Jérémy Rapin（Meta AI）、Yohann Benchetrit（Meta AI）、Hubert Banville（Meta AI）、Jean-Rémi King（Meta AI） 💡 毒舌点评亮点在于其工程与科学的完美结合：它不仅是竞赛刷榜利器，更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用，为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖（80小时/被试fMRI，128 GPU特征提取）以及仅在4名被试上验证的结论，这在一定程度上限制了其普适性的即时说服力。 🔗 开源详情代码：提供了代码仓库链接：https://github.com/facebookresearch/algonauts-2025。模型权重：论文中未提及是否公开TRIBE模型或特征提取模型的权重。数据集：使用了公开的Courtois NeuroMod数据集（CC0许可），并说明为Algonauts 2025竞赛选择了4名被试的子集。 Demo：论文中未提及在线演示。复现材料：提供了极其详尽的复现信息，包括完整的超参数表（表3）、数据处理流程、评估指标定义、训练细节（优化器、学习率调度、SWA、模态丢弃等），以及硬件规格。论文中引用的开源项目：明确列出了使用的开源模型和工具，包括：Llama 3.2（Meta）、Wav2Vec-Bert 2.0（Hugging Face）、V-JEPA 2（Meta， Apache协议）、x-transformers包（MIT协议）、nilearn（BSD协议）、PyTorch。 📌 核心摘要要解决的问题：传统神经科学研究局限于单模态、单脑区的碎片化模型，而现有的脑编码模型存在线性映射假设过强、仅支持单主体训练、且大多局限于单模态刺激输入三大限制，阻碍了构建统一的全脑认知模型。方法核心：提出TRIBE，一种深度神经网络，它将文本（Llama 3.2）、音频（Wav2Vec-Bert）和视频（V-JEPA 2）基础模型的预训练表征作为输入，通过一个Transformer编码器来建模其时间动态和跨模态整合，最终预测全脑的fMRI反应。新在哪里：与之前工作相比，TRIBE首次实现了同时是非线性的、多主体的、多模态的端到端脑编码。它超越了简单的线性映射，并允许在多个被试的数据上联合训练一个共享模型。主要实验结果：TRIBE在Algonauts 2025脑编码竞赛中获得第一名（267个团队），平均Pearson相关系数为0.2146，显著领先第二名（见表1）。消融实验表明，多模态模型（0.31）显著优于最佳单模态模型（视频0.25），且这种优势在前额叶、顶叶等高级联合皮层最为明显（见图4）。模型能够预测所有1000个脑区，并在多种高度分布外的电影上展现出鲁棒性（见表2）。实际意义：为神经科学提供了一个统一的建模框架，使得从多模态自然刺激预测全脑活动成为可能，有望推动对知觉、理解等认知过程的整体性研究，并为“计算机实验”提供新工具。主要局限性：当前模型基于粗粒度的脑区分割（1000个区域），损失了精细的空间信息；仅使用了fMRI数据，无法捕捉快速的神经电活动；目前仅在4名被试上进行训练和验证。 🏗️ 模型架构 TRIBE的整体架构旨在将三种模态的刺激信息融合，并预测全脑的BOLD响应。其流程可概括为：特征提取 -> 多模态融合 -> 时序建模 -> 全脑预测。 ...

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

📄 XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models #基准测试 #多模态模型 #音频问答 #跨模态 #模型评估 ✅ 7.5/10 | 前25% | #基准测试 | #多模态模型 | #音频问答 #跨模态学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Xingrui Wang (1. Advanced Micro Devices, 2. Johns Hopkins University) 通讯作者：Jiang Liu (Advanced Micro Devices) 作者列表：Xingrui Wang (Advanced Micro Devices, Johns Hopkins University), Jiang Liu (Advanced Micro Devices), Chao Huang (Advanced Micro Devices, University of Rochester), Xiaodong Yu (Advanced Micro Devices), Ze Wang (Advanced Micro Devices), Ximeng Sun (Advanced Micro Devices), Jialian Wu (Advanced Micro Devices), Alan Yuille (Johns Hopkins University), Emad Barsoum (Advanced Micro Devices), Zicheng Liu (Advanced Micro Devices) 💡 毒舌点评亮点：基准设计极其系统且具有诊断性，通过“模态平衡”的六种排列组合，像精密仪器一样能测量出模型对不同模态的“偏科”程度，这是超越简单平均分的深度评测。短板：论文将最强的闭源模型（Gemini）作为标杆，但自身并未提出新的模型或算法，因此更像一份详尽的“体检报告”而非“治疗方案”；同时，尽管承诺开源，但评测完全依赖现有模型，缺乏对新模型训练的直接指导细节。 ...

A cross-species neural foundation model for end-to-end speech decoding

📄 A cross-species neural foundation model for end-to-end speech decoding #语音识别 #脑机接口 #预训练 #端到端 #跨模态 🔥 8.0/10 | 前25% | #语音识别 | #预训练 | #脑机接口 #端到端学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yizi Zhang（哥伦比亚大学），Linyang He（哥伦比亚大学）（*共同第一作者）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Yizi Zhang（哥伦比亚大学），Linyang He（哥伦比亚大学），Chaofei Fan（斯坦福大学），Tingkai Liu（微软），Han Yu（哥伦比亚大学），Trung Le（华盛顿大学），Jingyuan Li（亚马逊），Scott Linderman（斯坦福大学），Lea Duncker（哥伦比亚大学），Francis R Willett（斯坦福大学），Nima Mesgarani（哥伦比亚大学），Liam Paninski（哥伦比亚大学） 💡 毒舌点评这篇论文的核心亮点是首次将跨物种、跨任务的自监督预训练成功应用于神经语音解码，并在竞赛基准上取得了双料第一，展示了在低数据场景（想象语音）下的强大迁移能力。然而，其短板在于端到端解码的实时性严重受限（单句需0.95秒），且推理依赖大型LLM，离真正的“实时、可穿戴、可部署”的临床应用还有很长的路要走，更像是一个概念验证的“实验室最优解”。 🔗 开源详情代码：论文中未提及代码链接。未说明是否会开源。模型权重：未提及公开模型权重。数据集：明确使用了多个公开数据集（Brain-to-Text Benchmark ‘24/‘25， Kunz et al. 2025，以及多个猴/人运动神经数据集），并提供了数据获取渠道（DRYAD, DANDI, Zenodo）。 Demo：未提及在线演示。复现材料：非常充分。论文附录（从A到R）详细描述了数据集详情、预处理、模型架构（所有超参数）、训练细节（优化器、硬件、时间）、评估指标、级联/端到端解码器细节、集成方法、消融实验设置、可解释性分析方法等。这是本文的一大优点。论文中引用的开源项目：Ray Tune (Liaw et al., 2018) 用于超参数搜索；DeepSpeed ZeRO-3 用于大模型训练；AdamW 优化器；scikit-learn 用于LDA分析。 📌 核心摘要问题：现有语音脑机接口（BCI）多采用级联框架（先解码音素，再用语言模型组句），导致各阶段无法联合优化，性能受限。端到端方法此前性能不佳。方法核心：提出端到端脑-文本框架（BIT）。其核心是一个在人类和猴子多任务（语音、运动）Utah阵列数据上进行跨物种自监督预训练的Transformer神经编码器。该编码器与一个音频大语言模型（Audio-LLM）解码器端到端连接，并使用对比学习对齐神经与文本嵌入空间。创新：首次在神经解码中实现跨物种预训练；首次将神经信号作为“音频”模态输入Audio-LLM；使用对比学习进行模态对齐，提升跨任务（尝试/想象语音）泛化能力。主要结果：在级联设置下，使用预训练编码器在Brain-to-Text ‘24和'25竞赛中取得最佳性能（WER：6.35% / 4.06%）。在端到端设置下，将字错率（WER）从先前最佳的24.69%大幅降低至10.22%（集成后）。在低资源的想象语音任务上，预训练带来巨大性能提升（WER降低39-45%），且跨物种预训练优于同任务监督预训练。方法基准类型 WER Feng et al. (2024) Brain-to-Text ‘24 端到端 24.69% BIT End-to-End Brain-to-Text ‘24 端到端 15.67% BIT End-to-End + Ensemble Brain-to-Text ‘24 端到端 10.22% BIT Cascaded Brain-to-Text ‘24 级联 6.35% BIT Cascaded + Ensemble Brain-to-Text ‘24 级联 5.10% Feghhi et al. (2025) + Ensemble Brain-to-Text ‘24 级联 5.68% 图2展示了预训练（BIT-Human, BIT-All）相比从头训练（BIT-TFS）和RNN基线在两种任务和两种解码框架下的显著优势，尤其在想象语音任务上提升巨大。 ...

AUHead: Realistic Emotional Talking Head Generation via Action Units Control

📄 AUHead: Realistic Emotional Talking Head Generation via Action Units Control #面部动画生成 #扩散模型 #音频大模型 #跨模态 #情感理解 🔥 8.0/10 | 前25% | #面部动画生成 | #扩散模型 | #音频大模型 #跨模态学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiayi Lyu (中国科学院大学) 通讯作者：Jian Xue (中国科学院大学) 作者列表：Jiayi Lyu (中国科学院大学)， Leigang Qu (新加坡国立大学)， Wenjing Zhang (中国科学院大学)， Hanyu Jiang (中国科学院大学)， Kai Liu (浙江大学)， Zhenglin Zhou (浙江大学)， Xiaobo Xia (新加坡国立大学)， Jian Xue (中国科学院大学)， Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评亮点：论文最大的亮点在于引入了可解释的面部动作单元（AU）作为中间桥梁，将语音情感理解（通过ALM）和精细面部动画生成（通过扩散模型）优雅地解耦，为解决情感说话头生成中的“可控性与质量”困境提供了一个新颖且通用的框架。短板：尽管框架新颖，但作为核心控制信号的AU序列，其预测精度（在MEAD数据集上MAE为0.2085）可能成为整个系统性能的瓶颈；此外，论文中Stage 2的生成模块（Hallo V1， MEMO）并非作者原创，其创新更多体现在控制策略的整合而非生成架构的突破上。 ...

Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

📄 Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models #多模态模型 #自监督学习 #跨模态 #少样本 ✅ 7.0/10 | 前25% | #多模态模型 | #自监督学习 | #跨模态 #少样本学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Sharut Gupta (MIT CSAIL) 通讯作者：Phillip Isola (MIT CSAIL) 作者列表：Sharut Gupta (MIT CSAIL), Shobhita Sundaram (MIT CSAIL), Chenyu Wang (MIT CSAIL), Stefanie Jegelka (TU Munich, MIT CSAIL), Phillip Isola (MIT CSAIL) 💡 毒舌点评本文的亮点在于，它从一个极其简洁且违反直觉的假设（“未配对的模态也能相互教化”）出发，构建了一套从理论到实验的完整论证，证明了通过简单的权重共享就能利用异质数据提升单模态表征。其短板在于，尽管框架通用，但其大规模验证几乎全部集中在图像和纹理分类等相对“传统”的视觉任务上，对于论文中提到的语音、医疗等更前沿、更需要多模态融合的垂直领域，实验深度和说服力略显不足，更像是概念验证。 ...

Closing the Gap Between Text and Speech Understanding in LLMs

📄 Closing the Gap Between Text and Speech Understanding in LLMs #语音对话系统 #知识蒸馏 #端到端 #大语言模型 #跨模态 ✅ 7.5/10 | 前25% | #语音对话系统 | #知识蒸馏 | #端到端 #大语言模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Santiago Cuervo（Université de Toulon, Aix Marseille Université, CNRS, LIS；论文注释表明工作在Apple实习期间完成）通讯作者：未明确说明作者列表：Santiago Cuervo（Université de Toulon, Aix Marseille Université, CNRS, LIS），Skyler Seto（Apple），Maureen de Seyssel（Apple），Richard He Bai（Apple），Zijin Gu（Apple），Tatiana Likhomanenko（Apple），Navdeep Jaitly（Apple），Zakaria Aldeneh（Apple） 💡 毒舌点评这篇论文最大的亮点是把“语音LLM为什么不如文本LLM”这个模糊问题，清晰地拆解成了“遗忘”和“跨模态错位”两个可测量的指标，并据此设计了高效的两阶段训练策略，在数据量远小于同行的情况下取得了有竞争力的结果。但不足之处也很明显：方法验证严重依赖特定的合成语音（Kokoro TTS），其生成的语音质量与自然语音的差异，以及对非英语内容、复杂领域的覆盖，可能被低估了，而这些恰恰是真实场景中的关键挑战；此外，Stage II的主动选择策略虽然有效，但提升幅度有限，且需要预先为大量文本生成语音进行“探针”测量，其实际部署的成本效益比值得商榷。 ...