Icassp-2026

BridgeCode: A Dual Speech Representation Paradigm for Autoregressive Zero-Shot Text-to-Speech Synthesis

📄 BridgeCode: A Dual Speech Representation Paradigm for Autoregressive Zero-Shot Text-to-Speech Synthesis #语音合成 #自回归模型 #零样本 #模型评估 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #零样本 #模型评估学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Jingyuan Xing（华南理工大学）、Mingru Yang（华南理工大学）（论文注明两者共同第一作者）通讯作者：Xiaofen Xing（华南理工大学）、Xiangmin Xu（佛山大学）（论文标注†）作者列表：Jingyuan Xing（华南理工大学）、Mingru Yang（华南理工大学）、Zhipeng Li（华南理工大学）、Xiaofen Xing（华南理工大学）、Xiangmin Xu（佛山大学，华南理工大学） 💡 毒舌点评亮点在于其提出的“双表示”范式巧妙地将离散token的生成效率与连续特征的高质量重建相结合，有效缓解了自回归TTS中经典的“速度-质量”矛盾，并在实验中取得了目前最低的token生成率。短板是所有实验仅在英语LibriTTS一个数据集上进行，虽然方法具有通用性，但缺乏多语言或跨领域（如情感、唱歌）的验证，其真实泛化能力尚待证明。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：实验使用公开的LibriTTS数据集，但未提供经过处理的特定数据或脚本。 Demo：提供了在线语音合成演示页面链接：https://test1562.github.io/demo/. 复现材料：给出了部分训练细节（如优化器、学习率、batch size、训练步数、硬件），但未提供完整的训练配置文件、模型架构详细参数或检查点。论文中引用的开源项目：wav2vec 2.0 Base（特征编码器）、HiFi-GAN（vocoder）。 📌 核心摘要要解决什么问题：针对基于自回归（AR）的零样本文本到语音合成（TTS）中存在的两个关键问题：(i) 生成速率与合成质量之间固有的权衡矛盾；(ii) 直接沿用文本模型训练范式导致的语音监督信号失配。方法核心是什么：提出BridgeTTS框架，其核心是BridgeCode双语音表示范式。该范式包含稀疏的离散token和稠密的连续特征两种表示，并设计了SparseBridge和DenseBridge两个对称的桥接模块进行双向转换。AR模型在生成时只需预测低帧率的稀疏token，再通过DenseBridge恢复出高信息量的连续特征用于高质量合成。同时，训练中引入特征损失（Feature Loss）与token损失联合优化，提供更细粒度的监督。与已有方法相比新在哪里：不同于以往AR-TTS要么降低token率牺牲质量，要么增加token信息量牺牲效率的单一思路，BridgeCode首次提出利用“稀疏token生成+连续特征重建”的混合范式，在提升效率的同时保证质量。此外，通过联合token级和特征级的损失函数，解决了AR模型训练中的监督信号失配问题。主要实验结果如何：在LibriTTS数据集上，BridgeTTS取得了最低的Token Rate（10Hz），相较于基线CosyVoice（25Hz）和GPT-Talker（50Hz）大幅降低。同时，其词错误率（WER）在测试集上为4.9%，显著低于VALL-E（18.5%）、UniAudio（12.9%）和GPT-Talker（16.4%），仅略高于CosyVoice（8.0%）。在语音质量（QMOS）和说话人相似度（SMOS）上，BridgeTTS与最优的CosyVoice表现相当或略低，但均优于大多数基线。消融实验证明，DenseBridge和特征损失对性能有关键贡献。合成速度（RTF）相比基线AR模型提升了约63%（0.37x）。模型 Token Rate (↓) WER (↓) SMOS (↑) QMOS (↑) UTMOS (↑) LibriTTS Development Set GT / 2.3% 4.41 ± 0.11 4.41 ± 0.13 4.258 CosyVoice 25Hz 6.8% 4.13 ± 0.12 4.36 ± 0.12 4.253 BridgeTTS (Ours) 10Hz 3.4% 4.07 ± 0.11 4.15 ± 0.09 4.050 LibriTTS Test Set VALL-E 50Hz 18.5% 3.64 ± 0.12 3.49 ± 0.11 2.728 CosyVoice 25Hz 8.0% 4.12 ± 0.08 4.29 ± 0.11 4.148 BridgeTTS (Ours) 10Hz 4.9% 4.01 ± 0.12 4.11 ± 0.13 3.894 模型 Token Rate (↓) WER (↓) SMOS (↑) QMOS (↑) UTMOS (↑) BridgeTTS 10Hz 4.9% 4.01 ± 0.12 4.11 ± 0.13 3.894 -w/o DenseBridge 10Hz 13.8% 3.74 ± 0.11 3.74 ± 0.12 3.443 -w/o Lfeatures 10Hz 7.1% 3.92 ± 0.13 3.96 ± 0.12 3.471 系统 RTF (↓) Token Rate (↓) WER (↓) SMOS (↑) QMOS (↑) UTMOS (↑) Baseline AR 1× 50Hz 9.8% - - - BridgeTTS 0.37× 10Hz 4.9% +0.12 +0.09 +0.43 实际意义是什么：该方法为构建更高效、高质量的零样本TTS系统提供了新思路。通过降低自回归生成的计算需求，有助于在资源受限的设备或需要实时响应的场景中部署先进的语音合成技术。主要局限性是什么：目前所有实验仅在英文LibriTTS数据集上进行，对于多语言、跨领域的泛化能力未做探讨。此外，虽然对比了多种基线，但未与最新（如2025-2026）的一些代表性工作进行直接比较。 🏗️ 模型架构 BridgeTTS的整体架构分为两大部分：BridgeCode表示学习框架和BridgeTTS自回归生成框架。 ...

Bridging the Front-End and Back-End for Robust ASR via Cross-Attention-Based U-Net

📄 Bridging the Front-End and Back-End for Robust ASR via Cross-Attention-Based U-Net #语音识别 #交叉注意力 #U-Net #鲁棒性 ✅ 7.0/10 | 前25% | #语音识别 | #交叉注意力 | #U-Net #鲁棒性学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Tianqi Ning (新疆大学计算机科学与技术学院) 通讯作者：Hao Huang (新疆大学计算机科学与技术学院) 作者列表：Tianqi Ning (新疆大学计算机科学与技术学院, 新疆多语言信息技术重点实验室)，Lili Yin (新疆大学计算机科学与技术学院, 新疆多语言信息技术重点实验室)，Liting Jiang (新疆大学计算机科学与技术学院, 新疆多语言信息技术重点实验室)，Yuye Hu (新疆大学计算机科学与技术学院, 新疆多语言信息技术重点实验室)，Ziyuan Chen (新疆大学计算机科学与技术学院, 新疆多语言信息技术重点实验室)，Hao Huang (新疆大学计算机科学与技术学院, 新疆多语言信息技术重点实验室, 丝绸之路多语言认知计算联合国际研究实验室) 💡 毒舌点评本文的核心亮点在于其“桥梁”模块的设计哲学：不改变预训练的SE和ASR模型，而是通过一个轻量的交叉注意力U-Net在冻结设置下进行特征融合，这为即插即用地提升现有系统鲁棒性提供了一个优雅的解决方案。然而，论文在证明该方法的普适性上稍显薄弱，其所有实验均在一个跨域测试集（AMI）上进行，虽然这恰恰是其宣称的优势场景，但缺乏在标准训练/测试同分布基准（如CHiME-4测试集）上的验证，使得结论的全面性打了折扣。 🔗 开源详情代码：论文中未提及代码链接。作者未提供开源代码仓库。模型权重：未提及是否公开模型权重。数据集：使用了公开数据集CHiME-4（训练）和AMI sdm1（测试），但未提供数据预处理脚本或具体配置文件。 Demo：未提供在线演示。复现材料：论文给出了较详细的训练配置（学习率、批量大小、梯度累积、裁剪范数、通道数等），但部分关键细节（如优化器、warm-up步数、损失函数、具体硬件环境）未说明，不足以完全复现。引用的开源项目：SE前端使用了FRCRN [29] 和 MossformerGAN [30]，ASR后端使用了Whisper [31]。这些模型本身是公开的，但论文未提供集成这些模型的具体代码。开源计划：论文中未提及开源计划。 📌 核心摘要问题：语音增强（SE）作为语音识别（ASR）的前端，会引入与ASR目标不匹配的失真或伪影。现有观察添加（OA）方法通过线性融合增强语音和带噪语音来缓解此问题，但在复杂声学环境中效果有限且依赖于固定的融合系数。方法核心：提出一种基于交叉注意力的U-Net模块（CA-UNet），用于交互式地融合增强语音和带噪语音的Fbank特征。该模块采用双分支编码器-解码器架构，利用交叉注意力机制让两个输入分支相互提取互补信息，并通过门控融合模块自适应整合输出，最终生成更鲁棒的声学特征。创新性：与OA的线性加法机制相比，本方法引入了非线性、可学习的交互式特征融合；在保持前端SE和后端ASR模型参数冻结的严格条件下运行，具有即插即用的实用性；将U-Net的多尺度特征提取能力与交叉注意力的动态信息整合能力相结合。主要实验结果：在AMI sdm1数据集（复杂会议场景）上，使用冻结的FRCRN（SE）和Whisper-medium（ASR）时，所提方法相比最佳OA基线（wOA=0.2）实现了28.71%的相对词错误率（WER）降低，相比仅使用增强语音（SE-ASR）实现了26.76%的相对降低。消融实验表明，交叉注意力和自注意力模块对性能提升均有贡献。关键实验结果表格如下： ASR后端 SE前端仅ASR (WER) SE+ASR (WER) SE+OA+ASR (WER) 提出方法 (WER) whisper-small FRCRN 99.18% 72.49% 77.94% 54.06% whisper-small MossformerGAN 99.18% 56.35% 64.44% 52.91% whisper-medium FRCRN 62.67% 54.25% 55.73% 39.73% whisper-medium MossformerGAN 62.67% 46.58% 49.74% 41.39% whisper-large FRCRN 53.98% 44.62% 47.39% 38.93% whisper-large MossformerGAN 53.98% 40.49% 43.53% 40.81% 表I 摘录。可以看出，提出方法在所有配置中均取得最佳或次佳性能，尤其在使用较小ASR模型时优势更明显。实际意义：为在不重新训练已有预训练SE和ASR模型的前提下，提升复杂环境下的ASR鲁棒性提供了一种有效的后处理方案，降低了系统集成与升级的成本。主要局限性：实验验证集中在单一的跨域测试集（AMI），缺乏在标准同分布基准上的对比；模块虽轻量但仍引入额外延迟（约15.83ms/句），对实时性要求极高的场景可能有影响；论文未公开代码和模型，限制了复现与应用。 🏗️ 模型架构整体架构：如图1所示，所提模块接收两路输入：增强语音的Fbank特征（Ze）和带噪语音的Fbank特征（Zn）。每路输入通过一个独立的分支进行处理，两个分支结构对称，均包含一个编码器、一个解码器以及一个门控融合模块。最终，融合后的特征被送入下游ASR后端（如Whisper）。 ...

Bridging the Measurement–Simulation Gap in Room Acoustics with Real2sim Diffusion

📄 Bridging the Measurement–Simulation Gap in Room Acoustics with Real2sim Diffusion #声源定位 #扩散模型 #麦克风阵列 #信号处理 🔥 8.5/10 | 前25% | #声源定位 | #扩散模型 | #麦克风阵列 #信号处理学术质量 6.2/7 | 选题价值 1.6/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Jean-Daniel Pascal Prieto（UMRAE, Cerema, Univ. Gustave Eiffel, Strasbourg, France；Inria, IRMA, Université de Strasbourg, CNRS UMR 7501, Strasbourg, France）通讯作者：未说明作者列表：Jean-Daniel Pascal Prieto（UMRAE, Cerema, Univ. Gustave Eiffel, Strasbourg, France；Inria, IRMA, Université de Strasbourg, CNRS UMR 7501, Strasbourg, France）、Antoine Deleforge（Inria, IRMA, Université de Strasbourg, CNRS UMR 7501, Strasbourg, France）、Cédric Foy（UMRAE, Cerema, Univ. Gustave Eiffel, Strasbourg, France）、Marceau Tonelli（UMRAE, Cerema, Univ. Gustave Eiffel, Strasbourg, France） 💡 毒舌点评这篇论文的亮点在于巧妙地用生成式扩散模型（薛定谔桥）来解决一个物理建模中的“脏数据”问题（测量失配），这种思路在声学领域较为新颖，且实验上成功地在真实测量数据上实现了较高的声像源定位召回率，是迈向实用化的重要一步。但其短板在于，整个框架高度依赖于对特定测量设备（扬声器、麦克风阵列）响应的精确模拟和训练，这可能限制其泛化能力；另外，真实数据上评估用的“正确”标准（如1米、20度阈值）相对粗糙，无法精细量化定位精度的提升。 ...

Bridging the Semantic Gap: Cross-Attentive Fusion for Joint Acoustic-Semantic Speech Quality Assessment

📄 Bridging the Semantic Gap: Cross-Attentive Fusion for Joint Acoustic-Semantic Speech Quality Assessment #语音质量评估 #对比学习 #预训练 #交叉注意力 #跨域泛化 🔥 8.5/10 | 前25% | #语音质量评估 | #对比学习 | #预训练 #交叉注意力学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zhaoyang Wang（中国科学院声学研究所）通讯作者：论文中未明确标注。作者列表：Zhaoyang Wang（中国科学院声学研究所；中国科学院大学）， Chengzhong Wang（中国科学院声学研究所；中国科学院大学）， Jiale Zhao（中国科学院声学研究所；中国科学院大学）， Dingding Yao（中国科学院声学研究所；中国科学院大学）， Jing Wang（北京理工大学）， Junfeng Li（中国科学院声学研究所；中国科学院大学）。 💡 毒舌点评亮点：论文概念清晰，直指“语义鸿沟”这一现有SQA模型的痛点，并通过设计合理的双分支架构和两阶段训练策略进行解决，实验对比充分，结论有说服力。短板：其核心创新——利用预训练的Whisper和DAC模型通过双向交叉注意力融合——在方法层面更像是一个工程化设计，缺乏理论上的新颖性或对融合机制本身的深入探究。同时，对比方法虽然包括了主流基线，但未能涵盖所有最新的顶尖模型。 🔗 开源详情代码：提供了GitHub仓库链接：https://github.com/kalenon/JASSQA 模型权重：论文中未提及是否公开预训练模型权重。数据集：论文中使用的NISQA， VoiceMOS Challenge 2023， Tencent， BVCC等数据集均为公开或比赛提供的数据集，但论文未说明其JASSQA模型是否提供了特定的数据预处理脚本或合并后的数据集。 Demo：论文中未提及在线演示。复现材料：论文给出了主要超参数（学习率、批量大小、优化器、早停轮数）和两阶段训练策略的描述。模型架构图（图1）也提供了必要的设计细节。但未提供具体的代码注释、配置文件、检查点或更详尽的附录说明。论文中引用的开源项目：论文依赖以下开源模型/工具：Descript Audio Codec (DAC) [14]， Whisper [9]。总结：论文代码开源，这是复现的重要基础。但完整的端到端复现可能需要研究者自行准备数据集并下载预训练的DAC和Whisper模型，并按照论文描述的策略进行训练。 📌 核心摘要问题：现有非侵入式语音质量评估（SQA）模型过度依赖语义预训练模型（如Wav2Vec， Whisper），这些模型在训练时追求对声学变异（如噪声、通道效应）的不变性，却忽略了人类感知质量所依赖的精细声学线索，导致“语义鸿沟”，影响模型在多样化场景下的泛化能力。方法核心：提出JASSQA模型，采用双分支架构。声学分支利用Descript Audio Codec (DAC) 提取离散声学token并通过双路径（直接映射+编码器）生成特征；语义分支利用Whisper提取语言特征。核心融合机制为双向跨注意力，允许两个分支的特征相互查询与增强，随后拼接并通过MLP预测MOS分数。创新点：与已有简单拼接特征的方法（如MOSA-Net+）相比，JASSQA通过双向跨注意力实现了声学与语义表征的深度交互式融合；提出两阶段训练策略，第一阶段使用对比回归损失预训练声学编码器以构建感知有序的表征空间，第二阶段冻结部分组件进行端到端微调。主要结果：在NISQA和VoiceMOS Challenge 2023（Track 3）数据集上，JASSQA在SRCC、LCC和MSE三项指标上均优于MOS-SSL， UTMOS， MOSA-Net及MOSA-Net+等基线。例如，在NISQA上，JASSQAlarge的SRCC达到0.904， LCC达到0.907。在跨域泛化测试（腾讯会议数据、BVCC语音转换数据）中，JASSQA同样表现出显著的性能优势。实际意义：该工作为构建更鲁棒、泛化能力更强的自动化语音质量评估系统提供了一种有效框架，可应用于语音合成、语音增强、在线会议等系统的质量监控与优化。主要局限性：模型架构是现有组件（Whisper， DAC，交叉注意力）的组合，缺乏机制层面的根本创新。消融实验显示，仅使用声学分支性能下降明显，表明模型对强大的语义预训练特征仍有较强依赖。 🏗️ 模型架构 JASSQA的整体架构（如图1所示）分为并行特征提取、双向跨注意力融合和分数预测三个核心模块。 ...

BSMP-SENet:Band-Split Magnitude-Phase Network for Speech Enhancement

📄 BSMP-SENet:Band-Split Magnitude-Phase Network for Speech Enhancement #语音增强 #信号处理 #时频分析 #模型评估 ✅ 7.0/10 | 前25% | #语音增强 | #信号处理 #时频分析 | #信号处理 #时频分析学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：XueZhou Ju（JiangSu University, School of Computer Science and Communication Engineering）（注：论文中作者列表仅出现一人，根据常规署名推断，但未明确标注“第一作者”）通讯作者：未说明作者列表：XueZhou Ju（JiangSu University, School of Computer Science and Communication Engineering） 💡 毒舌点评亮点：论文敏锐地指出了现有Transformer增强模型“缺乏频率先验”和“相位全局建模困难”这两个痛点，并设计了针对性的解决方案（联合子带分解），思路清晰，消融实验也证实了该核心模块的有效性。短板：整体框架创新更像是“乐高式”模块组合（已有的子带思想+多尺度卷积+Transformer+通道注意力），且实验部分缺少与模型参数量、计算复杂度（FLOPs）的直接对比分析（表中虽列有FLOPs，但未深入讨论效率与性能的权衡），使得“平衡准确性与效率”的宣称缺乏更坚实的证据。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：训练和测试使用了公开数据集（VoiceBank+DEMAND, LibriSpeech, DEMAND, MUSAN, NOISEX-92），但论文未提供生成特定测试集的脚本或说明。 Demo：未提及。复现材料：论文提供了模型架构图、关键模块设计、部分训练策略（优化器、损失类型）和实验设置，但缺少具体的超参数列表（如层数、隐藏维度）、训练步数、学习率调度细节和检查点信息。论文中引用的开源项目：论文中引用的基线方法（如DEMUCs, CMGAN）大多是开源的，但本文未说明是否基于或修改了这些代码库。 📌 核心摘要要解决什么问题：现有基于Transformer的语音增强模型对频率信息缺乏显式感知，导致频谱建模不均衡；同时，多数子带方法仅处理幅度，忽视了相位信息，而全局建模相位又因相位谱的非平稳性而困难，影响了语音重建质量。方法核心是什么：提出BSMP-SENet，其核心是可学习子带滤波器组模块，该模块首次在子带层面联合分解和处理语音的幅度谱与相位谱，引入了显式的频率先验。此外，模型还结合了门控多尺度卷积时序块和频段条件注意力模块，以增强时序建模并进行自适应的通道重加权。与已有方法相比新在哪里：与主要进行幅度子带处理或全局时频建模的方法不同，本方法创新性地实现了幅度-相位联合的、非均匀的子带分解与处理，从而更精细地建模不同频带（尤其是相位变化剧烈的高频）的特性。主要实验结果如何：在VoiceBank+DEMAND基准测试中，模型参数量为2.06M，WB-PESQ达到3.62，STOI为96.3%，CBAK为4.05，在PESQ、STOI和CBAK上均优于或匹配包括MPSENet在内的近期SOTA方法。在自建的LibriSpeech测试集（三种噪声，三种SNR）上，模型平均PESQ为3.26，STOI为0.92，均优于对比的SE-Conformer、UNIVERSE++和MPSENet。消融实验显示，移除核心模块LSFB导致性能下降最显著（PESQ降至3.53，STOI降至95.7%），验证了联合幅度-相位子带处理的关键作用。实际意义是什么：该工作提出了一种更精细地处理语音频谱（尤其是相位）的方法，有望提升真实噪声环境下语音的可懂度和感知质量，对通信、助听设备等应用有潜在价值。主要局限性是什么：论文未提供模型在不同硬件上的推理速度、延迟等实际部署相关的效率数据。此外，虽然使用了两个数据集，但均基于合成噪声，对真实世界极端复杂噪声的泛化能力未充分验证。 🏗️ 模型架构模型是一个端到端的时频域语音增强框架，其整体流程如下： ...

CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR

📄 CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR #语音识别 #端到端 #多任务学习 #多语言 #跨模态 ✅ 7.5/10 | 前25% | #语音识别 | #端到端 | #多任务学习 #多语言学术质量 7.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Muhammad Shakeel（Honda Research Institute Japan Co., Ltd.）通讯作者：未说明作者列表：Muhammad Shakeel（Honda Research Institute Japan Co., Ltd.）， Yosuke Fukumoto（Honda Research Institute Japan Co., Ltd.）， Chikara Maeda（Honda Research Institute Japan Co., Ltd.）， Chyi-Jiunn Lin（Carnegie Mellon University）， Shinji Watanabe（Carnegie Mellon University） 💡 毒舌点评这篇论文的“胶水”艺术令人印象深刻，将成熟的语音编码器、说话人验证模型和动态词汇扩展技术流畅地整合进一个端到端框架，解决了多说话人ASR中一个长期存在但被割裂对待的问题，实验数据也足够扎实。然而，其主要战场仍是LibriSpeech这类“干净的混合”，在AMI这种真实、嘈杂且充满填充词的会议场景中性能出现明显波动，这暗示了该框架在面对真实世界的混乱时可能过于依赖精心构造的条件。 ...

CaMoD: Causal-Aware Modality Denoising for Multimodal Dialogue Intent Recognition

📄 CaMoD: Causal-Aware Modality Denoising for Multimodal Dialogue Intent Recognition #多模态对话意图识别 #因果推理 #多模态模型 #音频事件检测 #鲁棒性 ✅ 7.5/10 | 前25% | #多模态对话意图识别 | #因果推理 | #多模态模型 #音频事件检测学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Jinlong Zhang（北京航空航天大学计算机科学与工程学院）通讯作者：Bo Li（北京航空航天大学计算机科学与工程学院），Xudong Liu（北京航空航天大学计算机科学与工程学院）作者列表：Jinlong Zhang（北京航空航天大学计算机科学与工程学院），Bo Li（北京航空航天大学计算机科学与工程学院），Xudong Liu（北京航空航天大学计算机科学与工程学院） 💡 毒舌点评亮点：将“不是所有模态都可信”这一朴素认知，包装成了一套严谨的因果路由与反事实学习框架，解决了多模态融合中“盲目融合”的真实痛点，逻辑自洽且实验完整。短板：创新本质是现有技术（MoE门控、反事实增强）在特定任务上的精巧组合，缺乏底层理论或架构上的突破；且实验仅限于一个数据集，对极端噪声或模态缺失的鲁棒性验证不足。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开预训练或训练好的模型权重。数据集：使用公开的MIntRec数据集，论文中给出了标准划分比例。 Demo：未提及。复现材料：提供了部分训练细节（优化器、学习率、Batch Size、训练轮数），但关键超参数（如共享维度H）、代码实现和完整配置缺失。引用的开源项目：论文依赖并引用了BERT、Swin-Transformer、Wav2Vec 2.0、AdamW等开源模型和优化器。开源计划：论文中未提及任何开源计划。 📌 核心摘要要解决的问题：现有方法在多模态对话意图识别中，盲目融合所有模态（文本、视频、音频）信息，忽略了模态本身可能存在的噪声或与意图无关的情况，导致模型对噪声敏感且泛化能力差。方法核心：提出CaMoD框架，其核心是一个动态因果路由机制。该机制通过两个门控函数评估视频和音频模态对意图的“因果影响”，将所有可能的模态组合（如纯文本、文本+视频等）视为专家路径，并动态选择最相关的路径进行融合，从而抑制噪声模态。与已有方法相比新在哪里：a) 引入因果评估：不再平等对待所有模态，而是显式建模每个模态的因果贡献。b) 动态路径选择：借鉴MoE思想，实现细粒度、可解释的模态级去噪。c) 配套的训练框架：设计了包括因果一致性损失、多样性正则化器和反事实样本生成策略的多目标训练方法，在没有真实因果标签的情况下有效训练路由模块。主要实验结果：在MIntRec基准数据集上，CaMoD在所有指标上超越现有最强基线。例如，准确率（ACC）达到74.83%，比最强基线SDIF-DA（73.90%）高出0.93%；加权F1值（WF1）为74.91%，提升0.98%。消融实验证明，移除因果路由（CRM）、一致性损失（CCL）、多样性正则化（CDR）或反事实生成策略（CSGS）均会导致性能显著下降（ACC下降1.27%至2.36%不等），验证了各组件的必要性。实际意义：提升了多模态对话系统在真实噪声环境（如嘈杂语音、无关背景画面）下的鲁棒性和可靠性，同时其路由决策提供了一定的可解释性，有助于理解模型融合决策的依据。主要局限性：a) 实验仅在单一数据集MIntRec上进行，缺乏在更多样、更具挑战性场景（如模态严重缺失、噪声强度动态变化）下的验证。b) 训练策略较为复杂，多个损失项的权重（如λ1=0.3, λ2=0.7）需要精细调优，论文未提供超参数敏感性分析。c) 推理时采用argmax硬选择一条路径，可能损失部分不确定性信息，且训练时的加权求和与推理时的硬选择存在差异。 🏗️ 模型架构 ![CaMoD整体框架图](https://ieeexplore.ieee.org/secondary/xpl/global/similarpaper.jsp?tp=&arnumber=11462418&ref= 注：此处应为论文中“pdf-image-page3-idx0”对应的架构图URL。由于提供的文本中仅有图片标识“pdf-image-page3-idx0”而无具体URL，根据规则，此处无法插入图片，仅用文字描述。 ...

Can Hierarchical Cross-Modal Fusion Predict Human Perception of AI Dubbed Content?

📄 Can Hierarchical Cross-Modal Fusion Predict Human Perception of AI Dubbed Content? #模型评估 #多模态模型 #音频分类 #音视频 ✅ 6.0/10 | 前25% | #模型评估 | #多模态模型 | #音频分类 #音视频学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文作者列表中未明确标注顺序）通讯作者：未说明作者列表：Ashwini Dasare（Sony Research India）、Nirmesh Shah（Sony Research India，邮箱已提供）、Ashishkumar Gudmalwar（Sony Research India，邮箱已提供）、Pankaj Wasnik（Sony Research India，邮箱已提供） 💡 毒舌点评亮点：论文提出的“代理MOS+主动学习”框架，巧妙地将多种客观指标融合成弱监督标签，为解决昂贵的人工标注瓶颈提供了一个实用且可扩展的工程化方案。短板：其核心的“层级多模态融合”架构本质上是几种成熟模块（预训练编码器、LoRA、注意力门控、Transformer）的拼装，创新深度有限；且所有实验仅基于Hindi-English双向配音的特定数据集，结论的普适性有待验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的模型权重。数据集：实验使用了公开数据集MELD和M2H2，但论文中未提供其定制化配音数据（12k片段）的获取方式。 Demo：未提供在线演示。复现材料：提供了模型架构描述、超参数设置（LoRA rank, learning rate, batch size等）和训练流程概述，但缺乏完整的配置文件、检查点或详细的实验代码。引用的开源项目：论文引用了多个作为编码器基础的预训练模型（TimeSformer, Wav2Vec2.0, ECAPA-TDNN, Emo2Vec, Sentence-BERT, LoRA），以及用于生成数据的Gemini-9B, F5-TTS等，但未明确说明是否计划开源其贡献的部分。 📌 核心摘要要解决的问题：评估AI配音质量高度依赖昂贵且难以规模化的人工评分（MOS），现有的单一维度客观指标无法全面反映人类的整体感知。方法核心：提出一种层级化多模态融合架构，分别提取音频（说话人、韵律、情感）、视频（全局上下文、面部表情）和文本（语义）的特征，并通过模态内融合和跨模态融合层进行整合，最终预测一个综合的“配音分数”（DubScore）。为解决训练数据不足，设计了一个两阶段训练流程：先使用由多个客观指标加权聚合而成的“代理MOS”进行弱监督预训练（权重通过主动学习优化），再用少量人工MOS数据进行微调。新意：新意在于将主动学习应用于优化代理MOS的权重，并将该弱监督策略与参数高效（LoRA）的多模态层级融合网络相结合，形成一个从弱监督到强监督的完整训练pipeline。主要实验结果：在12k Hindi-English配音片段上训练后，最终模型预测的DubScore与人工MOS的皮尔逊相关系数（PCC）达到0.76，斯皮尔曼秩相关系数（SRCC）为0.77。消融实验表明，全模态（A+V+T）性能显著优于单模态或双模态；主动学习策略在权重学习上全面优于随机采样；“代理MOS+微调”的组合效果最佳（PCC从0.68提升到0.76）。关键实验数据见表2、表4、表5。实际意义：提供了一种可扩展的AI配音质量自动化评估方案，可用于指导配音系统优化、内容批量质检，降低对人工评估的依赖。主要局限性：1）模型和评估完全依赖于预训练特征提取器的质量；2）实验数据集规模（12k）和语言对（仅Hindi-English）有限，未在更多语言、更复杂的配音场景中验证；3）缺乏与最新配音评估方法（如基于LLM的评估）的直接对比；4）开源性不足，难以复现和扩展。 🏗️ 模型架构论文提出的架构如图1所示，其核心思想是模拟人类对配音质量的多层次感知过程，采用“先模态内融合，再跨模态融合”的层级设计。 ...

Can Large Audio Language Models Understand Audio Well? Speech, Scene and Events Understanding Benchmark for LALMs

📄 Can Large Audio Language Models Understand Audio Well? Speech, Scene and Events Understanding Benchmark for LALMs #音频大模型 #基准测试 #音频场景理解 #语音识别 #链式推理 ✅ 7.0/10 | 前25% | #基准测试 | #链式推理 | #音频大模型 #音频场景理解学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Han Yin（KAIST 电气工程学院）通讯作者：Jung-Woo Choi（KAIST 电气工程学院）作者列表：Han Yin（KAIST 电气工程学院）、Jung-Woo Choi（KAIST 电气工程学院） 💡 毒舌点评亮点：论文精准切中了当前LALM评估的一个盲区——现实世界音频中“人声”与“环境声”的能量博弈及其联合理解，提出了首个明确建模SNR差异的综合基准，这个问题的提出本身就比很多论文更有价值。短板：实验部分主要依赖一个通用的文本嵌入模型来“迂回”评估模型对场景和事件的分类能力，这更像是一个工程上的权宜之计，而非严谨的评估范式；此外，只选了4个模型做评测，结论的普遍性略显不足。 🔗 开源详情代码：论文承诺公开代码，项目主页为 https://sites.google.com/view/sseu-bench。论文中未直接提供具体代码仓库链接。模型权重：论文评估的是已有开源LALM，未提及提供新的模型权重。数据集：论文核心贡献之一SSEU-Bench数据集将公开，可通过项目主页获取。 Demo：论文未提及在线演示。复现材料：论文提供了详细的评估方法描述、CoT推理步骤说明，并声称将公开所有Prompt模板。论文中引用的开源项目：依赖DESED、MAESTRO-Real数据集，VCTK语料库，以及被评估的开源模型（LTU-AS, Qwen2-Audio, Kimi-Audio, Step-Audio）和CLAP模型。评估中使用了OpenAI的文本嵌入模型API。 📌 核心摘要要解决什么问题：现有大型音频语言模型（LALM）的评估基准忽略了两个关键现实特征：a) 音频信号通常混合了前景语音和背景非语音声音，且两者能量（信噪比）差异显著；b) 缺乏对同一音频片段中语音、场景和事件的联合理解评估。方法核心是什么：作者提出了SSEU-Bench，一个全新的音频理解基准。该基准通过混合纯净语音（来自VCTK）和真实环境背景音（来自DESED和MAESTRO-Real），并设置不同的信噪比（SNR），构建了21.72小时的测试音频。评估任务包括三个：自动语音识别（ASR）、声学场景分类（ASC）和音频事件标记（AT），并设计了“独立理解”和“联合理解”两种评估范式。此外，引入了链式思维（CoT）引导的推理方法来提升联合理解性能。与已有方法相比新在哪里：这是首个显式建模语音与非语音能量差异，并在同一音频上联合评估语音、场景、事件理解能力的基准。它超越了以往基准（如OpenAQA、AudioBench）多任务独立评估的模式，更贴近真实交互场景。主要实验结果如何：独立理解： CLAP系列模型在ASC和AT任务上显著优于LALM。在ASR上，Kimi-Audio表现最鲁棒（平均WER 8.78%），而LTU-AS因依赖外部ASR而表现极差（平均WER 89.29%）。联合理解影响：联合任务对不同LALM影响不一。例如，Qwen2-Audio-Instruct在联合模式下性能全面下降（WER从16.59升至22.16，mACC从31.24降至21.86）。Step-Audio 2 Mini则倾向于优先完成ASR，导致ASC和AT性能下降。 CoT效果： CoT能有效提升联合理解性能。例如，对Step-Audio 2 Mini，CoT使平均AT mAP提升了约4%。模型模式 WER ↓ (ASR) mACC ↑ (ASC) mAP ↑ (AT) Qwen2-Audio-Instruct 独立 16.59±0.1 31.24±0.1 33.42±0.1 联合 22.16±0.4 21.86±0.1 16.52±1.1 Kimi-Audio 独立 10.19±0.1 22.01±0.2 24.20±0.3 联合 17.84±0.6 22.80±0.2 26.91±0.4 Step-Audio 2 Mini 独立 22.27±0.5 35.73±0.3 36.73±0.5 联合 19.01±0.2 24.39±0.4 30.22±0.2 实际意义是什么：推动LALM在更真实、更复杂的声学场景下进行评估和优化，为开发具备全面音频感知能力（听清说什么、听出在哪、听懂周围有什么）的下一代音频AI提供了关键的测试平台和初步改进思路（CoT）。主要局限性是什么： a) 评估ASC和AT时，依赖外部文本嵌入模型计算相似度作为分类依据，可能无法完全反映LALM自身的分类能力；b) 仅评估了4个开源LALM，结论的普适性有待更多模型验证；c) CoT提示需要额外的推理步骤，增加了推理成本。 🏗️ 模型架构本文的核心贡献不是提出新的LALM架构，而是提出一个评估框架（SSEU-Bench）和一种推理增强方法（CoT）。 ...

Caption and Audio-Guided Video Representation Learning with Gated Attention for Partially Relevant Video Retrieval

📄 Caption and Audio-Guided Video Representation Learning with Gated Attention for Partially Relevant Video Retrieval #视频检索 #多模态模型 #注意力机制 #视觉语言模型 #对比学习 ✅ 7.0/10 | 前25% | #视频检索 | #多模态模型 | #注意力机制 #视觉语言模型学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dan Jiang（湖南大学计算机科学与电子工程学院）通讯作者：Bin Jiang（湖南大学计算机科学与电子工程学院，标注可能为通讯作者）作者列表：Dan Jiang（湖南大学计算机科学与电子工程学院），Bin Jiang*（湖南大学计算机科学与电子工程学院），Chao Yang（湖南大学计算机科学与电子工程学院），Jianbo Zheng（湖南大学计算机科学与电子工程学院） 💡 毒舌点评论文的亮点在于将视觉大语言模型（VLLM）生成的帧级字幕作为一种“语义高亮”工具，并与音频信号一起，通过一个精心设计的门控融合模块整合进视频表示学习，思路清晰且有效。短板在于，其核心创新——利用现成VLLM生成字幕作为辅助模态——更像是一种巧妙的工程应用，而非根本性的方法论突破，且在音频模态的利用上相对浅层，未能深入挖掘其时序动态特性。 🔗 开源详情代码：提供代码仓库链接：https://github.com/LexingtonJd/CAVIGATE 模型权重：论文中未提及是否公开预训练模型权重。数据集：使用的是公开数据集（ActivityNet Captions, TVR），未提供自制数据集。 Demo：未提及在线演示。复现材料：论文给出了主要超参数（推理时的α, β）、使用的VLLM（BLIP）和硬件信息（NVIDIA 4070 Ti Super），但未提供完整的训练脚本、配置文件或检查点。引用的开源项目：主要依赖的开源工具/模型包括：CLIP, Wav2Vec2, BLIP（作为VLLM），以及相关的基线方法代码（如GMMFormer等）。 📌 核心摘要问题：部分相关视频检索（PRVR）中，长视频包含大量冗余的视觉和听觉语义，而只有与查询相关的显著子集决定了相关性。现有方法平等对待所有视觉内容，且忽略音频线索，导致视频表示冗余且不全面。核心方法：提出了CAVIGATE框架，包含两个对称分支：视频-字幕（VC）分支和视频-音频（VA）分支。每个分支通过一个模态门控融合（MGF）Transformer，利用可学习的门控函数动态调节字幕或音频特征对视频帧特征的贡献，以突出显著视觉语义并融合互补音频信息，同时抑制噪声。此外，引入了一种衰减的查询多样化损失，防止同一视频的不同查询在嵌入空间中过度聚集。新意：首次将VLLM生成的帧级描述性字幕作为指导信号，显式地用于突出视频帧中的显著语义；设计了MGF模块自适应融合多模态信息；提出的衰减查询损失旨在缓解语义坍塌，鼓励模型捕获时序演变的语义。实验结果：在ActivityNet Captions和TVR两个基准测试上，CAVIGATE在大多数指标上达到了当时的最先进水平。例如，使用CLIP-ViT-B/32骨干网络时，在ActivityNet Captions上取得了R@1=15.0， SumR=184.5；在TVR上取得了R@1=26.4， SumR=231.2，显著超越了AMDNet等基线方法。消融实验验证了每个组件（VC/VA分支、MGF、查询损失）的有效性。实际意义：为从长、无剪辑视频中进行精准文本检索提供了更鲁棒的视频表示学习方案，可应用于视频内容理解、视频数据库搜索等场景。主要局限性：方法的性能部分依赖于VLLM（如BLIP）生成字幕的质量，引入了额外的计算开销；对音频的利用相对直接（Wav2Vec2编码+简单融合），未充分探索更复杂的音视频交互建模。 🏗️ 模型架构 CAVIGATE是一个双分支（VC和VA）的多模态视频表示学习框架，整体流程如图2左所示。 ...