Icassp-2026

Task-Oriented Sound Privacy Preservation for Sound Event Detection Via End-to-End Adversarial Multi-Task Learning

📄 Task-Oriented Sound Privacy Preservation for Sound Event Detection Via End-to-End Adversarial Multi-Task Learning #音频事件检测 #对抗学习 #多任务学习 #隐私保护 #端到端 ✅ 7.5/10 | 前25% | #音频事件检测 | #对抗学习 | #多任务学习 #隐私保护学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Nao Sato (NTT, Inc., Japan) 通讯作者：未说明（论文中未明确指定通讯作者）作者列表：Nao Sato (NTT, Inc., Japan), Masahiro Yasuda (NTT, Inc., Japan), Shoichiro Saito (NTT, Inc., Japan) 💡 毒舌点评亮点是提出了一个灵活且可扩展的“任务导向”框架，将隐私保护从固定的信号处理流程转变为可通过改变训练任务（隐私目标）来定制的学习过程，思路巧妙。短板在于所有实验均基于自建的、场景相对可控的合成数据集，这虽然能验证方法原理，但离真实世界中复杂、非结构化的声学环境和攻击场景还有距离，说服力略打折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：未提及公开其构建的合成数据集。论文中引用了VoxCeleb1, FSD50K, DCASE2025 Task 4等公开数据集作为其合成数据的来源。 Demo：未提供在线演示。复现材料：论文正文和附录（未提供，但正文中描述详细）给出了非常详尽的训练细节、超参数设置和模型规格，具备良好的可复现文本指南。论文中引用的开源项目：演唱声分离U-Net [23]：Jansson et al., 2017. 说话人识别CNN [24]：Nagrani et al., 2017. 梯度反转层（GRL）[22]：Ganin & Lempitsky, 2015. CRNN用于SED [25]：Cakir et al., 2017. SI-SDR度量 [26]：Erdogan et al., 2019. 整体开源计划：论文中未提及开源计划。 📌 核心摘要问题：声音事件检测（SED）在智能家居等场景的应用需要持续录音，这会导致说话人身份、键盘敲击声等隐私信息泄露。现有方法多集中于分离并处理语音，不够灵活，无法保护非语音的隐私信息，且混淆机制依赖手动设计。方法核心：提出端到端对抗多任务学习（EAML）。其核心是一个混淆网络（OBFNet），通过对抗训练（梯度反转层GRL）学习一个时频掩膜，在混淆指定隐私信息（如说话人ID、键盘声）的同时，保留完成目标任务（如SED）所需的声音信息。与已有方法相比新在哪里：与传统两阶段（先分离再信号处理）方法相比，EAML是端到端可学习的。最关键的是，它实现了“任务导向”的混淆：隐私保护的目标不再是固定的（仅限语音），而是可以作为训练任务之一，通过改变训练配置（如表1的T1-T3）灵活定义需要混淆的信息类型和需要保留的目标信息。主要实验结果：实验在包含7类声音事件的合成数据集上进行。如表2所示，在T1配置下，EAML在混淆说话人身份（ASI）上达到了最接近随机猜测的性能（Top-1准确率0.11%），同时SED性能（F-score）仅比未混淆的基线（87.40%）下降约4.5个百分点（82.88%），显著优于传统方法（D和E）。如表3所示，EAML在T2配置中通过引入SI-SDR损失，将音频质量（SI-SDR）从-20.35 dB提升至-16.78 dB，同时不影响其他任务。在T3配置中，成功将键盘打字检测（TAD）的AUC从0.99降至0.72。实际意义：为隐私敏感的音频应用（如家庭监控、办公环境感知）提供了一种新的、灵活的技术范式。用户可根据具体场景定义“何为隐私”和“何为有用信息”，系统通过学习来平衡二者。主要局限性：研究基于精心构建的合成数据，可能无法完全代表真实场景的复杂性；对“隐私”的定义和攻击模型相对简单，仅评估了预定义分类器的识别性能，未考虑更强大的攻击者或更广泛的隐私属性；混淆导致目标任务性能有一定程度的下降。 🏗️ 模型架构 EAML的整体架构围绕一个核心的混淆网络（OBFNet）和多个任务网络展开，通过对抗学习和多任务损失联合训练。 ...

TASU: Text-only Alignment for Speech Understanding

📄 TASU: Text-only Alignment for Speech Understanding #语音识别 #语音大模型 #对齐 #预训练 #零样本 ✅ 7.0/10 | 前25% | #语音识别 | #对齐 | #语音大模型 #预训练学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jing Peng（上海交通大学X-LANCE实验室，MoE人工智能重点实验室，江苏省语言计算重点实验室）通讯作者：Kai Yu†（上海交通大学X-LANCE实验室，MoE人工智能重点实验室，江苏省语言计算重点实验室）作者列表：Jing Peng（上海交通大学X-LANCE实验室等）、Yi Yang（上海交通大学X-LANCE实验室等）、Xu Li（思必驰科技股份有限公司）、Yu Xi（上海交通大学X-LANCE实验室等）、Quanwei Tang（苏州大学计算机科学与技术学院NLP实验室，思必驰科技股份有限公司）、Yangui Fang（华中科技大学电子信息与通信学院，思必驰科技股份有限公司）、Junjie Li（上海交通大学X-LANCE实验室等）、Kai Yu（上海交通大学X-LANCE实验室等） 💡 毒舌点评亮点：论文巧妙地通过CTC后验模拟（CPS）将“文本-文本”对齐伪装成“语音-文本”对齐，思路新颖且实验验证了其在零样本ASR和多任务理解上的可行性，为解决语音大模型数据依赖问题提供了低成本路径。短板：尽管在MMSU上超越了几个知名模型，但其绝对准确率（40.48%）与顶尖多模态模型（如Qwen2.5-Omni的60.57%）相比仍有不小差距，表明纯文本对齐范式在捕获复杂语音语义信息上可能存在天花板。 🔗 开源详情代码：提供代码仓库链接：https://github.com/PigeonDan1/ps-slm.git 模型权重：未提及公开模型权重。数据集：使用了公开数据集（LibriSpeech， SlideSpeech， CommonVoice4， CoVoST2， SLURP），但未说明论文专用数据集是否公开。 Demo：未提及。复现材料：论文详细描述了模型架构、训练数据（名称）、关键训练超参数（学习率、CPS参数等）、评估基准和设置，提供了较好的复现基础。论文中引用的开源项目/模型：依赖SenseVoice-Small作为语音编码器，Qwen2.5-1.5B作为LLM主干，Wenet作为评估工具。 📌 核心摘要这篇论文旨在解决当前语音大语言模型（Speech LLMs）对齐训练依赖大规模音文配对数据、计算成本高且泛化能力有限的问题。为此，作者提出了TASU（Text-only Alignment for Speech Understanding），一种新颖的、仅使用文本数据进行跨模态对齐的范式。其核心方法包括两个部分：标签同步解码（LSD）和CTC后验模拟（CPS）。LSD用于在推理时对语音编码器输出的CTC后验进行压缩和去冗余，而CPS则在训练时将文本转录转化为模拟的“伪CTC后验”，从而仅用文本数据训练一个可训练的投影器（Projector），同时保持大语言模型（LLM）主干网络冻结。主要实验结果显示，在纯文本训练下，TASU实现了具有竞争力的零样本语音识别（在LibriSpeech上WER与使用配对数据的基线SLAM差距小于1.5%），并可作为课程学习的预训练阶段提升域泛化能力；在语音理解多任务测试中，TASU在MMSU基准上的准确率（40.32%）超越了SLAM-LLM（36.70%）、SALMONN-13B（25.84%）和GLM-4-Voice（35.51%）等模型。其实际意义在于大幅降低了语音大模型对齐阶段的数据门槛和训练成本。主要局限性在于，与当前最先进的、使用海量数据预训练的多模态模型相比，其绝对性能仍有差距，且CPS生成的伪后验与真实语音后验的分布差异有待进一步缩小。 ...

TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

📄 TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics #音频问答 #基准测试 #数据集 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #基准测试 | #数据集 #模型评估学术质量 0.85/7 | 选题价值 0.75/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yi-Cheng Lin (National Taiwan University) 通讯作者：论文中未明确指定通讯作者作者列表：Yi-Cheng Lin¹, Yu-Hua Chen², Jia-Kai Dong¹, Yueh-Hsuan Huang¹, Szu-Chi Chen¹, Yu-Chen Chen¹, Chih-Yao Chen¹, Yu-Jung Lin¹, Yu-Ling Chen¹, Zih-Yu Chen¹, I-Ning Tsai¹, Hsiu-Hsuan Wang¹, Ho-Lam Chung¹, Ke-Han Lu¹, Hung-yi Lee¹ (¹National Taiwan University, ²University of Toronto) 💡 毒舌点评该论文的亮点在于它敏锐地指出了当前音频-语言模型评估体系中一个被忽视的“文化盲区”，并为此提供了一个设计精巧、收集过程透明的高质量本地化基准，为推动更公平的多模态评估铺了路。短板则在于，它本质上是一个评估工具（Benchmark），而非解决该问题的算法或模型，因此其影响力高度依赖于后续研究社区的采纳程度，且论文本身未对“如何提升模型的文化理解能力”给出更深入的方案探索。 ...

Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing

📄 Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing #音视频 #视频理解 #知识蒸馏 #弱监督学习 ✅ 7.0/10 | 前25% | #音视频 | #知识蒸馏 | #视频理解 #弱监督学习学术质量 6.5/7 | 选题价值 7.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yaru Chen (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) 通讯作者：未说明作者列表： Yaru Chen (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Ruohao Guo (School of Intelligence Science and Technology, Peking University, China) Liting Gao (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Yang Xiang (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Qingyu Luo (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Zhenbo Li (College of Information and Electrical Engineering, China Agricultural University, China) Wenwu Wang (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) 💡 毒舌点评这篇论文的亮点在于其系统性和针对性：它精准地指出了现有弱监督AVVP方法的两个痛点（缺乏稳定段监督、粗糙的跨模态对齐），并用EMA和CMA这两个成熟但组合起来很有效的方案“对症下药”，在LLP数据集上的视觉和音视频联合指标上取得了实实在在的提升。但短板也十分明显：创新程度更像是一个“集大成”的工程优化方案，而非提出一个全新的学习范式；而且，论文在追求性能报告上非常详细，却在开源复现信息上极为吝啬，这对于一个旨在推动领域前进的会议论文来说，是减分项。 ...

Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-Wise Distillation

📄 Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-Wise Distillation #音频大模型 #知识蒸馏 #音频问答 #音频场景理解 ✅ 7.0/10 | 前25% | #音频问答 | #知识蒸馏 | #音频大模型 #音频场景理解学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Runyan Yang、Yuke Si、Yingying Gao（三人并列第一作者，论文中标注† Equal contribution）通讯作者：Shilei Zhang（论文中标注* Corresponding author）作者列表：Runyan Yang（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室）、Yuke Si（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室）、Yingying Gao（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室）、Junlan Feng（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室）、Chao Deng（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室）、Shilei Zhang（JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室） 💡 毒舌点评该论文提出的“源维度”与“层维度”双轨蒸馏框架，在理论上为跨模态推理能力的迁移提供了一个清晰且有一定新意的视角，特别是将声学教师作为冻结快照来保持音频能力的做法有巧思。然而，实验规模和范围严重受限，仅在Qwen系列模型的师生配置下进行了验证，缺乏跨架构、跨数据规模的普适性证明，其“统一框架”的宣称说服力因此大打折扣。 ...

Teaching the Teachers: Boosting Unsupervised Domain Adaptation In Speech Recognition By Ensemble Update

📄 Teaching the Teachers: Boosting Unsupervised Domain Adaptation In Speech Recognition By Ensemble Update #语音识别 #领域适应 #知识蒸馏 #半监督学习 #教师-学生模型 ✅ 7.0/10 | 前25% | #语音识别 | #领域适应 | #知识蒸馏 #半监督学习学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Rehan Ahmad（谢菲尔德大学）通讯作者：未说明作者列表： Rehan Ahmad¹² (¹University of Sheffield, UK; ²Emotech Ltd.) Muhammad Umar Farooq² (²Emotech Ltd.) Qihang Feng¹ (¹University of Sheffield, UK) Thomas Hain¹ (¹University of Sheffield, UK) 💡 毒舌点评亮点：该工作直击多教师-学生训练范式中“教师模型更新滞后”这一痛点，提出了一个轻量（EMA更新）、高效（同时训练）且有效的同步更新机制，在多个基准上取得了显著WER提升，证明了其方法的实用性。短板：创新本质是对现有“教师-学生”和“集成学习”方法的精巧组合与工程优化，缺乏理论上的深度突破。此外，所有实验均围绕英语语音识别展开，方法在其他语言或更复杂的声学环境下的有效性尚未可知，存在一定的泛化性质疑。 ...

Temporal Distillation for Music Representation Learning

📄 Temporal Distillation for Music Representation Learning #音乐信息检索 #自监督学习 #知识蒸馏 #音频大模型 ✅ 7.5/10 | 前25% | #音乐信息检索 | #知识蒸馏 | #自监督学习 #音频大模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Shiqi Wei（ByteDance）、Bilei Zhu（ByteDance） 💡 毒舌点评亮点：论文精准地指出了传统蒸馏在序列任务上的“逐帧匹配”缺陷，并提出了“时间分布对齐”这一优雅且有效的替代方案，其在多个任务上超越了教师模型的表现，证明了“时间先验”传递的有效性。短板：实验结论中“Harmonia作为正则化器能稳定深层模型训练”的宣称，其实验支撑相对单薄，仅有“Deeper Arch.”一组结果，且未对比无正则化时的训练曲线或失败案例，说服力不足。同时，完全缺乏代码和模型开源，对于一个声称“加速和稳定大规模训练”的框架，其实用价值在社区中将大打折扣。 🔗 开源详情论文中未提及代码仓库、模型权重、数据集的任何开源计划或链接。训练细节（如优化器、学习率、batch size）在论文中有说明，但完整的训练脚本、配置文件和预训练检查点均未提供。因此，论文中未提及开源计划。 📌 核心摘要问题：训练音乐基础模型面临数据需求大、方法效率低、难以捕捉长程时间依赖的挑战。传统自监督学习和知识蒸馏方法（如逐帧匹配）缺乏有效的“时间归纳偏置”，导致模型无法学习音乐的动态演进过程，尤其在数据有限时易过拟合或训练不稳定。核心方法：提出Harmonia，一种时间蒸馏框架。其核心是设计了“时间KL损失”（LTemporal-KL），该损失要求学生模型对齐教师模型输出表征序列在时间维度上的概率分布（即学习每个特征维度上的时间激活模式），而非传统逐帧匹配。这显式地注入了时间一致性的先验知识。创新点：a) 明确识别并解决了音乐表示学习中时间偏置缺失的问题；b) 提出基于完整输出序列分布对齐的蒸馏目标（时间KL损失），以传递时间动态知识；c) 验证了该框架在知识迁移（模型压缩/自蒸馏）和训练正则化（长上下文编码器）两种场景下的双重优势。主要实验结果：在音乐信息检索（MIR）的9项任务上，Harmonia在多数指标上超越了教师模型（如MusicFM）和帧式蒸馏基线。例如，在330M模型上，GTZAN分类准确率比教师高4.1%，和弦识别准确率高2.6%。消融实验表明，即使仅使用30%训练数据，Harmonia（81.8%）也优于同数据量下不蒸馏的基线（80.1%）。模型压缩实验：用Harmonia蒸馏出的190M学生模型，在多项任务上性能接近或达到330M教师模型的水平。可扩展性：成功应用于训练更深的650M模型，性能良好。关键实验结果表格如下：配置数据架构 α/β GTZAN ACC MTT ROC MTT AP Beat F1 Downbeat F1 Chord ACC Structure HR.5 Key ACC 参考 & 基线 Teacher Model (fT) In-house 330M – 82.7 90.1 40.39 86.4 80.4 72.6 69.9 69.4 Frame-wise Distill. In-house 330M – 58.6 78.4 32.4 34.5 66.4 67.4 64.2 54.2 Data Compression (30%) 0.3 In-house 330M – 80.1 88.1 38.5 84.6 78.7 71.4 66.9 62.3 Harmonia (本文) Harmonia In-house 330M 0.2 86.8 91.4 40.8 86.7 80.9 75.2 73.1 70.4 Finetuned Teacher In-house 330M – – – – 86.5 80.1 80.5 74.2 71.1 Harmonia (Fine-tuned) In-house 330M 0.2 – – – 87.1 81.5 83.1 74.9 73.1 消融研究 Data Ablation (30%) 0.3 In-house 330M 0.2 81.8 89.7 39.2 86.1 79.4 71.7 71.3 69.2 Experiment α1 In-house 330M 0.5 85.1 92.0 40.2 87.6 80.3 74.3 73.1 70.6 Experiment α2 In-house 330M 0.7 86.0 91.9 41.4 86.1 80.5 75.9 73.2 71.3 Compression In-house 190M 0.2 83.2 90.0 37.2 86.8 79.1 71.4 71.1 64.2 可扩展性研究 Deeper Arch. In-house 650M 0.2 85.4 92.4 41.6 86.7 80.6 75.2 73.2 68.2 Long Context In-house 330M 0.2 86.8 91.2 40.4 84.9 80.2 74.7 74.4 69.6 SOTA [21-26] – – – 85.6 92.0 41.4 88.7 81.0 80.7 74.2 74.4 实际意义：为高效训练音乐基础模型提供了一种新思路。通过时间蒸馏，可以提升小模型性能、实现模型压缩、并稳定训练更大更深的模型，有助于降低音乐AI的研发门槛。主要局限性：a) 理论分析不足，缺乏对时间KL损失优化几何的深入探讨；b) 实验主要基于单一的MusicFM架构和一家公司的内部数据（“In-house”），结论的普适性有待验证；c) 完全未开源，严重影响可复现性和社区影响力；d) 对长上下文正则化的具体实现和优势阐述不够细致。 🏗️ 模型架构 Harmonia本身并非一个独立的模型架构，而是一个应用于已有编码器（如MusicFM）的知识蒸馏框架。 ...

Temporal Graph Modeling for Speech Emotion Recognition Using LSTM-Aggregated Multigraph Networks

📄 Temporal Graph Modeling for Speech Emotion Recognition Using LSTM-Aggregated Multigraph Networks #语音情感识别 #自监督学习 #图神经网络 #多图网络 ✅ 7.5/10 | 前25% | #语音情感识别 | #图神经网络 | #自监督学习 #多图网络学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Patitapaban Palo（印度理工学院克勒格布尔分校电气工程系）通讯作者：未说明作者列表：Patitapaban Palo（印度理工学院克勒格布尔分校电气工程系）、Pooja Kumawat（印度理工学院克勒格布尔分校电气工程系）、Aurobinda Routray（印度理工学院克勒格布尔分校电气工程系） 💡 毒舌点评亮点：论文巧妙地将“语音帧作为图节点”的思想与能够建模多关系的多图卷积网络（MGCN）结合，并创新性地用LSTM替代求和聚合来捕捉邻域内的时序依赖，这个设计直觉清晰且实验效果显著。短板：论文对“多图”（Multigraph）在语音任务中到底建模了哪几种“关系”的论述略显模糊（主要依赖初始图构建），且未提供代码和核心损失函数，对于一个声称“复现性强”的方法论工作来说有些扣分。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的IEMOCAP和BAUM-1数据库，但论文未说明如何获取其处理后的版本。 Demo：未提及。复现材料：论文给出了部分超参数（学习率、dropout、网络层大小等）和数据集划分方式，但缺失损失函数、优化器、具体网络配置等关键复现细节。引用的开源项目：论文中引用了wav2vec 2.0模型、GCN、Graph U-Net等开源工作，但未说明是否依赖其官方代码。开源计划：论文中未提及开源计划。 📌 核心摘要要解决的问题：语音情感识别（SER）需要有效捕捉语音信号中复杂、动态的时序依赖关系，传统RNN/CNN方法在建模长程依赖和复杂关系上存在局限。方法核心：提出一种基于图神经网络（GNN）的SER框架。首先用预训练的wav2vec 2.0模型提取帧级特征作为图节点特征，并根据帧间相似性构建时序图。然后，采用一种改进的多图卷积网络（MGCN）进行分类，其关键创新在于使用LSTM进行邻域信息聚合，以更好地建模时序结构。与已有方法相比新在哪里：a) 将自监督学习（SSL）特征以及时序图表示引入基于GNN的SER；b) 将最初用于分子建模的MGCN迁移到语音领域；c) 用LSTM聚合替代了GNN中传统的求和/均值聚合，以显式建模邻域节点（帧）的序列关系。主要实验结果：在IEMOCAP数据集上，所提MGCN-LSTM方法达到78.22%的UWA，优于GCN、Graph U-Net以及使用求和聚合的MGCN（75.10%）。在BAUM-1数据集上，该方法达到69.89%的UWA，同样取得最佳性能。消融实验证明，基于时序相似度的图构建和LSTM聚合带来了显著性能提升。方法 IEMOCAP UWA(%) BAUM-1 UWA(%) GCN 72.77 52.41 GUNET 36.98 42.38 MGCN (Sum) 75.10 65.84 MGCN (LSTM) 78.22 69.89 实际意义：为语音情感识别提供了一种新的、可解释性更强的图建模框架，展示了结合SSL和GNN在情感计算任务中的潜力。主要局限性：a) “多图”中的多关系主要由初始图定义，对“多关系”学习的深度和必要性探讨不足；b) 实验分析较浅，缺乏错误分析、不同情绪类别性能、与更先进SSL模型（如HuBERT）的对比；c) 部分技术细节（如损失函数）未公开，影响复现性。 🏗️ 模型架构整体架构是一个端到端的系统，包含三个主要阶段：特征提取、图构建与MGCN分类。 ...

Temporal-Spatial Decouple Before Act: Disentangled Representation Learning for Multimodal Sentiment Analysis

📄 Temporal-Spatial Decouple Before Act: Disentangled Representation Learning for Multimodal Sentiment Analysis #多模态模型 #情感分析 #解耦学习 #音视频 ✅ 7.5/10 | 前25% | #情感分析 | #解耦学习 | #多模态模型 #音视频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Chunlei Meng (Fudan University, 即复旦大学) 通讯作者：Chun Ouyang (Fudan University, 即复旦大学) 作者列表：Chunlei Meng（复旦大学）†、Ziyang Zhou（汕头大学）、Lucas He（伦敦大学学院）、Xiaojing Du（南澳大学）、Chun Ouyang（复旦大学）†、Zhongxue Gan（复旦大学）（†表示通讯作者） 💡 毒舌点评亮点：论文的动机非常清晰，直指当前多模态融合中“时空信息混合建模”导致静态特征主导的痛点，并为此设计了一套从解耦、对齐到重耦合的完整技术流水线，逻辑自洽且实验验证充分。短板：论文的可视化分析（图2）虽然展示了特征分布的改善，但缺乏对“解耦出的时空特征究竟学到了什么”更具体的语义或模态内解释，使得这个“黑箱”模型的可解释性打了折扣；此外，论文未开源代码，限制了其即时影响力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用公开基准CMU-MOSI和CMU-MOSEI。 Demo：未提及。复现材料：提供了一些训练细节（优化器Adam、权重衰减、批大小16、最多50 epoch、早停、五折交叉验证），但缺失关键信息（如各模态特征提取方式、模型具体维度、学习率、损失权重α/β/γ的具体值）。论文中未提及完整的复现计划或资源链接。论文中引用的开源项目：未提及。总结：论文中未提及开源计划。 📌 核心摘要要解决的问题：现有主流多模态情感分析方法在进行跨模态交互前，将时间动态信息（如语音韵律突变、视频微表情）和空间结构信息（如说话人身份、背景、句子整体极性）混合编码为单一嵌入，导致学习过程偏向于更稳定、方差大的静态成分，从而忽略了关键的时间轨迹信息，造成“时空信息不对称”，性能受限。方法核心：提出TSDA（Temporal-Spatial Decouple before Act）框架。其核心是在任何跨模态交互之前，先为每个模态（语言、视觉、声学）学习解耦的“时间动态”和“空间结构”表征。具体包括：（1）独立的时间编码器和空间编码器；（2）因子一致性跨模态对齐（FCCA），使用块对角掩码注意力确保时间特征只与其它模态的时间特征对齐，空间特征同理；（3）门控重耦合（GR）模块，根据可靠度自适应融合对齐后的时间与空间表征。与已有方法相比新在哪里：不同于大多数方法在融合前进行模态内或跨模态的不变/特定因子解耦（如MISA），TSDA更进一步，将时间与空间这两个正交的维度显式地解耦并独立进行跨模态对齐。这避免了传统混合编码中时空信息的相互干扰，是一种更细粒度的解耦学习范式。主要实验结果：TSDA在CMU-MOSI和CMU-MOSEI两个标准基准测试的所有指标上均取得了最优（SOTA）结果。具体对比如下表所示，尤其在平均绝对误差（MAE）和7类准确率（ACC7）上优势明显。消融实验证明了解耦、FCCA和门控重耦合等各组件的必要性。表1：在CMU-MOSI和CMU-MOSEI数据集上与现有方法的性能对比（对齐/未对齐设置） ...

Temporally Heterogeneous Graph Contrastive Learning for Multimodal Acoustic Event Classification

📄 Temporally Heterogeneous Graph Contrastive Learning for Multimodal Acoustic Event Classification #音频事件检测 #对比学习 #图神经网络 #多模态 #自监督学习 🔥 8.5/10 | 前25% | #音频事件检测 | #对比学习 #图神经网络 | #对比学习 #图神经网络学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Yuanjian Chen（哈尔滨理工大学）通讯作者：Yang Xiao（墨尔本大学，邮件地址：yxiao9550@student.unimelb.edu.au）作者列表：Yuanjian Chen（哈尔滨理工大学）、Yang Xiao（墨尔本大学）、Jinjie Huang（哈尔滨理工大学） 💡 毒舌点评这篇论文在多模态声学事件分类的“时间对齐”这个老大难问题上，给出了一个既优雅又有效的图解方案，用高斯过程和Hawkes过程分别给模态内和模态间的边加权，思路清晰且实验结果亮眼，是同类工作中的一个扎实提升。不过，论文对模型在极端噪声、长尾类别或视频质量极差等更具挑战性的真实场景下的鲁棒性讨论不足，且所提的对比学习目标相对简单，可能未充分挖掘跨模态数据的复杂关系。 🔗 开源详情代码：提供代码仓库链接：https://github.com/visionchan/THGCL.git 模型权重：未提及是否公开预训练模型权重。数据集：使用AudioSet，论文中提供了构建高置信子集的方法（33类，置信度[0.7, 1.0]），但未提供处理后的数据集下载链接。 Demo：未提及提供在线演示。复现材料：论文中详细说明了特征维度、图构建参数、优化器、学习率、训练轮数等关键训练细节。未提及提供配置文件、检查点或详细的复现文档。论文中引用的开源项目：主要依赖的预训练模型包括VGGish（用于音频特征提取）和S3D（用于视频特征提取），具体实现可能基于公开库。 📌 核心摘要要解决什么问题：多模态声学事件分类中，音频和视觉信号难以在时间上精确对齐，且易受跨模态噪声干扰，导致识别性能下降。方法核心是什么：提出时序异质图对比学习框架（THGCL）。首先，为每个事件构建时序异质图，其中音频和视频片段作为节点。其次，创新性地采用高斯过程对模态内边赋予权重以保持平滑性，采用Hawkes过程对模态间边赋予权重以建模时间衰减效应。最后，引入对比学习目标来增强跨模态表示的一致性并抑制噪声。与已有方法相比新在哪里：与大多仅后期融合或平等处理模态内/间关系的方法不同，THGCL显式区分并建模了模态内（平滑性）和模态间（时间衰减）不同的时间依赖关系，增强了图结构的表达能力和对齐精度。主要实验结果如何：在AudioSet数据集的高置信子集上，THGCL达到了57.4%的mAP和0.948的AUC，超越了包括TMac在内的所有基线方法（如TMac为55.1% mAP），且参数量仅4.8M，效率较高。消融实验表明，结合高斯与Hawkes过程的策略（ID-1）优于仅使用Hawkes（ID-2）或仅使用高斯（ID-3）；联合损失函数（FL+CL）在收敛速度和最终性能上均优于单独使用交叉熵或焦点损失。模型 mAP (%) AUC 参数量 (M) THGCL (Ours) 57.4 0.948 4.8 TMac ⭐ 55.1 0.937 4.3 VAED ⭐ 51.6 0.919 2.1 PaSST-S 49.0 0.900 87.0 … … … … 实际意义是什么：为构建更鲁棒、更精准的智能音频-视觉系统（如安防监控、内容检索）提供了一种高效的新方法，证明了通过精细建模时序异质关系可以显著提升多模态事件分类性能。 ...