Acoustic Teleportation Via Disentangled Neural Audio Codec Representations

📄 Acoustic Teleportation Via Disentangled Neural Audio Codec Representations #神经音频编解码器 #语音增强 #音频场景理解 #信号处理 #解纠缠学习 ✅ 7.0/10 | 前25% | #语音增强 | #神经音频编解码器 | #音频场景理解 #信号处理 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Philipp Grundhuber(Fraunhofer Institute for Integrated Circuits (IIS), Erlangen, Germany) 通讯作者:未说明 作者列表:Philipp Grundhuber†(Fraunhofer Institute for Integrated Circuits (IIS)), Mhd Modar Halimeh†,§(† Fraunhofer Institute for Integrated Circuits (IIS);§ 现任职于Starkey Hearing Technologies), Emanuël A. P. Habets⋆(International Audio Laboratories Erlangen) 💡 毒舌点评 本文在“声学传送”这个颇具未来感的细分赛道上,用扎实的工程改进(EnCodec架构 + 多任务训练)把基线方法(Omran et al.)远远甩在了后面,消融实验和可视化分析做得相当全面。然而,一个明显的短板是它处理“传送”的极限能力不足——当两个房间的混响时间差别大于0.8秒时,输出质量就明显下降,这基本锁死了它在真实复杂声学环境中大规模应用的天花板。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 313 words

Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition

📄 Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition #语音识别 #语音大模型 #端到端 #说话人分离 #说话人日志 ✅ 7.5/10 | 前25% | #语音识别 | #端到端 | #语音大模型 #说话人分离 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Martin Kocour(Brno University of Technology, Speech@FIT; Filevine, USA) 通讯作者:未说明 作者列表:Martin Kocour(Speech@FIT, Brno University of Technology; Filevine), Martin Karafiat(Speech@FIT, Brno University of Technology), Alexander Polok(Speech@FIT, Brno University of Technology), Dominik Klement(Speech@FIT, Brno University of Technology), Lukáš Burget(Speech@FIT, Brno University of Technology), Jan Černocký(Speech@FIT, Brno University of Technology) 注:所有作者均隶属于Speech@FIT实验室,来自布尔诺理工大学。Martin Kocour同时有Filevine机构隶属。 💡 毒舌点评 这篇工作巧妙地将DiCoW的“分而治之”策略与SOT的“统一步调”理念结合,在完全重叠的合成场景(如Libri3Mix)中取得了显著优势,显示了全局上下文建模的潜力。然而,在复杂的真实会议场景中,其联合解码方式反而被单独解码的基线超越,这暴露出当前架构在处理高度动态和嘈杂的真实对话时,对说话人追踪和上下文利用的鲁棒性仍有不足,算是一个“实验室优等生在真实考试中略显水土不服”的典型案例。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 330 words

Adaptive Deterministic Flow Matching for Target Speaker Extraction

📄 Adaptive Deterministic Flow Matching for Target Speaker Extraction #目标说话人提取 #流匹配 #语音增强 #生成模型 #自适应推理 🔥 8.0/10 | 前25% | #目标说话人提取 | #流匹配 | #语音增强 #生成模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Tsun-An Hsieh(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 通讯作者:Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 作者列表:Tsun-An Hsieh(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院)、Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 💡 毒舌点评 亮点:将流匹配的“时间”轴与语音混合的物理过程(混合比例τ)直接对齐,并在此基础上实现“按需分配”计算资源的自适应推理,这种思路比简单地追求固定步数的流匹配要精巧得多,实验中仅一步就能追平甚至超越需要多步的强基线,效率提升令人印象深刻。 短板:方法高度依赖于混合信号的线性叠加模型(x=τs₁+(1-τ)b),对混响、非线性失真等更复杂的声学场景(论文中也提到需要更多步)的鲁棒性未充分验证,这限制了其作为通用TSE解决方案的广度。此外,MR预测模块的精度直接影响最终性能,但在实际未知场景中预测一个干净的τ本身就颇具挑战。 🔗 开源详情 代码:提供。论文明确指出代码仓库位于 https://minjekim.com/research-projects/AD-FlowTSE#icassp2026。 模型权重:未提及。 数据集:使用公开数据集Libri2Mix,论文未提供直接下载链接,但该数据集可公开获取。 Demo:提供在线演示,网址包含在上述链接中。 复现材料:提供了详细的训练配置(批大小、学习率、优化器、调度策略、硬件等)和模型架构描述。代码仓库可能包含更详细的配置。 论文中引用的开源项目:ECAPA-TDNN(用于MR预测器骨干网络)、UDiT(向量场估计器架构)。 论文中未提及开源计划,但根据链接,代码已开源。 📌 核心摘要 问题:现有基于扩散或流匹配的生成式目标说话人提取方法,通常采用固定数量的反向步骤和固定步长进行推理,这未能根据输入混合信号的质量(即目标语音与背景的混合比例)自适应地分配计算资源,导致效率低下。 方法:提出AD-FlowTSE,一种自适应确定性流匹配TSE方法。其核心是将流匹配中的时间变量重新定义为背景信号b与目标语音s₁之间的混合比例τ。模型学习的是从背景分布到目标语音分布的传输向量场。在推理时,首先通过一个MR预测器估计输入的混合比例τ̂,然后将该估计值作为起点,仅在[τ̂, 1]的残差区间上进行自适应步长的反向积分,从而生成目标语音。 与已有方法的新颖之处:区别于先前方法在混合信号(或高斯噪声)与干净语音之间定义流动路径,本文在背景与目标之间定义流动路径,并将路径位置与物理混合比例直接绑定。这使得模型能够根据输入质量动态调整推理步数或步长,实现了“MR感知”的初始化和高效推理。 主要实验结果:在Libri2Mix数据集(Noisy和Clean子集)上,AD-FlowTSE在PESQ、ESTOI、SI-SDR等侵入式指标上优于所有对比的生成式基线。尤其显著的是,说话人相似度(SIM)指标在Noisy集上达到0.87(使用估计τ),远高于FlowTSE的0.83和SoloSpeech的0.85。消融实验表明,使用估计的τ̂性能接近使用真实τ的上界,而固定τ=1或τ=0则性能显著下降。图2显示,仅需1-5个推理步数(NFE)即可达到峰值性能,更多步数反而因过校正导致性能下降。 实际意义:该方法为高效、高质量的TSE提供了一条新途径,尤其适用于对延迟和计算资源敏感的应用场景(如助听器、实时通信)。它展示了将生成模型的理论框架与任务的物理先验深度结合的重要性。 主要局限性:该方法的有效性建立在语音混合是线性叠加的假设上,对存在混响、滤波等非线性效应的场景可能需要更复杂的建模。MR预测器的精度是系统性能的瓶颈,其在极端噪声或未见说话人场景下的鲁棒性有待检验。实验仅在Libri2Mix这一特定数据集上进行,缺乏在真实世界复杂场景中的验证。 🏗️ 模型架构 AD-FlowTSE由两个独立训练的模块组成:MR-Informed向量场估计器 (vθ) 和 MR预测器 (gϕ)。整体流程如图1所示。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 383 words

Adaptive Embedding Fusion with Contrastive Learning for Robust Fully Few-Shot Class-Incremental Audio Classification

📄 Adaptive Embedding Fusion with Contrastive Learning for Robust Fully Few-Shot Class-Incremental Audio Classification #音频分类 #对比学习 #少样本学习 #增量学习 #自适应特征融合 ✅ 7.5/10 | 前25% | #音频分类 | #对比学习 | #少样本学习 #增量学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kai Guo(北京理工大学) 通讯作者:Xiang Xie†*(北京理工大学, †北京理工大学珠海校区) 作者列表:Kai Guo(北京理工大学), Xiang Xie(北京理工大学, 北京理工大学珠海校区), Shangkai Zhao(北京理工大学) 💡 毒舌点评 该论文精准地“手术”解决了EDE模型膨胀的痛点,并通过引入对比学习“补血”提升性能,实验结果亮眼,工程改进思路清晰。但理论分析稍显薄弱,为何自适应融合后对比学习效果更佳,未给出更深层次的解释;且对比学习的应用较为常规,未探索更前沿的对比策略。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开预训练或微调的模型权重。 数据集:论文提供了三个数据集(FSC-89, LS-100, NSynth-100)在ModelScope上的链接,表明数据集是可获取的。 Demo:未提及在线演示。 复现材料:论文详细描述了实验设置(骨干模型、超参数、训练轮数、硬件等),提供了足够信息以尝试复现,但未提供完整的代码或训练脚本。 论文中引用的开源项目:依赖的核心开源项目是AST(Audio Spectrogram Transformer),论文使用了其在AudioSet上预训练的版本。其他引用的基准方法(如iCaRL, FACT, PAN)来自先前工作,论文未说明是否使用其官方实现。 📌 核心摘要 问题:论文针对“全少样本类增量音频分类”(FFCAC)任务,即每个新类音频样本极少且需持续学习新类别的场景。现有基线方法EDE通过拼接多个特征提取器的输出来保留旧知识,但导致模型输入维度随学习进程无限膨胀,影响效率与性能。 方法核心:提出“自适应嵌入融合EDE(AEF-EDE)”。核心是引入一个可学习的加权融合模块,将不同时期(会话)的特征提取器输出进行加权求和,而非简单拼接,从而固定模型输入维度。同时,在增量学习阶段引入监督对比学习损失(LCL),以增强特征的判别性。 创新点:(1) 设计AEF模块,通过可学习参数自适应融合多会话嵌入,避免模型膨胀;(2) 将对比学习策略从基类会话(样本少)调整至增量会话(样本相对多),并证明其在AEF结构下能有效提升性能;(3) AEF与对比学习的结合在多个数据集上超越了原始EDE。 主要实验结果:在三个数据集上,AEF-EDE的平均准确率(AA)均优于EDE和其他方法。例如,在FSC-89上AA为43.39%(EDE为38.74%),在LS-100上为61.15%(EDE为56.65%),在NSynth-100上为56.44%(EDE为51.19%)。消融实验证实了AEF模块与对比学习损失(LCL)的协同有效性。 实际意义:为资源受限的音频持续学习场景(如野外声音监测)提供了一种更高效、可扩展的解决方案。 主要局限性:对比学习在基类会话中因样本过少而失效,作者承认这是未来工作方向;论文未讨论AEF模块的计算复杂度与EDE的具体对比;可学习参数θ的初始化和收敛性未深入分析。 🏗️ 模型架构 论文提出的AEF-EDE模型架构是对基线EDE的改进,其整体流程和核心模块如图1、图2所示。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 378 words

Adaptive Per-Channel Energy Normalization Front-End for Robust Audio Signal Processing

📄 Adaptive Per-Channel Energy Normalization Front-End for Robust Audio Signal Processing #音频分类 #自适应处理 #信号处理 #音频前端 #鲁棒性 ✅ 7.5/10 | 前25% | #音频分类 | #自适应处理 | #信号处理 #音频前端 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hanyu Meng(悉尼新南威尔士大学,The University of New South Wales, Sydney, Australia) 通讯作者:未说明 作者列表:Hanyu Meng(悉尼新南威尔士大学)、Vidhyasaharan Sethu(悉尼新南威尔士大学)、Eliathamby Ambikairajah(悉尼新南威尔士大学)、Qiquan Zhang(阿里巴巴集团,通义语音实验室,Tongyi Speech Lab, Alibaba Group, China)、Haizhou Li(香港中文大学(深圳)人工智能学院,School of Artificial Intelligence, The Chinese University of Hong Kong, Shenzhen, China) 💡 毒舌点评 论文的亮点在于将自适应机制从频谱分解(如滤波器Q值)下沉到了动态范围压缩(PCEN)阶段,并通过一个极简的神经控制器实现,思路清晰且在多个任务上验证了有效性,特别是在噪声和响度变化场景下表现突出。然而,其“自适应”本质上仍是对两个参数进行实时回归预测,创新程度有限,且未与当前更强的音频表示学习(如AST, BYOL-A等)或端到端自适应方法进行充分对比,说服力稍显不足。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 266 words

Adaptive Rotary Steering with Joint Autoregression for Robust Extraction of Closely Moving Speakers in Dynamic Scenarios

📄 Adaptive Rotary Steering with Joint Autoregression for Robust Extraction of Closely Moving Speakers in Dynamic Scenarios #语音分离 #信号处理 #麦克风阵列 #自回归模型 🔥 8.5/10 | 前25% | #语音分离 | #信号处理 | #麦克风阵列 #自回归模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jakob Kienegger(汉堡大学信号处理系) 通讯作者:Timo Gerkmann(汉堡大学信号处理系) 作者列表:Jakob Kienegger(汉堡大学信号处理系),Timo Gerkmann(汉堡大学信号处理系) 💡 毒舌点评 这篇论文的亮点在于巧妙地将旋转转向的“优雅数学”与自回归的“实用主义”结合,构建了一个模块化且鲁棒的框架,在说话人紧密移动时表现出色;但其跟踪模块对复杂运动模型的依赖(如正弦轨迹假设)和系统对初始方向估计的敏感性,可能成为其在更无序真实场景中广泛应用的瓶颈。 🔗 开源详情 代码:论文中提到了项目主页(https://sp-uhh.github.io/adaptive-rotary-steering/),很可能包含代码实现,但未直接提供具体代码仓库链接。 模型权重:未提及是��公开预训练模型权重。 数据集:合成数据集基于公开的LibriSpeech语料库生成,真实录音数据集(Rainbow Passage录音)未说明是否公开,但录音文本和视频已在线提供。 Demo:项目主页提供了录音和视频示例,可作为效果演示。 复现材料:论文提供了详细的算法实现细节、网络架构描述、训练策略以及超参数信息(如STFT设置)。明确指出使用了开源的McNet、SpatialNet和SELDnet架构,以及gpuRIR工具箱。 论文中引用的开源项目:gpuRIR(房间脉冲响应模拟)、McNet、SpatialNet、SELDnet、NeMo工具包(用于ASR评估)。 📌 核心摘要 本文针对动态声学场景(如说话人移动、交叉)中,现有空间选择性滤波(SSF)方法在目标说话人接近或交叉时性能下降的问题,提出了一种基于Ambisonics的自适应旋转导向与联合自回归框架。该方法核心是:(1) 通过一个跟踪算法,自动将录制的声场实时旋转对齐至目标说话人方向(自适应旋转导向);(2) 将前一帧的增强语音信号,作为额外输入同时反馈给跟踪网络(AR-TST)和增强网络(AR-SSF),形成联合自回归循环。与已有方法相比,新在:a) 实现了旋转转向的自动化以处理动态场景;b) 提出在跟踪和增强两个环节同时利用语音时频线索进行反馈,弥补空间线索失效的缺陷。实验在合成三说话人数据集和真实录音上进行,结果表明:在说话人角距离小于15°时,AR-TST使跟踪误差显著降低;在合成数据上,联合AR框架使McNet的PESQ达到2.17,超过强引导基线(2.21)并远超固定旋转引导(1.97)。实际意义在于为会议、助听等场景提供了一种不依赖持续外部引导、鲁棒的说话人提取方案。主要局限包括对目标初始方向有一定依赖,以及合成轨迹模型可能无法完全覆盖真实世界运动的多样性。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 303 words

Adaptive Spectral Weighting in Sagittal-Plane Sound Localization: A Reliability-Driven Approach

📄 Adaptive Spectral Weighting in Sagittal-Plane Sound Localization: A Reliability-Driven Approach #声源定位 #贝叶斯推理 #信号处理 #空间音频 #模型评估 ✅ 6.5/10 | 前25% | #声源定位 | #贝叶斯推理 | #信号处理 #空间音频 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yunda Chen 通讯作者:Nengheng Zheng (nhzheng@szu.edu.cn) 作者列表:Yunda Chen, Hui Zeng, Nengheng Zheng*(深圳大学,电子信息工程学院) 💡 毒舌点评 这篇论文的亮点在于它承认并试图建模听觉感知中“动态权重调整”这一人性化但常被忽视的特性,提出的自适应加权方案在理论上更具生物合理性。但短板也明显:其验证场景主要是基于降质的合成听觉条件(如声码器处理),这更像是证明模型在特定退化下的鲁棒性,而非证明自适应机制在自然复杂环境下的普适优越性,因此结论的外推性有待商榷。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了开源的Auditory Modeling Toolbox (AMT)数据集,可通过引用文献[21]获取。 Demo:未提及。 复现材料:论文给出了详细的模型架构、公式和参数拟合策略描述,但未提供检查点、配置文件或附录的额外细节。训练硬件等信息缺失。 论文中引用的开源项目:明确引用了并使用了Auditory Modeling Toolbox (AMT)[21]。论文中未提及其它具体的开源代码或工具包。 📌 核心摘要 解决什么问题:现有矢状面(上下方向)声源定位模型多采用固定的频谱加权方案,忽略了人类听觉系统会根据输入信号的可靠性动态调整不同频段贡献的这一事实,尤其是在感知线索退化的条件下。 方法核心是什么:提出了一种基于贝叶斯推理的计算模型。核心创新是引入了一种自适应频谱加权方案,该方案能根据主导频谱凹陷区域(6-9kHz)的可靠性(用频谱互相关ρ衡量)动态调整权重。模型参数对每位听众进行了个体化校准。 与已有方法相比新在哪里:将动态、依赖于信号可靠性的频谱加权机制整合到贝叶斯定位框架中。与四种来自先前研究的固定加权方案(Flat, NR, DT, SV_GL)进行系统比较。 主要实验结果如何: 对于宽带噪声刺激(高感知置信度),在组水平上没有发现某一种加权方案具有稳定优势(保护超出概率PXP均接近随机水平)。 对于经声码器降质的点击序列刺激(模拟不同频谱分辨率,降低感知置信度),组水平PXP同样未显示明确偏好(SV_GL最高为0.281,但贝叶斯模型选择风险BOR为0.68,说明模型间差异不显著)。 关键发现(图4):在单个低置信度被试(NH12)的例子中,自适应加权方案的预测结果最接近人类实际反应。随着频谱线索减少,人类反应分布趋近于模型的双峰先验分布,该趋势也被模型捕获。 论文未提供所有被试的详细定量对比表格,PXP值见图3。 实际意义是什么:揭示了在感知线索不足时,空间先验知识在人类定位行为中的关键作用,并证明了在计算模型中模拟自适应加权对预测退化条件下听觉行为的重要性。对未来设计适应性更强的助听算法或虚拟声学系统有参考价值。 主要局限性是什么:模型验证局限于使用HRTF和特定的降质处理(声码器)模拟的条件。自适应方案的优势仅在低置信度个体案例中直观显现,未能在整体统计上得到确凿的、优于其他方案的结论。模型参数的个体化校准增加了应用复杂度。 🏗️ 模型架构 图1. 所提出的矢状面定位模型结构 (根据论文图1描述) 该模型是一个端到端的贝叶斯计算模型,流程如下: ...

2026-04-29 · 更新于 2026-05-20 · 1 min · 193 words

Adaptive Task-Incremental Learning For Underwater Acoustic Recognition Based on Mixture-of-Experts Adapter

📄 Adaptive Task-Incremental Learning For Underwater Acoustic Recognition Based on Mixture-of-Experts Adapter #水下声学目标识别 #增量学习 #混合专家 #适配器 #参数高效微调 ✅ 7.0/10 | 前25% | #水下声学目标识别 | #混合专家 | #增量学习 #适配器 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Yang Zhang(国防科技大学计算机学院,与Changjian Wang并列第一作者) 通讯作者:Weiguo Chen(国防科技大学计算机学院) 作者列表:Yang Zhang†(国防科技大学计算机学院)、Changjian Wang†(国防科技大学计算机学院)、Weiguo Chen*(国防科技大学计算机学院)、Yuan Yuan(国防科技大学计算机学院)、Yingzhi Chen(国防科技大学计算机学院) 💡 毒舌点评 亮点: 将混合专家(MoE)与参数高效适配器结合,并创新性地引入基于重放数据分布的自适应任务识别模块(RA-TID),为无需显式任务标签的增量学习提供了优雅的解决方案,在多个水声数据集上取得了优异的遗忘控制性能。 短板: 论文声称“自适应”和“未知任务”感知,但所有实验都是在固定的、任务ID明确的序列上进行的,缺乏在真正动态、任务边界模糊或未知任务出现的真实场景下的验证;此外,实验部分完全缺乏对计算资源、训练时长的描述,且未开源,极大削弱了其说服力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了五个公开数据集,但未提供获取方式的汇总或特别说明。 Demo:未提及。 复现材料:严重缺乏。未给出关键的训练超参数(学习率、优化器、批量大小、训练epoch数)、硬件环境(GPU型号与数量)、预训练模型SSAST的具体配置、数据增强方法、以及RA-TID模块的训练细节(如TINet的训练方式)。 论文中引用的开源项目:引用了SSAST预训练模型作为骨干网络。 开源计划:论文中未提及开源计划。 📌 核心摘要 这篇论文针对水下声学目标识别(UATR)中增量学习(IL)场景下,现有参数隔离方法依赖显式任务标签且忽略任务关联性的问题,提出了一种基于混合专家适配器(MoE-Adapter)的自适应任务增量学习框架。其核心方法是将预训练声学模型与稀疏门控的MoE-Adapter结合,通过轻量级路由器动态选择专家以实现跨任务知识共享;同时,设计了一个基于重放数据分布的任务识别模块(RA-TID),通过匹配输入特征与历史任务原型来自动推断任务身份,从而无需外部标签。实验在DeepShip等五个公开水声数据集上进行,结果显示,该方法在平均性能退化(PD)指标上达到了最低的1.93%,显著优于对比方法(如Meta-SC的2.86%),同时其可训练参数量仅为4.9M,相比全参数微调减少了90%以上。该工作的实际意义在于为水声系统在实际部署中应对新出现的目标类别提供了一种参数高效、自适应的增量学习方案。主要局限性在于缺乏对真实动态增量场景(如任务顺序未知、重叠)的验证,且复现信息严重不足。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 318 words

Addressing Gradient Misalignment in Data-Augmented Training for Robust Speech Deepfake Detection

📄 Addressing Gradient Misalignment in Data-Augmented Training for Robust Speech Deepfake Detection #语音伪造检测 #数据增强 #鲁棒性 #梯度优化 ✅ 7.0/10 | 前25% | #语音伪造检测 | #数据增强 | #鲁棒性 #梯度优化 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Duc-Tuan Truong(南洋理工大学,新加坡) 通讯作者:Ruijie Tao(新加坡国立大学)、Kong Aik Lee(香港理工大学)(论文中标注为共同通讯作者) 作者列表:Duc-Tuan Truong(南洋理工大学)、Tianchi Liu(新加坡国立大学)、Junjie Li(香港理工大学)、Ruijie Tao(新加坡国立大学)、Kong Aik Lee(香港理工大学)、Eng Siong Chng(南洋理工大学) 💡 毒舌点评 亮点:论文首次敏锐地指出了“数据增强双路径训练中同一语句的原始与增强版本梯度冲突”这一被忽视却普遍存在的现象,并设计了优雅的DPDA框架加以解决,理论分析(损失曲面可视化)与实验证据结合得很有说服力。短板:核心的“梯度对齐”技术(PCGrad等)是直接“借用”自多任务学习领域,本文的创新更多在于问题发现和技术迁移应用,而非算法本身的原创性突破。 🔗 开源详情 代码:论文明确提供了代码仓库链接:github.com/ductuantruong/dpda_ga。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:论文使用的ASVspoof2019 LA、ASVspoof2021 DF、In-the-Wild、FoR均为公开数据集,但未说明具体获取方式。 Demo:未提供在线演示。 复现材料:提供了代码仓库,是核心复现材料。论文描述了模型架构、数据增强方法(RawBoost配置4)、训练策略(如早停、批大小)等关键细节,但缺少如学习率、优化器、具体硬件等训练超参数。 引用的开源项目:论文依赖并提及了XLSR模型(来自Hugging Face)、RawBoost增强工具、以及作为对比的多种SDD模型代码。 📌 核心摘要 本文针对语音深度伪造检测(SDD)模型在使用数据增强(DA)训练时,原始输入与增强输入反向传播梯度方向不一致(冲突)导致优化矛盾、影响模型泛化的问题,提出了一种双路径数据增强训练框架与梯度对齐方法。该框架将每个训练语句同时通过原始路径和增强路径输入共享模型,计算损失后,在梯度更新前使用PCGrad等梯度对齐技术处理冲突。主要创新在于首次在SDD领域系统研究并量化了DA训练中的梯度冲突(约25%的迭代存在冲突),并通过损失曲面可视化证明冲突源于不同的损失景观。实验表明,该方法在XLSR-AASIST、XLSR-Conformer-TCM、XLSR-Mamba三种架构上,配合RawBoost等多种增强方法,在ASVspoof2021-DF、In-the-Wild、FoR等挑战性测试集上均能稳定提升性能。例如,在XLSR-Conformer-TCM上,使用PCGrad在ITW数据集上将EER从7.97%降至6.48%,相对降低约18.69%。该方法能加速收敛(提前至第4个epoch达到最低验证损失)。其实际意义在于提供了一种即插即用、与模型和增强技术无关的训练优化策略,以提升SDD的鲁棒性。局限性在于主要从经验层面分析,缺乏对梯度冲突产生理论条件的深层探究,且梯度对齐技术本身非本文原创。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 261 words

ADH-VA: Adaptive Directed-Hypergraph Convolution with VA Contrastive Learning for Multimodal Conversational Emotion Recognition

📄 ADH-VA: Adaptive Directed-Hypergraph Convolution with VA Contrastive Learning for Multimodal Conversational Emotion Recognition #语音情感识别 #多模态模型 #超图网络 #对比学习 ✅ 7.5/10 | 前10% | #语音情感识别 | #超图网络 | #多模态模型 #对比学习 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Ziqi Shu1,†, Rongzhou Zhou1,† (†表示共同第一作者) 通讯作者:Qingfeng Wu1,⋆ (⋆表示通讯作者) 作者列表:Ziqi Shu(厦门大学电影学院)、Rongzhou Zhou(厦门大学电影学院)、Xiaodong Wang(厦门大学电影学院)、Qingfeng Wu(厦门大学电影学院)、Lu Cao(厦门大学) 💡 毒舌点评 本文巧妙地将有向超图的结构优势(建模高阶交互)与因果信息流约束(防止信息泄露)相结合,并在效价-唤醒度连续维度空间进行对比学习以精炼特征,整体框架设计颇具巧思。然而,其核心VA对比学习依赖外部预训练模型(如RoBERTa, EmoFAN, Wav2Vec2)提供监督信号,这不仅可能引入领域偏差,也意味着模型的性能部分受制于这些外部工具的精度。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用公开数据集IEMOCAP和MELD,但论文未说明具体的获取或预处理脚本。 Demo:未提供在线演示。 复现材料:论文提供了方法的详细数学描述和架构图,但未提供训练细节(如超参数配置文件、随机种子)、模型检查点或附录补充材料。 论文中引用的开源项目:引用了多个作为基线和组件的开源工作,如RoBERTa-base, EmoFAN, Wav2Vec2-Large-Robust等,但未说明是否使用了这些项目的官方实现。 总结:论文中未提及任何开源计划。 📌 核心摘要 要解决的问题:多模态对话情感识别面临跨模态异质性、情感线索不一致以及强上下文/说话人依赖性等挑战。现有图或Transformer方法在建模高阶交互、保持时间因果性和避免冗余/过平滑方面存在不足。 方法核心:提出ADH-VA框架,包含两大核心组件:(1) 基于效价-唤醒度(VA)的对比学习目标,用于在嵌入空间对齐和精炼单模态特征;(2) 自适应有向超图卷积(ADHConv),用于建模对话内的高阶模态内/间依赖关系,并通过有向边强制信息按时间因果流动。 与已有方法相比新在哪里:a) 首次将有向超图引入该任务,结合了超图的高阶建模能力和有向图的因果约束;b) ADHConv具有自适应加权机制,能动态调整超边和节点权重以抑制冗余和过平滑;c) 将VA连续维度空间作为对比学习的监督信号,为无监督对比学习提供了有意义的情感先验。 主要实验结果:在两个基准数据集IEMOCAP和MELD上,ADH-VA均取得了最优性能。例如,在IEMOCAP上达到74.71%准确率和74.85%加权F1,超越此前最佳方法SDT;在MELD上达到69.33%准确率和67.91%加权F1,超越此前最佳方法HAUCL。消融实验表明,有向性、自适应加权和VA对比学习模块均对性能有显著贡献。 实际意义:该工作为多模态对话情感识别提供了新的强基线模型,其方法思想(有向高阶图建模、情感空间对比学习)可推广至其他需要建模序列依赖和多源信息融合的任务。 主要局限性:超图构建在长对话和多人对话中计算开销可能较大;对外部VA估计器的依赖可能导致领域迁移时的偏差;在嘈杂条件下视觉线索的利用仍不充分。 🏗️ 模型架构 ADH-VA的整体架构如图1所示,主要包含四个阶段:数据预处理、VA驱动的对比学习、自适应有向超图卷积和分类器。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 401 words