A Hybrid Convolution-Mamba Network with Tone-Octave Contrastive Learning for Stratified Semi-Supervised Singing Melody Extraction

📄 A Hybrid Convolution-Mamba Network with Tone-Octave Contrastive Learning for Stratified Semi-Supervised Singing Melody Extraction #音乐信息检索 #歌唱旋律提取 #对比学习 #状态空间模型 #半监督学习 ✅ 7.5/10 | 前25% | #歌唱旋律提取 | #对比学习 | #音乐信息检索 #状态空间模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:康杰东(Kangjie Dong, 东华大学计算机科学与技术学院) 通讯作者:于帅(Shuai Yu, 大连理工大学信息与通信工程学院), 李威(Wei Li, 复旦大学计算机科学与技术学院) 作者列表:康杰东(东华大学计算机科学与技术学院), Shicheng Ding(美国塔博学院), 于帅(大连理工大学信息与通信工程学院, 通讯作者), 李威(复旦大学计算机科学与技术学院, 通讯作者) 💡 毒舌点评 这篇论文最大的亮点是其极致的“小而美”:仅用0.53M参数就在三个标准数据集上全面超越了从1M到147M不等的强基线,证明了其设计的混合架构与音调八度对比学习在特征表示上的高效性。然而,其分层半监督策略设计略显繁琐,且歌唱旋律提取作为相对垂直的音乐信息检索任务,其普适影响力相较于语音识别等通用任务有所局限。 📌 核心摘要 问题:现有的歌唱旋律提取(SME)方法在建模频谱图时,难以同时高效捕捉局部模式与长程时频依赖,并且缺乏对音高层次(音调、八度)这一音乐先验的显式建模。此外,大多数半监督方法将所有无标签数据同等对待,导致伪标签质量不高。 方法核心:提出了一个统一框架,包含三个关键组件:1)HybridNet:结合双轴Mamba和卷积神经网络来联合建模时频依赖,并设计了一种“结构池化”方案,将频率轴显式编码为“八度×音调”的网格结构,嵌入了音调层次先验。2)音调八度对比学习损失(TOCL):通过设计两个投影器分别将特征映射到音调和八度子空间,拉近相同音调或八度的嵌入,推远不匹配的对,并引入了基于时间邻近度的加权以强调有信息量的正负样本对。3)分层半监督学习策略(S-SSL):根据预测置信度和原型相似度,将无标签帧划分为“容易”、“模糊”、��困难”三组,并分别为每组设计不同的训练目标,从而更有效地利用无标签数据。 与已有方法相比新在哪里:相比CNN方法(如MF-TFA)能更好地建模长程依赖,相比Transformer方法(如TONet)复杂度更低,相比现有Mamba方法(如SpectMamba)引入了更强的结构先验(音调八度层次)和更精细的对比学习与半监督策略。该方法是首个将结构化音调先验、对比学习与分层半监督三者统一应用于SME的框架。 主要实验结果:在ADC2004, MIREX05和MedleyDB三个数据集上,所提HybridNet模型在主要指标OA上均取得了最佳性能。例如,在ADC2004上OA达到87.76%,比最强基线MF-TFA(85.39%)高2.37%。消融实验证实了结构池化(OP, -3.33% OA)、对比学习(TOCL, -1.38% OA)和分层半监督(S-SSL, -1.32% OA)三个组件的贡献。可视化结果(如图3)显示其生成的特征热图更干净,能捕捉到八度相关的谐波结构,在颤音等复杂片段上预测更准。 实际意义:提升了从复杂音乐信号中提取主唱旋律的准确度和模型效率(模型仅0.53M参数),有助于下游应用如哼唱检索、音乐推荐、翻唱识别等。其设计思路(结构先验嵌入、置信度分层利用无标签数据)对其他序列建模任务有借鉴意义。 主要局限性:任务(歌唱旋律提取)本身属于音乐信息检索中的一个垂直领域,应用广度相对有限。分层半监督策略引入了多个超参数(如τc, τa, λe, λa, λh),调优和部署可能稍显复杂。 🏗️ 模型架构 所提HybridNet整体采用类似U-Net的编码器-解码器架构,核心是混合块(Hybrid Block, HB)和结构池化。以下是详细流程: ...

2026-04-29

Combining SSL Speech Features, Contextual Transformers and Mamba Models for Realistic Audio Spoofing Detection

📄 Combining SSL Speech Features, Contextual Transformers and Mamba Models for Realistic Audio Spoofing Detection #音频深度伪造检测 #状态空间模型 #预训练 #自监督学习 #基准测试 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #状态空间模型 | #预训练 #自监督学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Luis Buera(Microsoft) 通讯作者:未说明(论文作者列表未明确区分第一/通讯作者,但通讯邮箱为microsoft.com) 作者列表:Luis Buera(Microsoft),Héctor Delgado(Microsoft),Daniele Colibro(Microsoft),Antonio Miguel(University of Zaragoza, Spain) 💡 毒舌点评 亮点:论文构建的“真实世界”评测基准极具说服力,明确区分了注入和播放两种攻击呈现方式,并评估了模型在不同通话时长下的性能,这为学术研究与工业落地之间架设了更实际的桥梁。 短板:提出的“ResNet-CoT-Mamba”更像是一个高效的成功模型组装案例,其核心组件如Audio Mamba、Hymba集成方式的原创性有限,更多是对现有技术的巧妙组合与验证。 📌 核心摘要 问题:传统音频伪造检测模型在实验室条件下效果良好,但在面对真实通话场景(如电话客服中心)中的注入和播放攻击时,性能会下降,且现有研究对攻击呈现方式关注不足。 方法核心:提出“ResNet-CoT-Mamba”架构。首先使用预训练的wav2vec 2.0提取语音特征,然后通过由残差网络(ResNet)和上下文Transformer(CoT)组成的模块捕获短时相关性,最后用Mamba状态空间模型(SSM)捕获长程依赖关系。论文探索了多种Mamba集成方式,包括单向、双向、Hymba(Transformer与Mamba并行)和双路径结构。 创新点:1) 构建了包含注入、播放和真实通话中心场景的全面评测基准;2) 提出将Transformer(CoT)与Mamba在检测任务中进行多种方式的组合,特别是首次将Hymba架构引入该领域。 实验结果:在提出的基准测试中,最佳模型(Dual+Hymba+u (6))相比强基线LGF,在EER和MDR上分别实现了52.6%和56.3%的相对改进。在“真实世界”数据集上,该模型在播放攻击场景的MDR上显著优于基线。关键数据见下表: 模型 Pool EER(%) Avg. MDR(%) Pool MDR(%) 播放攻击MDR(%) LGF (基线) 7.27 19.90 23.84 39.72 Dual+Hymba+u (6) 3.28 10.58 8.15 未在表中直接给出 Dual+Hymba+u (4) 3.77 12.52 9.59 31.05 实际意义:该工作推动了音频伪造检测从实验室走向真实应用,为电话客服、金融通话等场景提供了更可靠的防御模型。 主要局限性:1) 模型架构的创新主要体现在组合方式上,而非基础模块的原创设计;2) 论文未开源代码、模型权重或测试数据集,影响了可复现性;3) 训练数据包含未公开的私有数据集(如Realworld, Augmented),尽管公开部分足够验证核心结论。 🏗️ 模型架构 论文提出了两种主要架构变体:ResNet-CoT-Mamba和ResNet-CoT-Dual-Mamba。 ...

2026-04-29

Condition-Invariant fMRI decoding of speech intelligibility with deep state space model

📄 Condition-Invariant fMRI decoding of speech intelligibility with deep state space model #神经解码 #状态空间模型 #语音可懂度解码 #跨条件迁移 #鲁棒性 ✅ 7.0/10 | 前25% | #神经解码 | #状态空间模型 | #语音可懂度解码 #跨条件迁移 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:论文中提到Ching-Chih Sung, Shuntaro Suzuki, Francis Pingfan Chien贡献相等,未明确第一作者。 通讯作者:论文中未明确标注通讯作者。 作者列表:Ching-Chih Sung (Academia Sinica, Taiwan; Graduate Institute of Communication Engineering, National Taiwan University, Taiwan), Shuntaro Suzuki (Keio University, Japan), Francis Pingfan Chien (Academia Sinica, Taiwan; Taiwan International Graduate Program in Interdisciplinary Neuroscience, National Taiwan University, Taiwan), Komei Sugiura (Keio University, Japan), Yu Tsao (Academia Sinica, Taiwan)。 💡 毒舌点评 亮点在于首次尝试在嘈杂和增强语音等多种声学条件下解码大脑对语音可懂度的神经表征,并验证了其“条件不变”性,这比仅在干净语音上做解码更有科学意义。短板是fMRI数据量(25名被试)在深度学习时代略显单薄,且论文未开源代码和数据,极大限制了该方法的验证与推广。 ...

2026-04-29

DECAF: Dynamic Envelope Context-Aware Fusion for Speech-Envelope Reconstruction from EEG

📄 DECAF: Dynamic Envelope Context-Aware Fusion for Speech-Envelope Reconstruction from EEG #语音增强 #状态空间模型 #跨模态 #信号处理 ✅ 7.0/10 | 前25% | #语音增强 | #状态空间模型 | #跨模态 #信号处理 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 中 👥 作者与机构 第一作者:未说明(论文作者列表仅提供“Karan Thakkar”,但未明确标注其为第一作者) 通讯作者:未说明 作者列表:Karan Thakkar (Johns Hopkins University, USA), Mounya Elhilali (Johns Hopkins University, USA) 机构:约翰霍普金斯大学,计算音频感知实验室 (Laboratory for Computational Audio Perception) 💡 毒舌点评 亮点:该论文的核心思想——将语音包络重建从静态映射问题重新定义为结合时序先验的动态状态估计问题——非常清晰且富有启发性,为相关领域提供了有价值的范式参考;实验设计严谨,严格遵循公开挑战赛协议,并通过消融、频谱分析和鲁棒性测试多角度验证了方法的合理性。短板:在绝对性能上,尽管超越了先前SOTA,但提升幅度相对有限(从0.162到0.170),且与“理想上限”(DECAF-Oracle)差距依然明显,这削弱了其“突破性”的观感;论文中未提供完整的作者贡献与通讯信息,略显不规范。 📌 核心摘要 本文针对从脑电图(EEG)信号重建语音包络这一任务,提出了一种新的动态框架DECAF。1. 要解决的问题:现有深度学习方法将此任务视为静态回归,忽略了语音信号本身丰富的时序结构,导致重建保真度和鲁棒性受限。2. 方法核心:提出一种状态空间融合模型,它包含三个模块:直接从EEG估计当前包络的“EEG解码器”、从过去预测值自回归预测当前包络的“包络预测器”,以及一个学习到的门控网络,用于自适应地融合神经证据和时序先验。3. 与已有方法相比新在哪里:首次将此问题明确重构为动态状态估计任务,而非无状态的静态映射。模型完全因果且递归,能利用自身历史预测构建时序上下文。4. 主要实验结果:在ICASSP 2023 EEG解码挑战赛(任务2)的测试集上,DECAF的平均皮尔逊相关系数达到0.170±0.061,显著优于此前的最佳模型HappyQuokka(0.162±0.061,p=0.000483)。消融实验证明了两个分支的互补性:单独的EEG分支性能为0.117,单独的预测器分支接近随机。频谱分析表明,模型能协同利用EEG分支的低频信息和预测器的高频细节。5. 实际意义:该工作为听觉注意力解码和神经调控助听器等应用提供了更准确、连贯且适合在线处理的神经解码新方向。6. 主要局限性:模型绝对性能仍有提升空间(与Oracle上限差距大);在EEG信号极度嘈杂时(SNR低),性能优势消失;作者信息在提供的文本中不完整。 ...

2026-04-29

Disentangling Physiology from Fidelity: Latent-Guided Diffusion Models for Cross-Modal Cardiac Synthesis

📄 Disentangling Physiology from Fidelity: Latent-Guided Diffusion Models for Cross-Modal Cardiac Synthesis #音频生成 #扩散模型 #状态空间模型 #数据增强 #跨模态 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #状态空间模型 #数据增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Chenyang Xu(西安电子科技大学 网络安全学院) 通讯作者:Hao Wang(西安电子科技大学 网络安全学院) 作者列表:Chenyang Xu(西安电子科技大学 网络安全学院)、Siming Li(西安电子科技大学 电信工程学院)、Wensai Xuan(西安电子科技大学 机电工程学院)、Hao Wang(西安电子科技大学 网络安全学院) 💡 毒舌点评 亮点:论文巧妙地将“内容”(生理状态)与“风格”(信号波形)解耦,其潜在空间t-SNE可视化(图4)首次提供了学习到的生理状态分离的直观证据,这是一个令人信服的贡献。短板:方法的有效性高度依赖于配对、同步且状态标注清晰的高质量数据(如Ephnogram),在真实世界更嘈杂、异构的临床数据中的泛化能力存疑,而论文未对此进行任何讨论或验证。 📌 核心摘要 要解决的问题:心电图(ECG)与心音图(PCG)的跨模态合成对于综合心血管评估至关重要,但面临长程依赖建模和保持临床保真度的挑战。 方法核心:提出Mamba-Diff-VAE两阶段框架。第一阶段,共享的Mamba-VAE编码器将输入信号编码到一个捕获核心生理内容的结构化共享潜在空间。第二阶段,条件Mamba扩散解码器在潜在代码和元数据(如生理状态)的引导下,生成高保真的目标波形。 与已有方法相比新在哪里:不同于直接端到端的条件扩散模型,该工作明确将“内容表示”与“波形生成”解耦。使用Mamba替代Transformer处理长序列,具有线性复杂度优势。并且首次实证了学习到的潜在空间能有意义地区分生理状态(如静息与运动后)。 主要实验结果:在Ephnogram数据集上,该方法在ECG-to-PCG和PCG-to-ECG双向合成任务上均取得SOTA。与最强基线SSSM-Diff相比,在ECG-to-PCG任务上MSE降低40%(0.149 vs 0.089),相关性提高13%(0.745 vs 0.847);在PCG-to-ECG任务上MSE降低35%(0.173 vs 0.112)。消融研究(表2)证实了VAE组件和共享编码器的关键作用。 实际意义:该框架可用于生成高质量的合成心脏信号进行数据增强,提升下游诊断模型性能;其结构化潜在空间为心脏生理状态建模和潜在生物标志物发现提供了新途径。 主要局限性:研究仅基于一个公开数据集(Ephnogram)和健康/运动状态,未在病理数据集上验证泛化性;潜在空间分析主要停留在t-SNE可视化层面;推理过程未针对临床实时性进行优化。 🏗️ 模型架构 论文提出的Mamba-Diff-VAE是一个两阶段生成框架,旨在实现ECG和PCG信号的双向合成。其整体架构如图1所示。 ...

2026-04-29

Mambaformer: State-Space Augmented Self-Attention with Downup Sampling for Monaural Speech Enhancement

📄 Mambaformer: State-Space Augmented Self-Attention with Downup Sampling for Monaural Speech Enhancement #语音增强 #状态空间模型 #Transformer #双路径模型 #时频分析 ✅ 7.0/10 | 前25% | #语音增强 | #状态空间模型 | #Transformer #双路径模型 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Shengkui Zhao, Haoxu Wang, Zexu Pan, Yiheng Jiang, Biao Tian, Bin Ma, Xiangang Li (阿里巴巴通义实验室,新加坡) 💡 毒舌点评 这篇论文在工程集成上确实下足了功夫,将Mamba、Conformer、ZipFormer等多种组件巧妙地缝合在一个双路径框架里,最终在标准测试集上刷新了指标。然而,其核心创新更偏向于“有效的组合技”而非“范式革新”,更像是对现有技术模块进行了一次成功的超参调优和工程排列组合,略显缺乏令人眼前一亮的原创思想火花。 📌 核心摘要 这篇论文要解决的是单通道语音增强任务中,如何更有效地结合Transformer的全局建模能力和状态空间模型(SSM)的高效序列处理能力的问题。 方法核心是提出了MambaFormer模型,它在一个双路径(时间-频率)框架内,将Mamba模块嵌入到Transformer的自注意力机制中,并辅以Conformer卷积和对称的降采样/上采样结构。 与已有方法相比,新在三个方面:1)首次在SE任务中将Mamba与自注意力深度融合,而非简单堆叠;2)设计了双层自注意力结构并共享注意力权重以提升效率;3)采用了可学习的下采样/上采样模块来平衡计算效率与表征保真度。 主要实验结果:在VoiceBank+DEMAND测试集上,其MambaFormer (M)模型取得了3.69的PESQ得分;在DNS Challenge 2020测试集上取得了3.82的PESQ得分,均报告为新的最先进水平。关键对比数据见下表: 模型 VoiceBank+DEMAND PESQ DNS2020 PESQ 参数量(M) ZipEnhancer (S) 3.63 3.69 2.04 MambaFormer (S) 3.66 3.75 2.14 MambaFormer (M) 3.69 3.82 9.04 实际意义在于验证了SSM与Transformer协同工作的有效性,为语音增强模型设计提供了新的模块化组合思路。主要局限性在于:1)创新更多是组合与适配,原创性有限;2)论文未提供代码和模型权重,复现性未验证;3)虽然提出了新的SOTA,但与基线的绝对提升幅度并不巨大。 ...

2026-04-29

Neuromamba: Adaptive Frequency Filtering with a Pyramid Mamba for sEEG-driven Speech Synthesis

📄 Neuromamba: Adaptive Frequency Filtering with a Pyramid Mamba for sEEG-driven Speech Synthesis #语音合成 #信号处理 #状态空间模型 #脑机接口 #低资源 🔥 8.0/10 | 前25% | #语音合成 | #信号处理 #状态空间模型 | #信号处理 #状态空间模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Jiayue Xie†, Ruicong Wang† (†共同第一作者,单位:香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室) 通讯作者:Siqi Cai⋆ (⋆通讯作者,单位:哈尔滨工业大学(深圳)智能科学与工程学院、深圳湾实验室) 作者列表:Jiayue Xie (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室), Ruicong Wang (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室), Xueyi Zhang (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室), Siqi Cai (哈尔滨工业大学(深圳)智能科学与工程学院、深圳湾实验室), Haizhou Li (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室; 深圳湾实验室) 💡 毒舌点评 论文的亮点在于其模块设计(AFM与TPM)逻辑清晰,针对sEEG信号特性的动机阐述充分,消融实验和多任务(发声/默念/想象)评估也显得扎实可靠。然而,将实验仅局限于2名被试的sEEG数据,虽然这是领域早期常见情况,但论文并未充分讨论其结论在更广泛人群和非癫痫患者中的潜在泛化性限制,这使得“有效性”的声明略显单薄。 ...

2026-04-29

Respire-Mamba C-UNet: Consistency-Trained Autoencoder for High-Fidelity Respiratory Sound Compression

📄 Respire-Mamba C-UNet: Consistency-Trained Autoencoder for High-Fidelity Respiratory Sound Compression #音频压缩 #一致性训练 #状态空间模型 #远程医疗 ✅ 7.0/10 | 前25% | #音频压缩 | #一致性训练 | #状态空间模型 #远程医疗 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Rishabh(德里大学计算机科学系) 通讯作者:未说明 作者列表:Rishabh(德里大学计算机科学系)、Yogendra Meena(德里理工大学应用数学系)、Dhirendra Kumar(贾瓦哈拉尔·尼赫鲁大学计算机与系统科学学院)、Kuldeep Singh(德里大学计算机科学系)、Nidhi(J.C. Bose科学技术大学 YMCA) 💡 毒舌点评 论文成功地将多个前沿技术(SincConv、U-Net金字塔、Mamba、一致性模型)缝合在一起,在呼吸音压缩任务上取得了令人印象深刻的保真度(CC=1.0000),这是其显著亮点。然而,其核心短板在于压缩比(CR=3.91)相对温和,且论文主要贡献更偏向于“工程整合”而非“理论突破”,此外,关键的消融实验(如表1)中“去掉方差缩放/频率门控”性能反而略好于完整模型,这略显反常,论文未给出充分解释。 📌 核心摘要 要解决的问题:慢性呼吸疾病诊断中,数字听诊器录音的高效压缩与高保真重建,以支持可扩展的远程医疗。 方法核心:提出Respire-Mamba C-UNet,一个统一的自编码器框架。它结合生理感知的SincConv前端进行特征提取,金字塔UNet进行多尺度编码,以及一个由时间Mamba瓶颈增强的一致性训练UNet进行单步解码重建。 与已有方法相比新在哪里:不同于先前工作孤立处理前端、编码、解码,或追求极端压缩比,本文首次将SincConv的生理感知前端、金字塔多尺度表示、Mamba的高效长程建模与一致性训练的单步重建能力整合,共同优化以获得临床级保真度。 主要实验结果:在SPRSound 2024基准测试上,模型实现了PRD=0.85%, CC=1.0000, CR=3.91,显著优于现有自编码器和压缩感知基线。消融研究证实了各组件的互补增益。关键对比如下表所示: 方法 PRD (%) CC CR 压缩感知 [10] 50.1 0.8630 3.5 VAE+Transformer [11] 20.5 0.9800 256 卷积自编码器 [9] 22.3 0.9720 222.1 生成式VAE [9] 7.60 0.9757 42.67 压缩感知 [9] 5.30 0.9311 4 本文方法 0.85 1.0000 3.91 实际意义:为医疗远程听诊提供了一种高质量、低延迟(单次前向传播)的音频压缩解决方案,有助于推动远程呼吸诊断的普及。 主要局限性:压缩比相对较低,未在更广泛的音频或疾病类型数据集上验证;消融实验中个别结果的解读需要更多分析;未提供代码与模型以支持复现。 🏗️ 模型架构 整体架构是一个端到端的自编码器,包含前端、编码器、瓶颈和解码器。 ...

2026-04-29

Spring Reverb Emulation with Hybrid Gated Convolutional Networks and State Space Models

📄 Spring Reverb Emulation with Hybrid Gated Convolutional Networks and State Space Models #音频生成 #状态空间模型 #门控卷积网络 #实时处理 #数据集 ✅ 7.5/10 | 前25% | #音频生成 | #状态空间模型 | #门控卷积网络 #实时处理 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jonas Janser (Institute of Computer Technology, TU Wien, Austria) 通讯作者:未明确说明(论文中未标注通讯作者) 作者列表:Jonas Janser (Institute of Computer Technology, TU Wien, Austria)、Matthias Wess (Institute of Computer Technology, TU Wien, Austria; Christian Doppler Laboratory for Embedded Machine Learning, TU Wien, Austria)、Dominik Dallinger (Institute of Computer Technology, TU Wien, Austria; Christian Doppler Laboratory for Embedded Machine Learning, TU Wien, Austria)、Matthias Bittner (Institute of Computer Technology, TU Wien, Austria; Christian Doppler Laboratory for Embedded Machine Learning, TU Wien, Austria)、Daniel Schnöll (Institute of Computer Technology, TU Wien, Austria; Christian Doppler Laboratory for Embedded Machine Learning, TU Wien, Austria)、Axel Jantsch (Institute of Computer Technology, TU Wien, Austria; Christian Doppler Laboratory for Embedded Machine Learning, TU Wien, Austria) 💡 毒舌点评 亮点:论文核心贡献在于提出了GCN-SSM混合架构,通过交错馈馈网络与状态空间模型,有效解决了纯卷积模型相位不准和纯状态空间模型混响尾音不真实、有振铃伪影的问题,实现了“分工合作”,在主观听感上获得了最高分。 短板:尽管标题声称“state-of-the-art”,但实验中并未与近年来在音频效果建模领域其他强劲的基线(如更新的扩散模型或更复杂的循环网络变体)进行直接对比,使得其最优性结论的支撑略显单薄。 ...

2026-04-29

Tri-Attention Fusion: Joint Temporal-Spectral and Bidirectional Modeling for Speech Spoofing Detection

📄 Tri-Attention Fusion: Joint Temporal-Spectral and Bidirectional Modeling for Speech Spoofing Detection #语音伪造检测 #注意力机制 #状态空间模型 #端到端 #预训练 ✅ 7.0/10 | 前25% | #语音伪造检测 | #注意力机制 | #状态空间模型 #端到端 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Minjiao Yang(北京邮电大学网络空间安全学院) 通讯作者:Kangfeng Zheng(北京邮电大学网络空间安全学院,姓名后带星号*) 作者列表:Minjiao Yang(北京邮电大学网络空间安全学院)、Kangfeng Zheng(北京邮电大学网络空间安全学院)、Jujie Wang(北京邮电大学网络空间安全学院)、Xiaoyu Zhang(北京邮电大学网络空间安全学院)、Yaru Zhao(国际关系学院) 💡 毒舌点评 这篇论文在Mamba日益火热的语音防伪赛道上,为BiMamba-ST模型量身打造了一个结构精巧、消融实验扎实的融合模块,实验结果在多个公开基准上取得了稳定的提升,尤其是端到端方案在In-the-Wild数据集上的相对EER下降31%,显示了不错的泛化能力。然而,核心创新主要集中在对已有骨干网络输出端的信息整合方式,而非提出全新的检测范式或发现更本质的伪造痕迹,且缺乏代码和模型开源,限制了其在社区内被快速验证和应用的可能性。 📌 核心摘要 这篇论文针对语音伪造检测任务中,需要同时建模时频域、短时与长时依赖关系的挑战,提出了一种名为“三重注意力融合”(Tri-Attention Fusion)的模块。该方法以BiMamba-ST(一种双向Mamba的时频双分支骨干网络)的输出为基础,通过三个子模块逐步整合信息:局部域注意力(LDA)在通道维度自适应融合前向和反向扫描得到的特征;跨域注意力(CDA)通过通道Gram矩阵在共享通道空间内实现时域与频域特征的交互;全局表示池化(GRP)将序列特征聚合为固定维度的嵌入。该模块被集成到端到端和预训练(XLSR)两种前端中进行评估。实验结果在ASVspoof 2019 LA、2021 LA、2021 DF以及In-the-Wild四个数据集上,均取得了与现有最佳方法持平或超越的性能。例如,在端到端前端下,其在In-the-Wild数据集上的EER为33.48%,相比基线RawBMamba(48.53%)有31%的相对下降。该工作的核心意义在于证明了一个设计良好的渐进式融合模块能显著提升Mamba类模型在复杂伪造检测任务中的特征建模能力。主要局限性在于其创新是模块级的,且未开源代码与模型,复现依赖论文中的细节描述。 🏗️ 模型架构 模型整体架构为“特征提取前端 -> BiMamba-ST骨干 -> Tri-Attention Fusion模块 -> 分类器”。 ...

2026-04-29