CMSA-Mamba: Hierarchical State Space Modeling for Audio-Based Depression Detection

📄 CMSA-Mamba: Hierarchical State Space Modeling for Audio-Based Depression Detection #语音生物标志物 #Mamba #多尺度分析 #医疗健康 ✅ 7.0/10 | 前25% | #语音生物标志物 | #模型/架构 | #Mamba #多尺度分析 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Lokesh Kumar(IIT Dharwad, Karnataka, India; 论文注明“formerly with”,现为Unaffiliated, India) 通讯作者:未说明(论文未明确标注) 作者列表:Lokesh Kumar(未挂靠机构, India)、Tonmoy Rajkhowa(IIT (BHU) Varanasi, India)、Sanjeev Sharma(IIT (BHU) Varanasi, India) 💡 毒舌点评 亮点:这篇论文成功地将多尺度Mamba这一前沿视觉状态空间模型“跨界”应用于语音抑郁症检测,并在其上集成CoPE,取得了显著的性能提升和较低的计算开销(13M参数, 33ms推理),展示了将高效序列模型迁移到特定音频任务的有效性。短板:核心创新点(多尺度Mamba + CoPE)本身并非原创,而是对已有工作的组合与领域适配;且论文完全未开源代码和模型,对于一个声称达到SOTA的“新方法”而言,严重削弱了其可验证性和社区复现价值,使得“最佳性能”的说法需要打个问号。 📌 核心摘要 这篇论文旨在解决基于语音的自动抑郁症检测任务中现有方法难以同时建模多层次时序特征的问题。其核心方法是提出了CMSA-Mamba,一种新的音频处理架构,它将多尺度Mamba状态空间模型与上下文位置编码相结合,能够更有效地捕捉语音频谱图中的局部和全局时序模式。与已有的固定尺度模型相比,其创新在于首次为语音抑郁症检测引入了层次化的多尺度状态空间建模框架,并在多尺度扫描模块中集成了能够根据上下文自适应调整位置信息的CoPE机制。主要实验结果表明,CMSA-Mamba在两个标准抑郁症检测数据集(DAIC-WoZ和EATD-Corpus)上均取得了当前最优的性能,F1分数分别达到0.84和0.91,显著超越了包括AST-ViT和Audio Mamba在内的多种基线模型。该工作为心理健康评估提供了更准确、高效的语音分析工具,具有潜在的临床应用价值。主要局限性在于所用数据集规模相对较小,模型仅处理单一音频模态,且未提供开源代码限制了其可复现性。 🏗️ 模型架构 论文提出的CMSA-Mamba模型(架构如图1所示)是一个端到端的分类网络,输入为原始语音信号,输出为抑郁/非抑郁的分类结果。其完整流程如下: ...

2026-04-29

Obstructive Sleep Apnea Endotype Prediction During Wakefulness Using Voice Biomarkers

📄 Obstructive Sleep Apnea Endotype Prediction During Wakefulness Using Voice Biomarkers #语音生物标志物 #多任务学习 #自编码器 #特征选择 #医疗健康 ✅ 6.5/10 | 前50% | #语音生物标志物 | #多任务学习 | #自编码器 #特征选择 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Shiva Akbari(多伦多大学生物医学工程研究所、KITE研究所) 通讯作者:未说明 作者列表:Shiva Akbari(多伦多大学生物医学工程研究所、KITE研究所)、Behrad Taghibeyglou(多伦多大学生物医学工程研究所、KITE研究所)、Atousa Assadi(多伦多大学生物医学工程研究所、KITE研究所)、Dominick Madulid(麦克马斯特大学)、Devin Brown(密歇根大学神经学系)、Daniel Vena(哈佛医学院布莱根妇女医院睡眠与昼夜节律疾病科)、Scott Sands(哈佛医学院布莱根妇女医院睡眠与昼夜节律疾病科)、Azadeh Yadollahi(多伦多大学生物医学工程研究所、KITE研究所) 💡 毒舌点评 亮点:首次尝试从清醒期语音直接预测OSA的核心生理内型(气道塌陷性和肌肉补偿性),这个思路跳出了传统睡眠监测的框架,为低成本个性化诊断开辟了极具想象力的道路。短板:仅靠45人的小样本就得出强相关性结论,且缺乏外部验证集和与更强大基线的对比,这份“可行性”的证据链显得有些脆弱,离临床应用还有很长的路要走。 📌 核心摘要 这篇论文旨在解决阻塞性睡眠呼吸暂停(OSA)个性化治疗中的一个关键瓶颈:如何非侵入性地确定其潜在病理生理内型(如气道塌陷性、肌肉补偿能力)。现有方法依赖昂贵且侵入性的多导睡眠监测(PSG)或食道压测定。论文提出了一种全新的机器学习框架,在患者清醒状态下,利用其持续元音发声的声学特征来预测这些内型。其核心方法是:首先,利用一个同时优化特征重构和内型预测任务的监督自编码器,将高维声学特征压缩至32维潜在表示;然后,通过互信息最大化进一步筛选出最相关的20个特征;最后,将这些特征输入一个采用Swish激活、批量归一化和Dropout的改进型多层感知机(MLP)进行回归预测。与传统机器学习方法相比,该方法的创新点在于整合了监督表征学习、特征选择和深度回归模型,以应对小样本和高维数据的挑战。主要实验结果表明,该框架在45名参与者的数据集上,预测气道塌陷性(r=0.8)和肌肉补偿性(r=0.83)与金标准测量值表现出高相关性,且MAE较低(见下表)。这证明了语音生物标志物作为非侵入性、可扩展的OSA内型预测工具的潜力。然而,该研究的主要局限性包括:样本量较小(n=45)可能限制泛化能力;仅聚焦于两个与发声结构最相关的内型;未在独立数据集上进行外部验证。 主要实验结果对比(表2): 模型 气道塌陷性(r) 气道塌陷性(MAE) 肌肉补偿性(r) 肌肉补偿性(MAE) Ridge Regression 0.52 5.63 0.63 10.04 Random Forest 0.67 4.06 0.71 8.32 Single-layer MLP 0.57 4.93 0.25 41.09 Proposed Approach 0.80 2.6 0.83 4.32 🏗️ 模型架构 模型的整体架构(如图1所示)是一个多阶段的端到端处理流程,旨在从原始声学特征中学习并预测生理内型。 ...

2026-04-29

HCFD: A Benchmark for Audio Deepfake Detection in Healthcare

📄 HCFD: A Benchmark for Audio Deepfake Detection in Healthcare #音频深度伪造检测 #状态空间模型 #基准测试 #超几何学习 #医疗健康 📝 评分:5.0/10 | arxiv 👥 作者与机构 第一作者: Mohd Mujtaba Akhtar (Veer Bahadur Singh Purvanchal University, India) † (论文标注为Equal contribution as a first author) 通讯作者: Muskaan Singh (Ulster University, UK) (论文标注为Corresponding author) 其他作者: Girish (UPES, India) † (论文标注为Equal contribution as a first author) 💡 毒舌点评 亮点: 填补了医疗音频领域深伪检测的空白,像个“音频法医”一样专门为病态语音设计检测工具,数据集构建和实验设计非常系统、扎实。 槽点: 用了“Mamba”、“超几何空间”这些时髦词汇包装,但核心是“多个证据向量+原型聚类”的思路,有种给传统方法穿上了最新款外套的感觉。另外,实验都在干净的数据集上做,真放到嘈杂的远程医疗通话里,这97%的准确率估计得打个对折。 📌 核心摘要 本文针对医疗健康领域中神经音频编解码器生成的语音深伪检测问题,提出了一个全新的研究任务(HCFD)和基准数据集(HCFK)。研究发现,在健康语音上训练的现有深伪检测模型在病态语音上性能显著下降。为此,论文首先验证了预训练音频模型(如PaSST)能更好地应对病理语音带来的变异性。更重要的是,本文提出了一个名为PHOENIX-Mamba的几何感知检测框架,该框架通过Mamba骨干网络建模长程上下文,并利用超几何空间中的多个原型来表征和聚类异质的伪造语音模式,从而在多个临床条件(抑郁、阿尔茨海默症、构音障碍)和语言(英语、中文)上取得了优于预训练模型基线的性能。工作为医疗音频安全提供了重要的基准和初步解决方案,但其方法在真实复杂场景下的鲁棒性以及数据集的覆盖广度仍有待提升。 🏗️ 模型架构 PHOENIX-Mamba 模型的整体流程如下: 输入: 原始音频波形 x。 特征提取: 使用一个冻结的预训练模型(如PaSST, WavLM)作为编码器,提取序列化的潜在特征 X ∈ R^{T×D}。 适配器: 通过一个可学习的线性投影层 ϕ,将特征维度从 D 映射到 d,得到 U ∈ R^{T×d}。 上下文建模: 将序列 U 输入一个 Mamba状态空间模型 骨干网络 f_θ。该网络包含选择性状态空间层、层归一化、门控MLP和残差连接,输出富含上下文信息的特征序列 Z ∈ R^{T×d}。 多证据池化: 不同于传统的全局池化,模型使用 M 个可学习的查询向量,通过注意力机制从 Z 中聚合出 M 个局部的“证据向量” E ∈ R^{M×d}。每个证据向量关注音频中不同时间段的线索。 超几何映射: 每个证据向量 e_m 通过一个可学习的线性层 W 和指数映射 Exp_0^c,被投影到庞加莱球 ℳ(一种双曲空间)中,得到 h_m ∈ ℳ。 原型分类: 在双曲空间中,定义了一个负类原型 p_- 和 K 个正类原型 {p_+,k}。对于每个证据点 h_m,计算其与所有正类原型的软分配权重 q_m,k,并基于与正负原型的双曲距离计算分数 s_-(h_m) 和 s_+(h_m)。 聚合与预测: 对所有证据向量的分数进行平均,得到实例级的分数 S_- 和 S_+,最后通过Softmax得到最终的伪造语音概率 P(y=+|x)。 关键设计选择理由: ...

2026-04-21

语音/音频论文速递 2026-04-21

语音/音频论文速递 2026-04-21 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 模型评估 13篇 █████████████ 基准测试 9篇 █████████ 音频大模型 8篇 ████████ 数据集 7篇 ███████ 多语言 7篇 ███████ 多模态模型 5篇 █████ 强化学习 5篇 █████ 语音对话系统 4篇 ████ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken 10.0分 🥈 Audio-DeepThinker: Progressive Reasoning-Aware Reinforc 9.5分 🥉 VoxSafeBench: Not Just What Is Said, but Who, How, and 9.5分 4 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.0分 5 Prosody as Supervision: Bridging the Non-Verbal–Verbal 9.0分 6 Anonymization, Not Elimination: Utility-Preserved Speec 8.5分 7 MimicLM: Zero-Shot Voice Imitation through Autoregressi 8.5分 8 ArtifactNet: Detecting AI-Generated Music via Forensic 8.5分 9 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 10 LLM-Codec: Neural Audio Codec Meets Language Model Obje 8.5分 11 NIM4-ASR: Towards Efficient, Robust, and Customizable R 8.5分 12 Video-Robin: Autoregressive Diffusion Planning for Inte 8.0分 13 A state-space representation of the boundary integral e 8.0分 14 AVRT: Audio-Visual Reasoning Transfer through Single-Mo 8.0分 15 MoVE: Translating Laughter and Tears via Mixture of Voc 8.0分 16 SELF-EMO: Emotional Self-Evolution from Recognition to 8.0分 17 BhashaSutra: A Task-Centric Unified Survey of Indian NL 8.0分 18 MINT-Bench: A Comprehensive Multilingual Benchmark for 8.0分 19 ICLAD: In-Context Learning with Comparison-Guidance for 7.5分 20 Still Between Us? Evaluating and Improving Voice Assist 7.5分 21 Where Do Self-Supervised Speech Models Become Unfair? 7.5分 22 Neural Encoding Detection is Not All You Need for Synth 7.5分 23 Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust 7.5分 24 Latent Fourier Transform 7.5分 25 Hard to Be Heard: Phoneme-Level ASR Analysis of Phonolo 7.5分 26 VIBE: Voice-Induced open-ended Bias Evaluation for Larg 7.5分 27 Aligning Language Models for Lyric-to-Melody Generation 7.5分 28 ClariCodec: Optimising Neural Speech Codes for 200bps C 7.0分 29 From Reactive to Proactive: Assessing the Proactivity o 7.0分 30 A novel LSTM music generator based on the fractional ti 6.5分 31 Incremental learning for audio classification with Hebb 6.5分 32 Coexisting Tempo Traditions in Beethoven’s Piano and Ce 6.0分 33 FLiP: Towards understanding and interpreting multimodal 5.5分 34 HCFD: A Benchmark for Audio Deepfake Detection in Healt 5.0分 📋 论文列表 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs 🔥 10.0分 | #语音对话系统 #多模态模型 #迁移学习 #语音情感识别 | arxiv ...

2026-04-21