一致性学习

A Consistent Learning Depression Detection Framework Integrating Multi-View Attention

📄 A Consistent Learning Depression Detection Framework Integrating Multi-View Attention #语音生物标志物 #一致性学习 #注意力机制 #数据增强 #音频分类 ✅ 6.5/10 | 前50% | #语音生物标志物 | #一致性学习 | #注意力机制 #数据增强学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度中 👥 作者与机构第一作者：徐淑敏（Shuomin Xue）（东南大学网络科学与工程学院）通讯作者：杨春峰（Chunfeng Yang）（东南大学计算机科学与工程学院）作者列表：徐淑敏（Shuomin Xue）（东南大学网络科学与工程学院）、姚嘉轩（Jiaxuan Yao）（东南大学软件工程学院）、杨春峰（Chunfeng Yang）（东南大学计算机科学与工程学院） 💡 毒舌点评这篇论文首次将一致性学习范式引入基于音频的抑郁症检测，想法巧妙，技术整合度也不错。但论文的实验对比部分有些“自说自话”，Table 1中多个重要基线方法的Precision和Recall列为空，削弱了对比的说服力，而且作为一篇2026年的论文，完全没有提及开源计划，这对于临床应用研究来说是一个明显的短板。 🔗 开源详情代码：论文中未提及代码��接。模型权重：未提及公开权重。数据集：论文使用了公开数据集DAIC-WOZ和CMDC，但未在论文中提供具体的获取方式或链接（通常这些数据集需通过官方渠道申请）。 Demo：未提供在线演示。复现材料：论文给出了基本的超参数设置（λ1, λ2, σ, p, 学习率, batch size, BiLSTM维度）和数据预处理流程，但缺少模型具体层结构参数（如FAM中间层维度、多头注意力头数）、训练轮数、Dropout率、代码框架（如PyTorch/TensorFlow）等关键信息。论文中引用的开源项目：论文中引用了VGGish[7]和eGeMAPS[6]（通过OpenSMILE工具[6]实现）作为特征提取器，这些是公开可用的模型和工具。 📌 核心摘要本文旨在解决基于音频的自动抑郁症检测中面临的信号噪声大、模型鲁棒性不足的问题。作者提出了DSCAM（Dual-Student Consistency Learning Framework with Multi-view Attention）框架，其核心是采用两个独立初始化的学生模型，通过对未标注数据施加高斯噪声和通道掩码增强，利用一致性损失和稳定性损失约束两个模型输出的一致性，从而学习对噪声鲁棒的表示。同时，提出了时间注意力模块（TAM）和特征注意力模块（FAM），分别从时间和特征维度关注关键信息并抑制噪声。实验在CMDC和DAIC-WOZ两个抑郁症数据集上进行，结果表明DSCAM在F1分数和召回率上优于所对比的监督学习方法，例如在DAIC-WOZ数据集上F1达到0.683，召回率达0.710，在CMDC数据集上F1和召回率均达到0.955。消融实验证明了每个模块的贡献。该工作的实际意义在于为临床抑郁症的早期、客观筛查提供了一种潜在的自动化工具。主要局限性包括：1）实验对比不够全面，部分关键基线指标缺失；2）方法高度依赖半监督学习设置，且在更复杂的真实噪声环境下的泛化能力有待验证；3）未提供代码或模型复现资源。 ...

RTCFake: Speech Deepfake Detection in Real-Time Communication

📄 RTCFake: Speech Deepfake Detection in Real-Time Communication #语音伪造检测 #一致性学习 #数据集 #实时处理 ✅ 7.0/10 | 前25% | #语音伪造检测 | #一致性学习 | #数据集 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Jun Xue（武汉大学，计算机科学与工程学院，网络空间安全专业，Key Laboratory of Aerospace Information Security and Trusted Computing, Ministry of Education）通讯作者：Yanzhen Ren（武汉大学，计算机科学与工程学院）作者列表：Jun Xue（武汉大学，计算机科学与工程学院）、Zhuolin Yi（武汉大学，计算机科学与工程学院）、Yihuan Huang（武汉大学，计算机科学与工程学院）、Yanzhen Ren（武汉大学，计算机科学与工程学院）、Yujie Chen（北京航空航天大学）、Cunhang Fan（安徽大学，计算机科学与技术学院）、Zicheng Su（武汉大学，计算机科学与工程学院）、Yongcheng Zhang（武汉大学，计算机科学与工程学院）、Bo Cai（武汉大学，计算机科学与工程学院） 💡 毒舌点评亮点：论文首次系统性地指出了真实RTC传输环境对语音伪造检测的“黑盒”挑战，并针对性地构建了大规模配对数据集和基于语言学单元的训练策略，问题定义精准且工程落地意图明确。短板：所提的“音素引导一致性学习”本质上是特征对齐的损失函数改进，创新性相对有限；实验部分虽然全面，但核心方法（PCL）相比简单的混合训练（Mix）带来的提升幅度（EER从7.33%降至5.81%）并非革命性，说服力中等。 📌 核心摘要解决的问题：现有的语音深度伪造检测研究主要针对离线场景，忽略了真实实时通信（RTC）过程中由噪声抑制、编解码、数据包丢失等黑盒处理模块引入的复杂、耦合且动态的失真，导致检测模型跨平台泛化和噪声鲁棒性差。方法核心：提出首个针对RTC场景的大规模语音深度伪造数据集RTCFake（约600小时），并通过主流通信平台进行真实传输构建配对的离线/在线语音。基于观察到音素级表征比帧级表征在传输前后更稳定，提出了音素引导的一致性学习（PCL）策略，在训练时约束模型学习跨传输条件的音素级不变特征。新在哪里：数据层面，首次构建了覆盖多生成模型、多RTC平台、多噪声场景的配对数据集；方法层面，首次利用语音的音素结构作为稳定锚点，引导检测模型学习领域不变的鉴别性特征，区别于以往基于帧级特征或简单数据增强的方法。主要实验结果：在RTCFake评估集上，提出的PCL方法取得了最佳的平均EER（5.81%），优于仅离线训练（9.60%）、仅在线训练（8.96%）和混合数据训练（7.33%）。跨平台泛化实验表明，PCL方法在已见和未见通信平台上均显著优于基线方法，尤其在未见平台上的EER稳定且最低。噪声鲁棒性实验证明，在多种未见噪声条件下，PCL方法的性能稳定性优于其他训练策略。实际意义：为在真实、复杂的RTC环境中部署语音伪造检测系统提供了关键的数据基础和一种有效的建模范式，有助于提升视频会议、社交软件等场景下的语音交互安全。主要局限性：未考虑真实世界中录音/播放硬件的异质性、用户行为多样性等终端侧变量与平台处理管线的交互影响；在极端噪声或某些平台的强非线性失真下仍存在性能差距。 🏗️ 模型架构本文并未提出一个全新的检测模型架构，而是在已有的SOTA检测模型框架上引入了一种新的训练策略。其核心流程如下： ...

语音/音频论文速递 2026-04-28

语音/音频论文速递 2026-04-28 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 2篇 ██ #语音伪造检测 2篇 ██ #音视频 1篇 █ #音频大模型 1篇 █ #语音生物标志物 1篇 █ #语音生成 1篇 █ #语音情感识别 1篇 █ #图神经网络 1篇 █ 📊 论文评分排行榜（24 篇，按分数降序）排名论文评分分档主任务 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分前25% #音视频 🥈 HeadRouter: Dynamic Head-Weight Routing for Task-Adapti 8.0分前25% #音频大模型 🥉 Comparison of sEMG Encoding Accuracy Across Speech Mode 8.0分前25% #语音生物标志物 4. Scaling Properties of Continuous Diffusion Spoken Langu 8.0分前25% #语音生成 5. Psychologically-Grounded Graph Modeling for Interpretab 8.0分前25% #语音情感识别 6. Latent-Hysteresis Graph ODEs: Modeling Coupled Topology 8.0分前25% #图神经网络 7. Meta-Ensemble Learning with Diverse Data Splits for Imp 8.0分前25% #音频分类 8. CineAGI: Character-Consistent Movie Creation through LL 8.0分前25% #跨模态 9. Listening with Time: Precise Temporal Awareness for Lon 8.0分前25% #音频场景理解 10. An event-based sequence modeling approach to recognizin 7.5分前25% #音乐理解 11. Speech Enhancement Based on Drifting Models 7.5分前25% #语音增强 12. Talker-T2AV: Joint Talking Audio-Video Generation with 7.5分前25% #语音合成 13. Explainable AI in Speaker Recognition – Making Latent 7.5分前25% #说话人识别 14. Predictive Directional Selective Fixed-Filter Active No 7.5分前25% #声源定位 15. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分前25% #语音识别 16. Robust Audio-Text Retrieval via Cross-Modal Attention a 7.5分前25% #音频检索 17. RTCFake: Speech Deepfake Detection in Real-Time Communi 7.0分前25% #语音伪造检测 18. MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.0分前25% #语音合成 19. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.0分前25% #语音合成评估 20. All That Glitters Is Not Audio: Rethinking Text Priors 6.5分前50% #音频问答 21. Opening the Design Space: Two Years of Performance with 6.5分前50% #音乐生成 22. Spectro-Temporal Modulation Representation Framework fo 6.5分前50% #语音伪造检测 23. Come Together: Analyzing Popular Songs Through Statisti 6.5分前50% #音乐信息检索 24. A Functorial Formulation of Neighborhood Aggregating De 6.5分前25% #理论分析 📋 论文列表 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv ...