ICASSP 2026 语音/音频论文详细分析

ICASSP 2026 语音/音频论文详细分析 共分析 898 篇 ICASSP 2026 论文 🎯 任务分类 点击任务标签查看该方向所有论文: 语音识别(102篇) 语音增强(75篇) 语音合成(63篇) 语音情感识别(49篇) 音频分类(39篇) 音频生成(39篇) 音乐生成(31篇) 空间音频(31篇) 音频深度伪造检测(29篇) 音乐信息检索(26篇) 语音分离(25篇) 语音生物标志物(24篇) 音频事件检测(21篇) 模型评估(16篇) 声源定位(15篇) 音频问答(15篇) 生物声学(12篇) 音频安全(11篇) 音频检索(11篇) 音乐理解(11篇) 语音对话系统(10篇) 语音匿名化(10篇) 说话人验证(10篇) 说话人分离(9篇) 语音转换(9篇) 语音质量评估(8篇) 语音翻译(8篇) 语音伪造检测(8篇) 多模态模型(6篇) 音视频(6篇) 语音编码(5篇) 基准测试(5篇) 语音评估(5篇) 语音活动检测(5篇) 歌唱语音合成(5篇) 语音克隆(4篇) 语音问答(3篇) 情感分析(3篇) 音频场景理解(3篇) 音频增强(3篇) 语音识别 #语音翻译(3篇) 数据集(3篇) 音乐检索(3篇) 语音大模型(3篇) 歌唱语音转换(3篇) 视觉语音识别(2篇) 多模态情感识别(2篇) 信号处理(2篇) 语音理解(2篇) 领域适应(2篇) 听觉注意力解码(2篇) 多模态情感分析(2篇) 情感识别(2篇) 跨模态(2篇) 音频压缩(2篇) 音乐源分离(2篇) 关键词检测(2篇) 说话人日志(2篇) 跨模态检索(2篇) 水下声学目标识别(2篇) 视频生成(2篇) 听觉注意解码(1篇) 视频高光检测(1篇) 多音高估计 #音符跟踪(1篇) 歌唱语音转录(1篇) 异常声音检测(1篇) 脑机接口(1篇) 脑信号编码(1篇) 实体消歧(1篇) 音频检索 #音频分类(1篇) 目标说话人提取(1篇) 语音转换 #语音增强(1篇) 音频超分辨率(1篇) 基频估计(1篇) 语音发现(1篇) 语音表示学习(1篇) 数据集对齐(1篇) 预训练(1篇) 医疗AI(1篇) 语音解码(1篇) 说话人合成(1篇) 说话人脸生成(1篇) 说话人检测(1篇) 多模态对话意图识别(1篇) 视频理解(1篇) 音乐推荐(1篇) 视频设备识别(1篇) 说话人识别(1篇) 房间脉冲响应去噪(1篇) 音频质量评估(1篇) 主动降噪(1篇) 舞蹈生成(1篇) 歌唱旋律提取(1篇) 声场估计(1篇) 语音编码器(1篇) 音频编辑(1篇) 零样本关键词检测(1篇) 音频分离(1篇) 音频无损编码(1篇) 语音增强 #对抗防御(1篇) 音视频实例分割(1篇) 视频到音频生成(1篇) 语音摘要(1篇) 音频水印(1篇) 说话人日志 #语音分离(1篇) 联邦学习(1篇) 音乐混合(1篇) 视频片段检索(1篇) 神经解码(1篇) 视频检索(1篇) 语音驱动动作生成(1篇) 视频问答(1篇) 音频分类 #零样本学习(1篇) 主题建模(1篇) 说话人生成(1篇) 对抗样本(1篇) 音频描述(1篇) 主动噪声控制(1篇) 音乐分离(1篇) 音乐源提取(1篇) 音乐转录(1篇) 房间脉冲响应(1篇) 语音识别 #语音合成(1篇) 音频场景分类(1篇) 多通道(1篇) 音频效果估计(1篇) 音频信号处理(1篇) 回声消除(1篇) 语音生成(1篇) 实时处理(1篇) 音频大模型(1篇) 声学建模(1篇) 迁移学习(1篇) 课堂阶段分割(1篇) 噪声控制(1篇) 音频字幕生成(1篇) 轻度认知障碍检测(1篇) 音乐分类(1篇) 槽填充(1篇) 多模态学习(1篇) ⚡ 今日概览 📥 898 篇 → 🔬 深度分析完成 ...

2026-05-01 · 更新于 2026-07-02 · 430 min · 91382 words

Acoustic Landmark Detector based on Conformer and HuBERT

📄 Acoustic Landmark Detector based on Conformer and HuBERT #Conformer #自监督学习 5.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 📝 5.5/10 | 前50% | #语音识别 | #Conformer | #自监督学习 | arxiv 👥 作者与机构 作者:Mateo Cámara, José Luis Blanco, Juan Ignacio Godino-Llorente, Jeung-Yoon Choi, Stefanie Shattuck-Hufnagel 机构: Signal Processing Applications Group, Information Processing & Telecomm. Center, Universidad Politécnica de Madrid, Spain Speech Communication Group, Research Laboratory of Electronics, Massachusetts Institute of Technology, USA Bioengineering and Optoelectronics Lab., Universidad Politécnica de Madrid, Spain 💡 毒舌点评 这是一篇扎实的、以实验为导向的系统性工作,将Conformer和预训练SSL模型应用于一个相对小众但具有语言学基础的任务。优点在于实验配置全面(14种),消融研究清晰,并提出了简单有效的高斯软标签策略来处理标注模糊性。然而,论文的“新意”主要在于组合和验证,而非提出一个颠覆性的新方法。其最大软肋在于评估体系:1)自建语料库(仅3人,孤立语料)与主流任务数据(如TIMIT的连续语音)脱节;2)提出的F1@20ms指标虽然合理,但与过往工作(LER)不直接可比,使得“SOTA”的宣称显得苍白。与Auto-Landmark的对比部分,虽然在TIMIT上做了零样本迁移,但使用了不同的地标体系(8类 vs 5类)和指标(LER),且结果差距巨大,这反而削弱了其方法泛化能力的说服力。论文对自身局限性的承认是诚实的,但也在一定程度上限制了工作的影响力。最终得分反映了一个“有用但不够惊艳”的定位。 ...

2026-06-23 · 更新于 2026-07-02 · 3 min · 616 words

语音/音乐/音频论文速递 2026-06-23

语音/音乐/音频论文速递 2026-06-23 共分析 83 篇论文 ⚡ 今日概览 📥 抓取 83 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 19篇 ███████████████ #语音合成 14篇 ██████████████ #音乐生成 3篇 ███ #说话人验证 3篇 ███ #语音增强 3篇 ███ #对比学习 2篇 ██ #自监督学习 2篇 ██ #音频水印 2篇 ██ 📊 论文评分排行榜(83 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 CoughPhase-CLR: Designing an acoustics-informed foundat 10.0分 前10% #对比学习 🥈 Libretto: Giving LLM Agents a Sense of Musical Structur 9.2分 前50% #音乐生成 🥉 Speaker Identity in Non-Verbal Vocalizations: Condition 9.1分 前25% #说话人验证 4. PHAST-Net: Attention-Guided, Physics-Informed Network f 9.0分 前10% #音乐信息检索 5. Domain-incremental audio classification using domain-sp 9.0分 前50% #音频分类 6. MSU-Bench: Towards Speaker-Centric Understanding in Con 9.0分 前10% - 7. How Well Do Self-Supervised Speech Models Encode Age an 9.0分 前50% #自监督学习 8. CAAD: Contrastive Audio-Aware Distillation for Efficien 8.9分 前25% #语音识别 9. STAR-VAE: Structured Topology-Aware Regularization for 8.8分 前25% #音频生成 10. An Evaluation Framework for Text-to-Speech Voice Recons 8.8分 前25% #语音合成 11. An Analysis of Untrained Deep Reservoir Networks for Au 8.8分 前50% #音频事件检测 12. Towards Detecting Neural Audio Codec Synthesized Heart 8.7分 前50% #自监督学习 13. Bridging the Age Gap: Towards Detecting Neural Audio Co 8.6分 前50% #语音伪造检测 14. ATCCaps: A Call-Sign-Aware Speech Dataset for Air Traff 8.6分 前25% #语音识别 15. InstructFX2FX: A Multi-turn Text-to-Preset Demo for Ite 8.6分 前50% #对比学习 16. When EER Hides Deployment Failure: Auditing Threshold T 8.6分 前25% - 17. CapRiCorn-1K: A Comprehensive Benchmark for Video Capti 8.6分 前50% #语音识别 18. Compiling Differentiable Audio Graphs to Real-Time DSP 8.5分 前25% - 19. Improving Text-to-Music Generation with Human Preferenc 8.5分 前50% #音乐生成 20. Don't Listen to Me: A Lightweight, Low-Latency Mode 8.4分 前50% #语音增强 21. HALAS: A Human-Annotated Dataset of Hallucinations of M 8.4分 前50% #语音识别 22. Benchmarking Large Language Models for Grapheme-to-Phon 8.4分 前25% #语音合成 23. Cross-lingual Retrieval-Augmented Classification for Dy 8.4分 前25% #语音识别 24. Bagpiper-TTS: Natural Language Guided Universal Speech 8.4分 前25% #语音合成 25. Using Phonological-Level Wav2Vec2 for Mandarin Automati 8.3分 前25% #语音识别 26. Word Lengthening as a Function of Utterance Position: A 8.1分 前25% #语音合成 27. LambdaMark: Semantic Audio Watermarking for Robustness 8.0分 前25% #音频水印 28. OpenWER: Improving Cross-Lingual ASR Evaluation and Ena 8.0分 前50% #语音识别 29. AudioCALM: Continuous Autoregressive Language Modeling 7.9分 前25% #语音合成 30. AOR-Bench: Do Large Audio Language Models Over-Refuse P 7.9分 前50% #音频问答 31. Gradient-Based Learning of Parametric Engine Sound Repr 7.8分 前50% #参数高效微调 32. Toward Open-Set Speaker Attribute Prediction with Keywo 7.8分 前25% #多模态模型 33. Time-Frequency Weighted Losses for Phoneme Reconstructi 7.8分 前25% #语音增强 34. An implicitization-based solution to the minimal 4s/6r 7.8分 前50% - 35. CORTIS: Text-Only Adaptation of Spoken Language Models 7.7分 前50% #语音识别 36. What Do Neural Networks Learn for TDOA Estimation? A Cr 7.7分 前50% #声源定位 37. Kiwano: A Cutting-Edge Open-Source Toolkit for Speaker 7.6分 前50% #说话人验证 38. Learning to Evade: Adaptive Attacks on Audio Watermarki 7.6分 前50% #音频水印 39. Bagpiper-Edit: Zero-Shot Open-Ended Audio Editing via R 7.6分 前25% #语音合成 40. From Text Metrics to Model Internals: A Study of Whispe 7.5分 前50% #语音识别 41. Bridging Self-Supervised Learning and Speech Enhancemen 7.5分 前25% #语音增强 42. Integrating Facial Generation into Full-Duplex Spoken D 7.5分 前25% - 43. ESPnet3: Infrastructure for Scalable Speech and Audio R 7.5分 前25% #语音识别 44. On the Effect of Segmentation Width and Cluster Size on 7.4分 前25% #语音合成 45. The Anatomy of the CTC Oracle Gap: Acoustic Exhaustion 7.3分 前50% #语音识别 46. FlowTTS-GRPO: Online Reinforcement Learning with Multi- 7.2分 前50% - 47. DisSpeech: Low-Resource Controllable Mandarin Stuttered 7.2分 前25% #语音合成 48. SDP-Codec: A Speaker-Decoupled Speech Codec with Pitch 7.2分 前50% #语音编码 49. Synthesizing the Lombard Effect: Multi-Level Control of 7.2分 前50% #语音合成 50. Scaling Audio Models Efficiently: A Joint Study of Comp 7.2分 前50% #语音识别 51. Online Predictive Coding for Dual-Mode Self-Supervised 7.2分 前50% #语音识别 52. Exploiting Neural Audio Codec Latents for Adversarial A 7.2分 前50% #生成对抗网络 53. Audio Editing in the Era of Foundation Models: A Survey 7.0分 前25% - 54. Adding Robust Code-Switching Capabilities to High Perfo 7.0分 前50% #语音识别 55. Unlocking In-Context Learning in Audio-Language Models 7.0分 前50% #联邦学习 56. Backdoor Attacks on Speech Emotion Recognition via TTS- 7.0分 前50% #语音情感识别 57. LK Jam: System Architecture and Implementation of a Rea 7.0分 前50% #音乐生成 58. An Acoustic Landmark Database of the English Lexicon vi 6.9分 前50% #语音合成 59. Learning from Audio-Dependency Errors: Data Curation St 6.9分 前50% #音频问答 60. The Watermark Shortcut: How Provenance Marking Sabotage 6.8分 前50% #数据增强 61. LISE : Listenable Interpretable Speaker Embeddings 6.8分 前50% #说话人验证 62. PIVOTSBench: Evaluating Fine-Grained Interpersonal Rela 6.8分 前50% #基准测试 63. AugCodec: A Low-Bitrate Disentangled Neural Speech Code 6.7分 前50% #数据增强 64. Vaani Benchmark V1.0: An Inclusive Multimodal Benchmark 6.7分 前50% #语音识别 65. Physics-Informed Neural Operator for Speech Production 6.7分 前50% #语音合成 66. Streaming T5-based Text-to-Speech Synthesis with Limite 6.7分 前25% #语音合成 67. ProsoCodec: Prosody-Oriented Speech Codec for Voice Con 6.6分 前50% #语音转换 68. Beyond ROC-AUC: Operating-Point Performance Reporting f 6.6分 前50% - 69. ISCSLP 2026 CoT-TTS Challenge: Chain-of-Thought Reasoni 6.6分 前50% #语音合成 70. A DDSP Framework for Adaptive Room Equalization 6.5分 前50% #自适应滤波 71. EmoInstruct-TTS: Dual-Path Instruction-Guided Emotional 6.5分 前50% - 72. Interleaved Speech Language Models Latently Work In Tex 6.4分 前50% #语音识别 73. DSSCNet: A Transfer Learning Framework for Cross-Corpus 6.3分 前50% #迁移学习 74. Sea-Scan: High-Accuracy, ML-based Dark Vessel Detection 6.3分 前50% - 75. Catching Lies Without Sending the Video: Privacy-Preser 6.2分 前50% #多模态模型 76. MindAlign: Decoding Inner Speech from fMRI Signals via 5.8分 前50% #语音识别 77. Acoustic Landmark Detector based on Conformer and HuBER 5.5分 前50% #语音识别 78. Explainable AI in Speaker Recognition – Attention Map 5.5分 前50% #说话人识别 79. Imitation Learning for Elder-Facing Speech Synthesis 5.5分 前50% #语音合成 80. Improving Engine Sound Analysis in Hot-Test Environment 4.9分 后50% #音频降噪 81. Direct Raw Audio Signal Processing via Reservoir Comput 4.5分 后50% #语音识别 82. A Generalized Formalism of Auto-Regressive Decoding for 4.1分 后50% #自回归模型 83. Noise-Driven Instrument Based on Coherent Quantum and S 3.8分 后50% - 📋 论文列表 🥇 CoughPhase-CLR: Designing an acoustics-informed foundation model for coughing sound classification 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

2026-06-23 · 更新于 2026-07-02 · 48 min · 10123 words

QC-GAN: A Parameter-Efficient Quaternion Conformer GAN for High-Fidelity Speech Enhancement

📄 QC-GAN: A Parameter-Efficient Quaternion Conformer GAN for High-Fidelity Speech Enhancement #生成对抗网络 #语音增强 #Conformer 7.1/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.1/10 | 前50% | #语音增强 | #生成对抗网络 | #Conformer | arxiv 👥 作者与机构 作者:Shogo Yamauchi, Hideaki Tamori, Makoto Sakai, Yosuke Yamano, Tohru Nitta 机构:The Asahi Shimbun Company, Japan; Tokyo Woman’s Christian University, Japan ...

2026-06-18 · 更新于 2026-07-02 · 3 min · 562 words

语音/音乐/音频论文速递 2026-06-18

语音/音乐/音频论文速递 2026-06-18 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 7篇 ███████ #多模态模型 5篇 █████ #语音合成 5篇 █████ #空间音频 1篇 █ #音乐生成 1篇 █ #模型评估 1篇 █ #声源定位 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜(36 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 IndicContextEval: A Benchmark for Evaluating Context Ut 9.5分 前25% #语音识别 🥈 Native Active Perception as Reasoning for Omni-Modal Un 9.1分 前10% #语音识别 🥉 Who Wins the Conflict? Mechanistic Interpretability of 8.8分 前25% #多模态模型 4. Generalised Transcoding Framework for Arbitrary Spatial 8.7分 前50% #空间音频 5. Closing the Loop: PID Feedback Control for Interpretabl 8.7分 前50% #音乐生成 6. GRIDEX: Grid-Grounded Forensic Explanations for Deepfak 8.6分 前50% #语音合成 7. Continuous-Speech Parkinson's Disease Detection Usi 8.3分 前25% - 8. Mitigating Scoring Errors and Compensating for Nonverba 8.0分 前25% #多模态模型 9. A Survey of Methods for the Discretization of Phonograp 8.0分 前50% - 10. Adaptive Speech-to-Spike Encoding for Spiking Neural Ne 8.0分 前25% - 11. MagpieTTS-LF: Inference-Time Long-Form Speech Generatio 7.9分 前25% #语音合成 12. Beyond AHI: An Interpretable Causal-Discovery-Guided Fr 7.9分 前25% - 13. Evaluating Dynamic Range Compressor Models Using Contro 7.8分 前50% #模型评估 14. NeuralMUSIC: A Hybrid Neural-Subspace Framework for Rob 7.8分 前50% #声源定位 15. Fair Cognitive Impairment Detection Through Unlearning 7.7分 前25% #多模态模型 16. Audio-to-Audio via Diffusion Warm Initialization 7.6分 前25% #音频生成 17. FineCombo-TTS: Collaborative and Precise Controllable S 7.6分 前25% #语音合成 18. Constraining to Generalize: Subspace Tuning for Few-sho 7.5分 前25% #音频分类 19. Learning Robust Pair Confidence for Multimodal Emotion- 7.5分 前50% #多模态模型 20. Montreal Forced Aligner and the state of speech-to-text 7.5分 前25% #语音识别 21. Scoring Backends Matter More Than Pooling: A Systematic 7.4分 前50% - 22. Reliable Neural-Codec Text-to-Speech by ASR Self-Verifi 7.4分 前50% #语音合成 23. Reference-Driven Multi-Speaker Audio Scene Generation f 7.3分 前50% #语音合成 24. QC-GAN: A Parameter-Efficient Quaternion Conformer GAN 7.1分 前50% #语音增强 25. Augmenting Dysarthric Speech Severity Assessment with M 7.0分 前50% #语音质量评估 26. Continuous Audio Thinking for Large Audio Language Mode 6.9分 前50% - 27. Human-AI Coevolution Dynamics: A Formal Theory of Socia 6.7分 前50% - 28. DASH: Dual-View Self-Distillation with Multi-Layer Hidd 6.6分 前50% #语音识别 29. Reference-Based Recursive Least-Squares Mitigation of R 6.6分 前50% - 30. Responsible ASR: Overcoming Challenges of Foundational 6.5分 前50% #语音识别 31. Risk Stratification for ICU Delirium using Pervasive Am 6.5分 前50% #多模态模型 32. ThinkDeception: A Progressive Reinforcement Learning Fr 6.3分 前50% #强化学习 33. EMORSION: Examining the Impact of Audio Parameters on E 6.0分 前50% - 34. Speech-Driven End-to-End Language Discrimination toward 5.8分 前50% #语音识别 35. Low-resource Language Discrimination Towards Chinese Di 5.5分 前50% #语音识别 36. SingFox: A Multi-Lingual Singfake Detection Corpus 5.4分 后50% #语音伪造检测 📋 论文列表 🥇 IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-18 · 更新于 2026-07-02 · 21 min · 4449 words

AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness

📄 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness #音频水印 #音频安全 #Conformer #条件模型 #鲁棒性 ✅ 7.5/10 | 前25% | #音频水印 | #条件生成 | #音频安全 #Conformer 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Linxi Li(University of Warwick, OfSpectrum, Inc.) 通讯作者:未说明 作者列表:Linxi Li(University of Warwick, OfSpectrum, Inc.)、Liwei Jin(OfSpectrum, Inc.)、Yechen Wang(OfSpectrum, Inc.)、Houmin Sun(Duke Kunshan University)、Zi Hu(Duke Kunshan University)、Carsten Maple(University of Warwick) 💡 毒舌点评 亮点: 论文直面了现有音频水印方法在应对“极端”攻击(如剧烈变速、高损压缩、录音回放)时崩溃的痛点,并用一套设计周密的实验(包括真实环境下的手机录音回放)令人信服地展示了AURA模型在这些极端场景下近乎完美的鲁棒性,其性能提升是数量级的。短板: 论文引以为傲的“首个缩放定律研究”,其核心结论(如“宽深”模型最优)缺乏足够的理论支撑和普适性验证,目前更像是一次基于小规模网格搜索的经验性观察。此外,人类评估仅用24人测试40个样本,其统计显著性和代表性存疑,难以为“水印不可感知”的结论提供强有力背书。 ...

2026-04-29 · 更新于 2026-07-02 · 2 min · 344 words

Fine-Grained Frame Modeling in Multi-Head Self-Attention for Speech Deepfake Detection

📄 Fine-Grained Frame Modeling in Multi-Head Self-Attention for Speech Deepfake Detection #语音伪造检测 #自监督学习 #模型评估 #Conformer 🔥 8.0/10 | 前25% | #语音伪造检测 | #自监督学习 | #模型评估 #Conformer 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Phuong Tuan Dat (河内科技大学信息与通信技术学院) 通讯作者:Nguyen Thi Thu Trang (河内科技大学信息与通信技术学院) 作者列表:Phuong Tuan Dat (河内科技大学信息与通信技术学院), Duc-Tuan Truong (南洋理工大学计算与数据科学学院), Long-Vu Hoang (河内科技大学信息与通信技术学院), Nguyen Thi Thu Trang (河内科技大学信息与通信技术学院) 💡 毒舌点评 亮点:论文将细粒度视觉分类的“投票选择”思想巧妙移植到语音领域,通过显式建模注意力头的“专长”并选择性聚合关键帧,有效解决了标准MHSA可能忽略局部伪造伪影的问题,方法新颖且有效。短板:高斯核增强的卷积核是固定的([1, 2, 3, 4, 3, 2, 1]),缺乏理论依据或可学习性分析;且所选关键帧数量v需人工调优,在不同音频长度或任务下可能不具备普适性。 ...

2026-04-29 · 更新于 2026-07-02 · 2 min · 299 words

Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection

📄 Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection #音频分类 #对比学习 #Conformer #鲁棒性 #医疗AI ✅ 7.0/10 | 前50% | #音频分类 | #对比学习 | #Conformer #鲁棒性 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Milan Marocchi, Matthew Fynn(*表示贡献相等) 通讯作者:未说明 作者列表:Milan Marocchi(Curtin University),Matthew Fynn(Curtin University),Yue Rong(Curtin University) 机构:Curtin University, Bentley 6102, WA, Australia(未说明具体学院或实验室) 💡 毒舌点评 论文的亮点在于将相对复杂的Conformer架构成功应用于心音信号,并设计了一个实用的多通道噪声段拒绝流程,在真实噪声数据集上验证了其有效性。短板是,其噪声拒绝核心算法(能量阈值)的创新性较为有限,且消融实验部分缺失,使得我们难以精确评估各个组件(如对比学习、中心损失、噪声拒绝)的具体贡献。 🔗 开源详情 代码:提供了完整的代码仓库链接:https://github.com/MilanMarocchi/noise-robust-cad-conformer。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:数据集来自特定医院的采集,论文中未提及公开该数据集。 Demo:未提供在线演示。 复现材料:论文提供了详细的超参数配置(表1)、训练策略、硬件环境、评估指标定义等,有利于复现。代码仓库的提供是最大的复现支持。 论文中引用的开源项目:提到了使用的开源工具包括PyTorch、Optuna(用于超参优化)、AdamW优化器(参考文献[14])。 📌 核心摘要 要解决什么问题:在真实临床噪声环境下,提高基于心音图(PCG)信号的冠状动脉疾病(CAD)检测的鲁棒性和准确性。 方法核心是什么:提出一个包含噪声感知预处理和深度学习分类的端到端流程。核心包括:(1) 一种基于能量的多通道噪声段拒绝算法,利用听诊器内置的心声麦克风(HM)和噪声参考麦克风(NM)识别并剔除受非平稳噪声污染严重的信号段;(2) 一个将梅尔频率倒谱系数(MFCC)作为输入的Conformer编码器,并结合监督混合对比学习(包含对比损失、分类损失和中心损失)进行训练。 与已有方法相比新在哪里:首次将Conformer模型应用于心音分类任务;提出了一种联合利用HM和NM能量信息的噪声段拒绝方法;在同一个框架内集成了多通道MFCC特征提取、Conformer建模和混合对比学习,以应对真实世界噪声数据。 主要实验结果如何:在297名受试者的数据集上,所提出的方法(带噪声拒绝)在受试者级别取得了78.4%的准确率和78.2%的平衡准确率(UAR),相比不进行噪声拒绝的基线模型,准确率和UAR分别提升了4.1%和4.3%。与之前基于Wav2Vec 2.0的方法相比,准确率和UAR分别提升了1.3%和3.9%。具体实验数据如下表所示(仅列受试者级别关键指标): 方法 准确率 (Acc) 平衡准确率 (UAR) 真阳性率 (TPR) 真阴性率 (TNR) MCC 不带噪声拒绝的MFCC-Conformer 74.3±0.09% 73.9±0.10% 80.9±0.11% 66.9±0.30% 0.490±0.019 本文方法(带噪声拒绝的MFCC-Conformer) 78.4±0.29% 78.2±0.32% 81.9±0.49% 74.5±0.97% 0.570±0.058 Noisy Wav2Vec 2.0 [13] 77.1±1.50% 74.3±1.73% 86.5±1.30% 62.0±2.76% 0.510±0.035 实际意义是什么:为在真实世界噪声条件下(如嘈杂的医院环境)进行无创、低成本的CAD预筛查提供了更鲁棒的深度学习解决方案,有助于推动基于可穿戴设备的心脏病早期预警技术。 主要局限性是什么:实验仅在一个来源的特定数据集上进行验证;噪声拒绝算法的阈值(2.5倍中值)是固定的,缺乏自适应性讨论;论文未提供充分的消融实验以区分各技术组件(噪声拒绝、Conformer、对比学习等)的独立贡献。 🏗️ 模型架构 论文提出的模型是一个基于Conformer的编码器,用于处理从多通道PCG信号中提取的MFCC特征序列,以实现二分类(CAD vs. 正常)。 ...

2026-04-29 · 更新于 2026-07-02 · 2 min · 290 words

Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion

📄 Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion #音频分类 #多模态模型 #时频分析 #Conformer #声源定位 🔥 8.0/10 | 前25% | #音频分类 | #多模态模型 | #时频分析 #Conformer 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Huaxuan Wang(北京理工大学机械工程学院) 通讯作者:Huilong Yu(北京理工大学机械工程学院);Wei Zhou(Cardiff University, School of Computer Science and Informatics) 作者列表:Huaxuan Wang(北京理工大学机械工程学院),Huilong Yu(北京理工大学机械工程学院),Ruizeng Zhang(北京理工大学机械工程学院),Wei Zhou(Cardiff University, School of Computer Science and Informatics),Junqiang Xi(北京理工大学机械工程学院) 💡 毒舌点评 亮点:论文思路清晰,将“看不见的场景结构”(通过BEV图像表示)与“听得见的目标线索”(音频多域特征)显式融合,逻辑上自洽,实验也证明在特定场景下性能提升有效。短板:融合方式相对直接(拼接向量),且BEV生成依赖于已有地图和人工标注,限制了该框架在完全未知环境中的泛用性;验证仅限于公开数据集上的T型路口,现实复杂路况的鲁棒性存疑。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开数据集OVAD和AOVD,但论文未提供额外数据或获取指南。 Demo:未提及。 复现材料:论文给出了一些训练超参数(学习率、batch size、epoch数、优化器),但未提供完整的配置文件、训练脚本或模型检查点。BEV生成的具体算法细节(如特征提取和LoS分析)描述较粗略。 论文中引用的开源项目:未明确提及依赖的具体开源工具/模型库(如PyTorch是框架,未特指某开源实现)。 📌 核心摘要 问题:自动驾驶车辆在交通盲区(如T型路口)无法直接感知突然出现的障碍物,现有感知手段(摄像头、雷达)受限于视距,而传统音频感知方法忽略了场景结构对声波传播的决定性影响。 方法核心:提出一个场景感知的音视频融合网络。核心是引入鸟瞰图(BEV)来显式表征场景空间结构,并从车载麦克风阵列音频中提取时频谱图和DOA能量谱图。网络采用三分支结构处理这些特征,其中音频分支创新性地结合了LSTM、CNN和Conformer模块,以建模音频信号的时序依赖与全局局部特征。 新颖性:相较于之前仅依赖音频或未考虑场景结构的方法,本工作的主要创新在于:a) 显式构建并利用BEV图像融入场景结构先验;b) 在音频特征处理中引入Conformer模块,增强了模型对复杂声学特征的建模能力。 实验结果:在OVAD和AOVD两个真实世界数据集上,该方法的整体准确率分别达到94.1%和97.0%(移除BEV分支),显著优于SVM(88.2%, 90.8%)和pCRNN(92.6%, 95.4%)等基线方法。消融实验验证了BEV分支和Conformer模块的有效性。 实际意义:为智能车辆在交叉路口等视距受限场景提供了新的、更可靠的早期碰撞预警方案,提升了自动驾驶的安全性。 主要局限性:系统性能高度依赖于先验的BEV地图生成(需要卫星图像和手动标注),限制了部署的灵活性;研究聚焦于T型路口这一特定场景,未在更复杂或未知环境中验证其泛化能力。 🏗️ 模型架构 论文提出的整体框架如 图1 (pdf-image-page2-idx0) 所示,是一个用于遮挡车辆分类的音视频融合网络。系统处理流程如下: ...

2026-04-29 · 更新于 2026-07-02 · 2 min · 336 words