ICASSP 2026 - 音视频实例分割 论文列表

ICASSP 2026 - 音视频实例分割 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Learning What to Hear: Boosting Sound-Source Association for 7.5分 前25% 📋 论文详情 🥇 Learning What to Hear: Boosting Sound-Source Association for Robust Audiovisual Instance Segmentation ✅ 7.5/10 | 前25% | #音视频实例分割 | #查询学习 | #多模态模型 #注意力机制 👥 作者与机构 第一作者:Jinbae Seo(Yonsei University) 通讯作者:Jiyoung Lee(School of AI and Software, Ewha Womans University),Kwanghoon Sohn(Yonsei University, Korea Institute of Science and Technology (KIST)) 作者列表:Jinbae Seo(Yonsei University)、Hyeongjun Kwon(Yonsei University)、Kwonyoung Kim(Yonsei University)、Jiyoung Lee(Ewha Womans University)、Kwanghoon Sohn(Yonsei University & KIST) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 音频事件检测 论文列表

ICASSP 2026 - 音频事件检测 共 21 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Shared Representation Learning for Reference-Guided Targeted 8.5分 前25% 🥈 Temporally Heterogeneous Graph Contrastive Learning for Mult 8.5分 前25% 🥉 More Than a Shortcut: A Hyperbolic Approach to Early-Exit Ne 8.0分 前25% 4. HAVT-IVD: Heterogeneity-Aware Cross-Modal Network for Audio- 8.0分 前25% 5. DBFT-SD: Weakly Supervised Multimodal Detection of Sensitive 8.0分 前25% 6. Event Classification by Physics-Informed Inpainting for Dist 8.0分 前25% 7. USVexplorer: Robust Detection of Ultrasonic Vocalizations wi 8.0分 前25% 8. Improving Anomalous Sound Detection with Attribute-Aware Rep 8.0分 前10% 9. Toward Faithful Explanations in Acoustic Anomaly Detection 7.5分 前25% 10. Task-Oriented Sound Privacy Preservation for Sound Event Det 7.5分 前25% 11. A Task-Aware Dual-Level Self-Supervised Learning Method for 7.5分 前25% 12. Triad: Tri-Head with Auxiliary Duplicating Permutation Invar 7.5分 前25% 13. Hierarchical Activity Recognition and Captioning from Long-F 7.5分 前25% 14. Refgen: Reference-Guided Synthetic Data Generation for Anoma 7.5分 前25% 15. Tldiffgan: A Latent Diffusion-Gan Framework with Temporal In 7.5分 前25% 16. SONAR: Self-Distilled Continual Pre-Training for Domain Adap 7.0分 前25% 17. Improving Audio Event Recognition with Consistency Regulariz 7.0分 前25% 18. SELD-MOHA: A Fine-Tuning Method with the Mixture of Heteroge 7.0分 前25% 19. Influence-Aware Curation and Active Selection for Industrial 7.0分 前50% 20. Phase-Space Signal Processing of Acoustic Data for Advanced 7.0分 前50% 21. Fine-Tuning Large Audio-Language Models with Lora for Precis 6.5分 前50% 📋 论文详情 🥇 Shared Representation Learning for Reference-Guided Targeted Sound Detection 🔥 8.5/10 | 前25% | #音频事件检测 | #多任务学习 | #预训练 #音频检索 ...

2026-04-29

ICASSP 2026 - 音频信号处理 论文列表

ICASSP 2026 - 音频信号处理 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Learning Piezoelectric Hysteresis in In-Ear MEMS Loudspeaker 7.0分 前50% 📋 论文详情 🥇 Learning Piezoelectric Hysteresis in In-Ear MEMS Loudspeakers from Acoustic Measurements ✅ 7.0/10 | 前50% | #音频信号处理 | #神经网络模型 | #非线性建模 #波数字滤波 👥 作者与机构 第一作者:Oliviero Massi(米兰理工大学,电子、信息与生物工程系 - DEIB) 通讯作者:未明确说明 作者列表:Oliviero Massi(米兰理工大学 DEIB)、Alessandro Ilic Mezza(米兰理工大学 DEIB)、Riccardo Giampiccolo(米兰理工大学 DEIB)、Alberto Bernardini(米兰理工大学 DEIB) 💡 毒舌点评 论文巧妙地将可微分波数字滤波器(WDF)与循环神经网络(RNN)结合,构建了一个既有物理可解释性又能从纯声学数据中“黑箱”学习迟滞非线性的混合模型,思路值得称赞。然而,论文的实验部分稍显“闭环”,仅用自家设备验证自家模型,缺乏与其他主流非线性建模方法的公开较量,说服力打了折扣;同时,未开源任何代码或数据,使得这个漂亮的框架更像是一个“概念验证”而非可即刻应用的工具。 🔗 开源详情 ...

2026-04-29

ICASSP 2026 - 音频分离 论文列表

ICASSP 2026 - 音频分离 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Domain Partitioning Meets Parameter-Efficient Fine-Tuning: A 7.5分 前50% 📋 论文详情 🥇 Domain Partitioning Meets Parameter-Efficient Fine-Tuning: A Novel Method for Improved Language-Queried Audio Source Separation ✅ 7.5/10 | 前50% | #音频分离 | #参数高效微调 | #领域适应 #预训练 👥 作者与机构 第一作者:Yinkai Zhang(新疆大学计算机科学与技术学院 / 丝绸之路多语言认知计算联合国际实验室 / 新疆多语言信息技术重点实验室) 通讯作者:Kai Wang, Hao Huang(新疆大学计算机科学与技术学院 / 丝绸之路多语言认知计算联合国际实验室 / 新疆多语言信息技术重点实验室) 作者列表:Yinkai Zhang(新疆大学计算机科学与技术学院等),Dingbang Zhang(新疆大学计算机科学与技术学院等),Tao Wang(新疆大学计算机科学与技术学院等),Diana Rakhimova(哈萨克斯坦阿勒法拉比国立大学信息系统系),Kai Wang(新疆大学计算机科学与技术学院等),Hao Huang(新疆大学计算机科学与技术学院等)。 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 音频分类 #零样本学习 论文列表

ICASSP 2026 - 音频分类 #零样本学习 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Semantic-Guided Pseudo-Feature Attention Network for Audio-V 7.0分 前25% 📋 论文详情 🥇 Semantic-Guided Pseudo-Feature Attention Network for Audio-Visual Zero-Shot Learning ✅ 7.0/10 | 前25% | #音频分类 #零样本学习 | #多模态模型 #对比学习 | #音频分类 #零样本学习 👥 作者与机构 第一作者:Siteng Ma(苏州大学) 通讯作者:Wenrui Li(哈尔滨工业大学) 作者列表:Siteng Ma(苏州大学)、Wenrui Li(哈尔滨工业大学)、Haocheng Tang(北京大学)、Yeyu Chai(哈尔滨工业大学)、Jisheng Chu(哈尔滨工业大学)、Xingtao Wang(哈尔滨工业大学) 💡 毒舌点评 本文的亮点在于将自适应模态加权、语义引导的变分生成与语义对齐的对比学习巧妙融合,形成了一个逻辑自洽的统一框架来解决GZSL中的核心矛盾,并在两个基准数据集上取得了SOTA。然而,其短板在于对SVG模块中具体网络结构的描述较为简略,且未提供任何开源代码或详细的超参数搜索过程,使得完全复现该工作的细节变得困难。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了ActivityNet, VGGSound, UCF等公开基准数据集,但论文中未提供具体获取方式。 Demo:未提及。 复现材料:论文中提及了部分超参数(损失函数权重λ1-λ5),但缺乏训练细节(如学习率、batch size、优化器、训练轮数)、模型具体配置(如编码器/解码器结构、隐藏维度)以及预训练骨干网络信息。 论文中引用的开源项目:论文引用了多个相关工作,但未明确说明其SGPAN实现依赖了哪些具体的开源代码库或工具。 总结:论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 音频分类 论文列表

ICASSP 2026 - 音频分类 共 39 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 ECHO: Frequency-Aware Hierarchical Encoding for Variable-Len 9.5分 前10% 🥈 ACAVCaps: Enabling Large-Scale Training for Fine-Grained and 8.5分 前25% 🥉 Automated Dysphagia Screening Using Noninvasive Neck Acousti 8.0分 前25% 4. AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Sp 8.0分 前25% 5. Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion 8.0分 前25% 6. A Metric Learning Approach to Heart Murmur Detection from Ph 7.7分 前25% 7. A Robust KNN Approach for Multi-Class Laryngeal Disease Dete 7.5分 前25% 8. UMV: A Mixture-Of-Experts Vision Transformer with Multi-Spec 7.5分 前25% 9. AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid V 7.5分 前25% 10. Audio Classification Models are Vulnerable to Filter Perturb 7.5分 前25% 11. PC-MCL: Patient-Consistent Multi-Cycle Learning with Multi-L 7.5分 前10% 12. FOCA: Multimodal Malware Classification via Hyperbolic Cross 7.5分 前25% 13. WaveSpikeNet: A Wavelet-Spiking Fusion Architecture for Audi 7.5分 前25% 14. Adaptive Per-Channel Energy Normalization Front-End for Robu 7.5分 前25% 15. Adaptive Embedding Fusion with Contrastive Learning for Robu 7.5分 前25% 16. Incremental Learning for Audio Classification with Hebbian D 7.5分 前25% 17. Attentive Masked Self-Distillation for Respiratory Sound Cla 7.5分 前25% 18. One Model–Three Tasks: Discovering a Shared Winning Ticket f 7.5分 前25% 19. Timbre-Aware Audio Difference Captioning for Anomalous Machi 7.5分 前25% 20. Leveraging prediction entropy for Automatic prompt weighting 7.5分 前25% 21. Directly Trained Spiking Neural Networks with Adaptive Phase 7.0分 前25% 22. Noise-Robust Contrastive Learning with an MFCC-Conformer for 7.0分 前50% 23. Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual 7.0分 前50% 24. A Dynamic Gated Cross-Attention Framework for Audio-Text App 7.0分 前25% 25. Transfer Learning for Paediatric Sleep Apnoea Detection usin 7.0分 前25% 26. Empowering Multimodal Respiratory Sound Classification with 7.0分 前25% 27. PADAM: Perceptual Audio Defect Assessment Model 7.0分 前50% 28. Enhanced Generative Machine Listener 7.0分 前25% 29. Acoustic Feedback Cancellation in Hearing Aids Exploiting an 7.0分 前25% 30. AFT: An Exemplar-Free Class Incremental Learning Method for 7.0分 前25% 31. Transferable Audio Lottery Tickets: Gradient Accumulation fo 7.0分 前25% 32. A LLM-Driven Acoustic Semantic Enriched Framework for Underw 7.0分 前25% 33. S-SONDO: Self-Supervised Knowledge Distillation for General 7.0分 前25% 34. Acoustic Non-Stationarity Objective Assessment with Hard Lab 7.0分 前25% 35. Reading Between the Waves: Robust Topic Segmentation Using I 7.0分 前25% 36. Learnable Mel-Frontend for Robust Underwater Acoustic Target 6.5分 前50% 37. Estimating Respiratory Effort from Nocturnal Breathing Sound 6.5分 前25% 38. Thinking While Listening: Simple Test Time Scaling for Audio 6.5分 前50% 39. Snore Sound Classification Based on Physiological Features a 6.5分 前25% 📋 论文详情 🥇 ECHO: Frequency-Aware Hierarchical Encoding for Variable-Length Signals 🔥 9.5/10 | 前10% | #音频分类 | #自监督学习 | #音频大模型 #工业应用 ...

2026-04-29

ICASSP 2026 - 音频压缩 论文列表

ICASSP 2026 - 音频压缩 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Salad-VAE: Semantic Audio Compression with Language-Audio Di 7.5分 前25% 🥈 Respire-Mamba C-UNet: Consistency-Trained Autoencoder for Hi 7.0分 前25% 📋 论文详情 🥇 Salad-VAE: Semantic Audio Compression with Language-Audio Distillation ✅ 7.5/10 | 前25% | #音频压缩 | #变分自编码器 | #对比学习 #知识蒸馏 👥 作者与机构 第一作者:Sebastian Braun (Microsoft Research, Redmond, WA, USA) 通讯作者:未说明 作者列表:Sebastian Braun (Microsoft Research, Redmond, WA, USA), Hannes Gamper (Microsoft Research, Redmond, WA, USA), Dimitra Emmanouilidou (Microsoft Research, Redmond, WA, USA) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 音频场景分类 论文列表

ICASSP 2026 - 音频场景分类 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 DDSC: Dynamic Dual-Signal Curriculum for Data-Efficient Acou 7.0分 前25% 📋 论文详情 🥇 DDSC: Dynamic Dual-Signal Curriculum for Data-Efficient Acoustic Scene Classification Under Domain Shift ✅ 7.0/10 | 前25% | #音频场景分类 | #课程学习 | #领域适应 #低资源 👥 作者与机构 第一作者:Peihong Zhang(School of Advanced Technology, Xi’an Jiaotong-Liverpool University, Suzhou, China) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Peihong Zhang(School of Advanced Technology, Xi’an Jiaotong-Liverpool University, Suzhou, China)、Yuxuan Liu(同上)、Rui Sang(同上)、Zhixin Li(同上)、Yiqiang Cai(同上)、Yizhou Tan(同上)、Shengchen Li(同上) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 音频场景理解 论文列表

ICASSP 2026 - 音频场景理解 共 3 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Lightweight and Generalizable Acoustic Scene Representations 8.0分 前25% 🥈 From Contrast to Commonality: Audio Commonality Captioning f 7.5分 前25% 🥉 Class-Aware Permutation-Invariant Signal-to-Distortion Ratio 7.5分 前25% 📋 论文详情 🥇 Lightweight and Generalizable Acoustic Scene Representations Via Contrastive Fine-Tuning and Distillation 🔥 8.0/10 | 前25% | #音频场景理解 | #对比学习 | #知识蒸馏 #少样本学习 👥 作者与机构 第一作者:Kuang Yuan(卡内基梅隆大学,实习期间于Meta Reality Labs完成) 通讯作者:未说明 作者列表:Kuang Yuan(卡内基梅隆大学,Meta Reality Labs)、Yang Gao(Meta Reality Labs)、Xilin Li(Meta Reality Labs)、Xinhao Mei(Meta Reality Labs)、Syavosh Zadissa(Meta Reality Labs)、Tarun Pruthi(Meta Reality Labs)、Saeed Bagheri Sereshki(Meta Reality Labs) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 音频增强 论文列表

ICASSP 2026 - 音频增强 共 3 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 MixGAN-based Non-blind Bandwidth Extension for Audio Codec 8.0分 前25% 🥈 SAGA-SR: Semantically and Acoustically Guided Audio Super-Re 7.5分 前25% 🥉 Subspace Hybrid Adaptive Filtering for Phonocardiogram Signa 7.0分 前50% 📋 论文详情 🥇 MixGAN-based Non-blind Bandwidth Extension for Audio Codec 🔥 8.0/10 | 前25% | #音频增强 | #生成对抗网络 | #音频编解码器 #非盲 👥 作者与机构 第一作者:Hao Guo(华为中央媒体技术研究院,清华大学深圳国际研究生院) 通讯作者:Wenbo Ding(清华大学深圳国际研究生院,邮箱:ding.wenbo@sz.tsinghua.edu.cn) 作者列表:Hao Guo(华为中央媒体技术研究院,清华大学深圳国际研究生院)、BingYin Xia(华为中央媒体技术研究院)、Xiao-Ping Zhang(清华大学深圳国际研究生院)、Wenbo Ding(清华大学深圳国际研究生院) 💡 毒舌点评 ...

2026-04-29