Icassp-2026

ICASSP 2026 - 音乐生成论文列表

ICASSP 2026 - 音乐生成共 31 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 MuseTok: Symbolic Music Tokenization for Generation and Sema 8.5分前25% 🥈 Time-Shifted Token Scheduling for Symbolic Music Generation 8.5分前25% 🥉 Low-Resource Guidance for Controllable Latent Audio Diffusio 8.5分前25% 4. A Generative-First Neural Audio Autoencoder 8.5分前25% 5. Virtual Consistency for Audio Editing 8.0分前25% 6. AnyAccomp: Generalizable Accompaniment Generation Via Quanti 8.0分前25% 7. Stemphonic: All-At-Once Flexible Multi-Stem Music Generation 7.7分前25% 8. MR-FlowDPO: Multi-Reward Direct Preference Optimization for 7.5分前25% 9. Via Score to Performance: Efficient Human-Controllable Long 7.5分前25% 10. Automatic Music Mixing Using a Generative Model of Effect Em 7.5分前25% 11. Sing2Song: An Accompaniment Generation System Based on Solo 7.5分前25% 12. Differentiable Pulsetable Synthesis for Wind Instrument Mode 7.5分前25% 13. Compression meets Sampling: LZ78-SPA for Efficient Symbolic 7.5分前25% 14. Break-the-Beat! Controllable MIDI-to-Drum audio synthesis 7.5分前25% 15. Text2midi-InferAlign: Improving Symbolic Music Generation wi 7.5分前25% 16. Diffusion Timbre Transfer via Mutual Information Guided Inpa 7.5分前25% 17. D3PIA: A Discrete Denoising Diffusion Model for Piano Accomp 7.5分前25% 18. Evaluating Disentangled Representations for Controllable Mus 7.5分前25% 19. Aligning Language Models for Lyric-to-Melody Generation with 7.5分前25% 20. FUSEMOS: Perceptual Evaluation of Text-to-Music Generation w 7.5分前25% 21. Fine-Tuning Bigvgan-V2 for Robust Musical Tuning Preservatio 7.5分前25% 22. Visual Keys to Symphonies: Latent Diffusion for Multi-Scene 7.5分前25% 23. VMSP: Video-to-Music Generation with Two-Stage Alignment and 7.0分前25% 24. Etude: Piano Cover Generation with a Three-Stage Approach — 7.0分前25% 25. Towards Multi-View Hierarchical Video-to-Piano Generation wi 7.0分前25% 26. ViTex: Visual Texture Control for Multi-Track Symbolic Music 7.0分前50% 27. Instrument Generation Through Distributional Flow Matching a 7.0分前25% 28. When Noise Lowers the Loss: Rethinking Likelihood-Based Eval 7.0分前25% 29. Symphony Rendering: Midi and Composer-Conditioned Auto Orche 7.0分前50% 30. Pianoroll-Event: A Novel Score Representation for Symbolic M 6.5分前25% 31. Melos: Sentence-To-Section Training with Multi-Task Learning 6.5分前50% 📋 论文详情 🥇 MuseTok: Symbolic Music Tokenization for Generation and Semantic Understanding 🔥 8.5/10 | 前25% | #音乐生成 | #预训练 | #音乐理解 #数据集 ...

ICASSP 2026 - 音乐转录论文列表

ICASSP 2026 - 音乐转录共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 A Distribution Matching Approach to Neural Piano Transcripti 7.0分前25% 📋 论文详情 🥇 A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport ✅ 7.0/10 | 前25% | #音乐转录 | #最优传输 | #注意力机制 #循环神经网络 👥 作者与机构第一作者：Weixing Wei（京都大学信息学研究生院）通讯作者：未说明作者列表：Weixing Wei（京都大学信息学研究生院）、Raynaldi Lalang（京都大学工程研究生院）、Dichucheng Li（独立研究者）、Kazuyoshi Yoshii（京都大学工程研究生院） 💡 毒舌点评亮点是跳出了传统BCE损失“对齐即全对，错一位全错”的思维定式，用OT损失来容忍合理的时间偏差，理论上更优雅且实验效果显著。短板在于论文对OT损失计算复杂度的讨论几乎空白，且将钢琴转录中复杂的踏板问题简单归因于offset不准，未来提升路径仍需更扎实的论证。 🔗 开源详情代码：论文在“Repo:”处提供了一个GitHub仓库链接（https://github.com/WX-Wei/AMT-optimal-transport），但论文正文中未描述该仓库的具体内容（如是否包含完整代码、模型权重、训练脚本等），因此其实际开放性和完整性未知。模型权重：未提及。数据集：MAESTRO为公开数据集，但论文中未说明如何获取或处理的具体细节。 Demo：未提及。复现材料：论文中提到了一些关键训练细节（数据集分割、CQT参数、优化器），但缺少batch size、具体epoch数、硬件信息等关键复现参数。论文中引用的开源项目：提到了mir_eval库用于评估。 📌 核心摘要 ...

ICASSP 2026 - 音视频论文列表

ICASSP 2026 - 音视频共 6 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Uncertainty-Aware 3D Emotional Talking Face Synthesis with E 8.0分前25% 🥈 RAP: Real-Time Audio-Driven Portrait Animation with Video Di 7.0分前25% 🥉 Attentive AV-Fusionnet: Audio-Visual Quality Prediction with 7.0分前25% 4. Look, Listen and Segment: Towards Weakly Supervised Audio-Vi 7.0分前25% 5. Teacher-Guided Pseudo Supervision and Cross-Modal Alignment 7.0分前25% 6. AVO-65: A Large-Scale Hierarchical Audio-Visual Object Datas 7.0分前50% 📋 论文详情 🥇 Uncertainty-Aware 3D Emotional Talking Face Synthesis with Emotion Prior Distillation 🔥 8.0/10 | 前25% | #音视频 | #生成模型 | #不确定性估计 #多模态模型 ...

ICASSP 2026 - 音视频实例分割论文列表

ICASSP 2026 - 音视频实例分割共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Learning What to Hear: Boosting Sound-Source Association for 7.5分前25% 📋 论文详情 🥇 Learning What to Hear: Boosting Sound-Source Association for Robust Audiovisual Instance Segmentation ✅ 7.5/10 | 前25% | #音视频实例分割 | #查询学习 | #多模态模型 #注意力机制 👥 作者与机构第一作者：Jinbae Seo（Yonsei University）通讯作者：Jiyoung Lee（School of AI and Software, Ewha Womans University），Kwanghoon Sohn（Yonsei University, Korea Institute of Science and Technology (KIST)）作者列表：Jinbae Seo（Yonsei University）、Hyeongjun Kwon（Yonsei University）、Kwonyoung Kim（Yonsei University）、Jiyoung Lee（Ewha Womans University）、Kwanghoon Sohn（Yonsei University & KIST） 💡 毒舌点评 ...

ICASSP 2026 - 音频事件检测论文列表

ICASSP 2026 - 音频事件检测共 21 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Shared Representation Learning for Reference-Guided Targeted 8.5分前25% 🥈 Temporally Heterogeneous Graph Contrastive Learning for Mult 8.5分前25% 🥉 More Than a Shortcut: A Hyperbolic Approach to Early-Exit Ne 8.0分前25% 4. HAVT-IVD: Heterogeneity-Aware Cross-Modal Network for Audio- 8.0分前25% 5. DBFT-SD: Weakly Supervised Multimodal Detection of Sensitive 8.0分前25% 6. Event Classification by Physics-Informed Inpainting for Dist 8.0分前25% 7. USVexplorer: Robust Detection of Ultrasonic Vocalizations wi 8.0分前25% 8. Improving Anomalous Sound Detection with Attribute-Aware Rep 8.0分前10% 9. Toward Faithful Explanations in Acoustic Anomaly Detection 7.5分前25% 10. Task-Oriented Sound Privacy Preservation for Sound Event Det 7.5分前25% 11. A Task-Aware Dual-Level Self-Supervised Learning Method for 7.5分前25% 12. Triad: Tri-Head with Auxiliary Duplicating Permutation Invar 7.5分前25% 13. Hierarchical Activity Recognition and Captioning from Long-F 7.5分前25% 14. Refgen: Reference-Guided Synthetic Data Generation for Anoma 7.5分前25% 15. Tldiffgan: A Latent Diffusion-Gan Framework with Temporal In 7.5分前25% 16. SONAR: Self-Distilled Continual Pre-Training for Domain Adap 7.0分前25% 17. Improving Audio Event Recognition with Consistency Regulariz 7.0分前25% 18. SELD-MOHA: A Fine-Tuning Method with the Mixture of Heteroge 7.0分前25% 19. Influence-Aware Curation and Active Selection for Industrial 7.0分前50% 20. Phase-Space Signal Processing of Acoustic Data for Advanced 7.0分前50% 21. Fine-Tuning Large Audio-Language Models with Lora for Precis 6.5分前50% 📋 论文详情 🥇 Shared Representation Learning for Reference-Guided Targeted Sound Detection 🔥 8.5/10 | 前25% | #音频事件检测 | #多任务学习 | #预训练 #音频检索 ...

ICASSP 2026 - 音频信号处理论文列表

ICASSP 2026 - 音频信号处理共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Learning Piezoelectric Hysteresis in In-Ear MEMS Loudspeaker 7.0分前50% 📋 论文详情 🥇 Learning Piezoelectric Hysteresis in In-Ear MEMS Loudspeakers from Acoustic Measurements ✅ 7.0/10 | 前50% | #音频信号处理 | #神经网络模型 | #非线性建模 #波数字滤波 👥 作者与机构第一作者：Oliviero Massi（米兰理工大学，电子、信息与生物工程系 - DEIB）通讯作者：未明确说明作者列表：Oliviero Massi（米兰理工大学 DEIB）、Alessandro Ilic Mezza（米兰理工大学 DEIB）、Riccardo Giampiccolo（米兰理工大学 DEIB）、Alberto Bernardini（米兰理工大学 DEIB） 💡 毒舌点评论文巧妙地将可微分波数字滤波器（WDF）与循环神经网络（RNN）结合，构建了一个既有物理可解释性又能从纯声学数据中“黑箱”学习迟滞非线性的混合模型，思路值得称赞。然而，论文的实验部分稍显“闭环”，仅用自家设备验证自家模型，缺乏与其他主流非线性建模方法的公开较量，说服力打了折扣；同时，未开源任何代码或数据，使得这个漂亮的框架更像是一个“概念验证”而非可即刻应用的工具。 🔗 开源详情 ...

ICASSP 2026 - 音频分离论文列表

ICASSP 2026 - 音频分离共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Domain Partitioning Meets Parameter-Efficient Fine-Tuning: A 7.5分前50% 📋 论文详情 🥇 Domain Partitioning Meets Parameter-Efficient Fine-Tuning: A Novel Method for Improved Language-Queried Audio Source Separation ✅ 7.5/10 | 前50% | #音频分离 | #参数高效微调 | #领域适应 #预训练 👥 作者与机构第一作者：Yinkai Zhang（新疆大学计算机科学与技术学院 / 丝绸之路多语言认知计算联合国际实验室 / 新疆多语言信息技术重点实验室）通讯作者：Kai Wang, Hao Huang（新疆大学计算机科学与技术学院 / 丝绸之路多语言认知计算联合国际实验室 / 新疆多语言信息技术重点实验室）作者列表：Yinkai Zhang（新疆大学计算机科学与技术学院等），Dingbang Zhang（新疆大学计算机科学与技术学院等），Tao Wang（新疆大学计算机科学与技术学院等），Diana Rakhimova（哈萨克斯坦阿勒法拉比国立大学信息系统系），Kai Wang（新疆大学计算机科学与技术学院等），Hao Huang（新疆大学计算机科学与技术学院等）。 💡 毒舌点评 ...

ICASSP 2026 - 音频分类 #零样本学习论文列表

ICASSP 2026 - 音频分类 #零样本学习共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Semantic-Guided Pseudo-Feature Attention Network for Audio-V 7.0分前25% 📋 论文详情 🥇 Semantic-Guided Pseudo-Feature Attention Network for Audio-Visual Zero-Shot Learning ✅ 7.0/10 | 前25% | #音频分类 #零样本学习 | #多模态模型 #对比学习 | #音频分类 #零样本学习 👥 作者与机构第一作者：Siteng Ma（苏州大学）通讯作者：Wenrui Li（哈尔滨工业大学）作者列表：Siteng Ma（苏州大学）、Wenrui Li（哈尔滨工业大学）、Haocheng Tang（北京大学）、Yeyu Chai（哈尔滨工业大学）、Jisheng Chu（哈尔滨工业大学）、Xingtao Wang（哈尔滨工业大学） 💡 毒舌点评本文的亮点在于将自适应模态加权、语义引导的变分生成与语义对齐的对比学习巧妙融合，形成了一个逻辑自洽的统一框架来解决GZSL中的核心矛盾，并在两个基准数据集上取得了SOTA。然而，其短板在于对SVG模块中具体网络结构的描述较为简略，且未提供任何开源代码或详细的超参数搜索过程，使得完全复现该工作的细节变得困难。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了ActivityNet, VGGSound, UCF等公开基准数据集，但论文中未提供具体获取方式。 Demo：未提及。复现材料：论文中提及了部分超参数（损失函数权重λ1-λ5），但缺乏训练细节（如学习率、batch size、优化器、训练轮数）、模型具体配置（如编码器/解码器结构、隐藏维度）以及预训练骨干网络信息。论文中引用的开源项目：论文引用了多个相关工作，但未明确说明其SGPAN实现依赖了哪些具体的开源代码库或工具。总结：论文中未提及开源计划。 📌 核心摘要 ...

ICASSP 2026 - 音频分类论文列表

ICASSP 2026 - 音频分类共 39 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 ECHO: Frequency-Aware Hierarchical Encoding for Variable-Len 9.5分前10% 🥈 ACAVCaps: Enabling Large-Scale Training for Fine-Grained and 8.5分前25% 🥉 Automated Dysphagia Screening Using Noninvasive Neck Acousti 8.0分前25% 4. AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Sp 8.0分前25% 5. Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion 8.0分前25% 6. A Metric Learning Approach to Heart Murmur Detection from Ph 7.7分前25% 7. A Robust KNN Approach for Multi-Class Laryngeal Disease Dete 7.5分前25% 8. UMV: A Mixture-Of-Experts Vision Transformer with Multi-Spec 7.5分前25% 9. AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid V 7.5分前25% 10. Audio Classification Models are Vulnerable to Filter Perturb 7.5分前25% 11. PC-MCL: Patient-Consistent Multi-Cycle Learning with Multi-L 7.5分前10% 12. FOCA: Multimodal Malware Classification via Hyperbolic Cross 7.5分前25% 13. WaveSpikeNet: A Wavelet-Spiking Fusion Architecture for Audi 7.5分前25% 14. Adaptive Per-Channel Energy Normalization Front-End for Robu 7.5分前25% 15. Adaptive Embedding Fusion with Contrastive Learning for Robu 7.5分前25% 16. Incremental Learning for Audio Classification with Hebbian D 7.5分前25% 17. Attentive Masked Self-Distillation for Respiratory Sound Cla 7.5分前25% 18. One Model–Three Tasks: Discovering a Shared Winning Ticket f 7.5分前25% 19. Timbre-Aware Audio Difference Captioning for Anomalous Machi 7.5分前25% 20. Leveraging prediction entropy for Automatic prompt weighting 7.5分前25% 21. Directly Trained Spiking Neural Networks with Adaptive Phase 7.0分前25% 22. Noise-Robust Contrastive Learning with an MFCC-Conformer for 7.0分前50% 23. Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual 7.0分前50% 24. A Dynamic Gated Cross-Attention Framework for Audio-Text App 7.0分前25% 25. Transfer Learning for Paediatric Sleep Apnoea Detection usin 7.0分前25% 26. Empowering Multimodal Respiratory Sound Classification with 7.0分前25% 27. PADAM: Perceptual Audio Defect Assessment Model 7.0分前50% 28. Enhanced Generative Machine Listener 7.0分前25% 29. Acoustic Feedback Cancellation in Hearing Aids Exploiting an 7.0分前25% 30. AFT: An Exemplar-Free Class Incremental Learning Method for 7.0分前25% 31. Transferable Audio Lottery Tickets: Gradient Accumulation fo 7.0分前25% 32. A LLM-Driven Acoustic Semantic Enriched Framework for Underw 7.0分前25% 33. S-SONDO: Self-Supervised Knowledge Distillation for General 7.0分前25% 34. Acoustic Non-Stationarity Objective Assessment with Hard Lab 7.0分前25% 35. Reading Between the Waves: Robust Topic Segmentation Using I 7.0分前25% 36. Learnable Mel-Frontend for Robust Underwater Acoustic Target 6.5分前50% 37. Estimating Respiratory Effort from Nocturnal Breathing Sound 6.5分前25% 38. Thinking While Listening: Simple Test Time Scaling for Audio 6.5分前50% 39. Snore Sound Classification Based on Physiological Features a 6.5分前25% 📋 论文详情 🥇 ECHO: Frequency-Aware Hierarchical Encoding for Variable-Length Signals 🔥 9.5/10 | 前10% | #音频分类 | #自监督学习 | #音频大模型 #工业应用 ...

ICASSP 2026 - 音频压缩论文列表

ICASSP 2026 - 音频压缩共 2 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Salad-VAE: Semantic Audio Compression with Language-Audio Di 7.5分前25% 🥈 Respire-Mamba C-UNet: Consistency-Trained Autoencoder for Hi 7.0分前25% 📋 论文详情 🥇 Salad-VAE: Semantic Audio Compression with Language-Audio Distillation ✅ 7.5/10 | 前25% | #音频压缩 | #变分自编码器 | #对比学习 #知识蒸馏 👥 作者与机构第一作者：Sebastian Braun (Microsoft Research, Redmond, WA, USA) 通讯作者：未说明作者列表：Sebastian Braun (Microsoft Research, Redmond, WA, USA), Hannes Gamper (Microsoft Research, Redmond, WA, USA), Dimitra Emmanouilidou (Microsoft Research, Redmond, WA, USA) 💡 毒舌点评 ...