Icassp-2026

ICASSP 2026 - 数据集论文列表

ICASSP 2026 - 数据集共 3 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 HiFi-HARP: A High-Fidelity 7th-Order Ambisonic Room Impulse 7.5分前25% 🥈 Representation-Based Data Quality Audits for Audio 7.5分前25% 🥉 AMBISONIC-DML: A Benchmark Dataset for Dynamic Higher-Order 7.5分前25% 📋 论文详情 🥇 HiFi-HARP: A High-Fidelity 7th-Order Ambisonic Room Impulse Response Dataset ✅ 7.5/10 | 前25% | #数据集 | #混合仿真 | #麦克风阵列 #空间音频 👥 作者与机构 ...

ICASSP 2026 - 数据集对齐论文列表

ICASSP 2026 - 数据集对齐共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Structure-Aware Diffusion Schrödinger Bridge 7.7分前50% 📋 论文详情 🥇 Structure-Aware Diffusion Schrödinger Bridge ✅ 7.7/10 | 前50% | #数据集对齐 | #扩散模型 | #领域适应 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Dawnlicity Charls (新南威尔士大学电气工程与电信学院)、Tharmakulasingam Sirojan (新南威尔士大学电气工程与电信学院)、Vidhyasaharan Sethu (新南威尔士大学电气工程与电信学院)、Beena Ahmed (新南威尔士大学电气工程与电信学院) 💡 毒舌点评亮点：巧妙地将Gromov-Wasserstein距离的核心思想（保持相对结构）转化为一个可直接加入扩散模型训练的正则化损失项，用最小的“补丁”解决了Schrödinger Bridge在数据对齐中破坏数据拓扑的实际痛点。短板：整篇论文的实验说服力严重依赖“在合成数据上效果好”这一环，若没有在如MRI-CT转换、跨域图像翻译等真实且公认的挑战性任务上展示其“结构保持”带来的下游性能提升（如分类准确率），这篇工作更像一个“技术上可行、但尚未证明实用价值”的实验性探索。 🔗 开源详情代码：论文中未提及本工作（SDSB）的代码仓库链接。模型权重：未提及公开模型权重。数据集：使用了合成数据集，未提及是否公开具体生成脚本或数据文件。 Demo：未提供在线演示。复现材料：论文提及了基于DSBM [8]的代码库进行实现，并给出了关键超参数（λ=100，内/外层迭代次数，网络结构等），但未提供完整的训练配置文件或详细步骤。论文中未提及开源计划。论文中引用的开源项目：明确引用并基于 [8] Diffusion Schrödinger Bridge Matching 的代码库进行实验。 📌 核心摘要 ...

ICASSP 2026 - 槽填充论文列表

ICASSP 2026 - 槽填充共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Slot Filling as a Reasoning Task for Speechllms 6.5分前25% 📋 论文详情 🥇 Slot Filling as a Reasoning Task for Speechllms ✅ 6.5/10 | 前25% | #槽填充 | #思维链 | #语音理解 #语音大模型 👥 作者与机构第一作者：Kadri Hacioglu（Uniphore）通讯作者：未说明作者列表：Kadri Hacioglu (Uniphore), Manjunath K. E. (Uniphore), Andreas Stolcke (Uniphore) 💡 毒舌点评论文亮点在于清晰地指出了推理优化型LLM（如DeepSeek R1蒸馏版）在直接应用于语音槽填充时“水土不服”的现象，并提出了通过混合训练来兼顾直接与推理模式的务实解决方案。然而，其主要短板在于实验局限于有限的几个开源模型和单一的脚本对话数据集，未能充分验证该方法在更多样化语音场景（如自然对话、噪声环境）下的普适性，且完全缺失代码和数据开源，削弱了结论的说服力和影响力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及是否公开微调后的模型权重。数据集：使用的DefinedAI客服对话数据集未提及是否公开及获取方式。构建的推理数据集也未开源。 Demo：未提及。复现材料：给出了部分训练细节（如LoRA设置、批量大小、学习率、硬件），但未提供完整的训练配置、数据预处理脚本、评估脚本或附录中的详细超参数表。论文中引用的开源项目：主要依赖了开源的预训练模型，如Whisper, Llama系列, Qwen系列, Phi系列等。 📌 核心摘要 ...

ICASSP 2026 - 模型评估论文列表

ICASSP 2026 - 模型评估共 16 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Do Bias Benchmarks Generalise? Evidence from Voice-Based Eva 8.0分前25% 🥈 The Curious Case of Visual Grounding: Different Effects for 8.0分前25% 🥉 A Text-To-Text Alignment Algorithm for Better Evaluation of 7.5分前25% 4. Perceptual Quality Assessment for Stylized Talking Heads 7.5分前50% 5. Leveraging Multiple Speech Enhancers for Non-Intrusive Intel 7.5分前25% 6. RHO-PERFECT: Correlation Ceiling for Subjective Evaluation D 7.5分前25% 7. When Voice Matters: A Controlled Study of Audio LLM Behavior 7.0分前25% 8. Evaluating Bias in Spoken Dialogue LLMs for Real-World Decis 7.0分前25% 9. Evaluating Compositional Structure in Audio Representations 7.0分前50% 10. Auditory Illusion Benchmark for Large Audio Language Models 7.0分前50% 11. When Silence Matters: The Impact of Irrelevant Audio on Text 7.0分前50% 12. Investigating Modality Contribution in Audio LLMs for Music 6.5分前50% 13. Sparse Autoencoders Make Audio Foundation Models More Explai 6.5分前50% 14. Towards Evaluating Generative Audio: Insights from Neural Au 6.5分前50% 15. Z-Scores: A Metric for Linguistically Assessing Disfluency R 6.5分前50% 16. Can Hierarchical Cross-Modal Fusion Predict Human Perception 6.0分前25% 📋 论文详情 🥇 Do Bias Benchmarks Generalise? Evidence from Voice-Based Evaluation of Gender Bias in Speechllms 🔥 8.0/10 | 前25% | #模型评估 | #基准测试 | #语音大模型 #数据集 ...

ICASSP 2026 - 歌唱旋律提取论文列表

ICASSP 2026 - 歌唱旋律提取共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 A Hybrid Convolution-Mamba Network with Tone-Octave Contrast 7.5分前25% 📋 论文详情 🥇 A Hybrid Convolution-Mamba Network with Tone-Octave Contrastive Learning for Stratified Semi-Supervised Singing Melody Extraction ✅ 7.5/10 | 前25% | #歌唱旋律提取 | #对比学习 | #音乐信息检索 #状态空间模型 👥 作者与机构第一作者：康杰东（Kangjie Dong，东华大学计算机科学与技术学院）通讯作者：于帅（Shuai Yu，大连理工大学信息与通信工程学院），李威（Wei Li，复旦大学计算机科学与技术学院）作者列表：康杰东（东华大学计算机科学与技术学院）， Shicheng Ding（美国塔博学院），于帅（大连理工大学信息与通信工程学院，通讯作者），李威（复旦大学计算机科学与技术学院，通讯作者） 💡 毒舌点评 ...

ICASSP 2026 - 歌唱语音合成论文列表

ICASSP 2026 - 歌唱语音合成共 5 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 SingMOS-Pro: An Comprehensive Benchmark For Singing Quality 7.5分前25% 🥈 StylePitcher: Generating Style-Following and Expressive Pitc 7.5分前25% 🥉 DiTSinger: Scaling Singing Voice Synthesis with Diffusion Tr 7.0分前25% 4. Learning Vocal-Tract Area And Radiation With A Physics-Infor 7.0分前50% 5. PerformSinger: Multimodal Singing Voice Synthesis Leveraging 4.5分后50% 📋 论文详情 🥇 SingMOS-Pro: An Comprehensive Benchmark For Singing Quality Assessment ✅ 7.5/10 | 前25% | #歌唱语音合成 | #基准测试 | #数据集 #模型评估 ...

ICASSP 2026 - 歌唱语音转录论文列表

ICASSP 2026 - 歌唱语音转录共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Musicdetr: A Position-Aware Spectral Note Detection Model fo 8.5分前10% 📋 论文详情 🥇 Musicdetr: A Position-Aware Spectral Note Detection Model for Singing Transcription 🔥 8.5/10 | 前10% | #歌唱语音转录 | #对象检测 | #音乐信息检索 #注意力机制 👥 作者与机构第一作者：Mengqiao Chen（华中科技大学电子信息与通信学院，湖北省智能互联网技术重点实验室）通讯作者：Wei Xu（华中科技大学电子信息与通信学院，湖北省智能互联网技术重点实验室）作者列表：Mengqiao Chen（华中科技大学电子信息与通信学院，湖北省智能互联网技术重点实验室）、Qikai He（华中科技大学电子信息与通信学院，湖北省智能互联网技术重点实验室）、Zhuoyuan Zhang（华中科技大学电子信息与通信学院，湖北省智能互联网技术重点实验室）、Wenqing Cheng（华中科技大学电子信息与通信学院，湖北省智能互联网技术重点实验室）、Wei Xu（华中科技大学电子信息与通信学院，湖北省智能互联网技术重点实验室） 💡 毒舌点评亮点：首次将DETR引入歌声转录领域，并非简单套用，而是通过设计音符位置解码器、多目标单匹配策略和质量敏感损失函数三个针对性模块进行了深度改造，在多个基准上达到SOTA，证明了对象检测范式在AST中的有效性。短板：论文计算复杂度（特别是引入额外解码器层）未作分析，在音符密集或快速演唱等复杂场景下的鲁棒性有待进一步验证；此外，部分训练细节（如具体优化器参数）的缺失略微影响了技术方案的完整透明度。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/ChenMengqiao/MusicDETR。模型权重：论文未提及是否公开预训练模型权重。数据集：论文扩展的SSVD3.0数据集公开可用，提供了下载链接 (https://github.com/hust-itec2/SSVD3.0)。MIR-ST500和ISMIR2014为公开数据集。 Demo：论文未提供在线演示链接。复现材料：论文提供了代码仓库，但未详细列出训练配置文件、检查点或附录中的超参数设置。引用的开源项目：论文未明确列出所有依赖的开源项目，但方法基于DETR框架，并使用了mir_eval库进行评估。 📌 核心摘要 ...

ICASSP 2026 - 歌唱语音转换论文列表

ICASSP 2026 - 歌唱语音转换共 3 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 The Singing Voice Conversion Challenge 2025: From Singer Ide 7.0分前50% 🥈 S2Voice: Style-Aware Autoregressive Modeling with Enhanced C 7.0分前25% 🥉 Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harm 6.5分前50% 📋 论文详情 🥇 The Singing Voice Conversion Challenge 2025: From Singer Identity Conversion to Singing Style Conversion ✅ 7.0/10 | 前50% | #歌唱语音转换 | #基准测试 | #数据集 #开源工具 ...

ICASSP 2026 - 水下声学目标识别论文列表

ICASSP 2026 - 水下声学目标识别共 2 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 From Human Speech to Ocean Signals: Transferring Speech Larg 7.0分前25% 🥈 Adaptive Task-Incremental Learning For Underwater Acoustic R 7.0分前25% 📋 论文详情 🥇 From Human Speech to Ocean Signals: Transferring Speech Large Models for Underwater Acoustic Target Recognition ✅ 7.0/10 | 前25% | #水下声学目标识别 | #迁移学习 | #语音大模型 #跨域泛化 👥 作者与机构第一作者：Mengcheng Huang（哈尔滨工程大学计算机科学与技术学院）通讯作者：Chen Xu*（哈尔滨工程大学计算机科学与技术学院，邮箱：chen.xu@hrbeu.edu.cn）作者列表：Mengcheng Huang（哈尔滨工程大学计算机科学与技术学院）、Xue Zhou（哈尔滨工程大学计算机科学与技术学院）、Chen Xu*（哈尔滨工程大学计算机科学与技术学院）、Dapeng Man（哈尔滨工程大学计算机科学与技术学院） 💡 毒舌点评 ...

ICASSP 2026 - 生物声学论文列表

ICASSP 2026 - 生物声学共 12 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Enabling Multi-Species Bird Classification on Low-Power Bioa 8.0分前25% 🥈 Multi-Layer Attentive Probing Improves Transfer of Audio Rep 7.5分前25% 🥉 Learning Domain-Robust Bioacoustic Representations for Mosqu 7.5分前25% 4. Unsupervised Discovery and Analysis of the Vocal Repertoires 7.5分前50% 5. BioSEN: A Bio-Acoustic Signal Enhancement Network for Animal 7.5分前25% 6. Testing The Efficient Coding Hypothesis Beyond Humans: The A 7.5分前25% 7. Random Matrix-Driven Graph Representation Learning For Bioac 7.5分前25% 8. Fusion of Multimodal Estimations by Extended State Hidden Ma 7.0分前50% 9. Identifying Birdsong Syllables without Labelled Data 7.0分前50% 10. Representation-Diverse Self-Supervision for Cross-Domain Bio 7.0分前25% 11. Domain-Invariant Representation Learning of Bird Sounds 6.5分前50% 12. Utilizing Information Theoretic Approach to Study Cochlear N 6.5分前50% 📋 论文详情 🥇 Enabling Multi-Species Bird Classification on Low-Power Bioacoustic Loggers 🔥 8.0/10 | 前25% | #生物声学 | #知识蒸馏 | #时频分析 #边缘计算 ...