ICASSP 2026 - 数据集对齐 论文列表

ICASSP 2026 - 数据集对齐 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Structure-Aware Diffusion Schrödinger Bridge 7.7分 前50% 📋 论文详情 🥇 Structure-Aware Diffusion Schrödinger Bridge ✅ 7.7/10 | 前50% | #数据集对齐 | #扩散模型 | #领域适应 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Dawnlicity Charls (新南威尔士大学电气工程与电信学院)、Tharmakulasingam Sirojan (新南威尔士大学电气工程与电信学院)、Vidhyasaharan Sethu (新南威尔士大学电气工程与电信学院)、Beena Ahmed (新南威尔士大学电气工程与电信学院) 💡 毒舌点评 亮点:巧妙地将Gromov-Wasserstein距离的核心思想(保持相对结构)转化为一个可直接加入扩散模型训练的正则化损失项,用最小的“补丁”解决了Schrödinger Bridge在数据对齐中破坏数据拓扑的实际痛点。短板:整篇论文的实验说服力严重依赖“在合成数据上效果好”这一环,若没有在如MRI-CT转换、跨域图像翻译等真实且公认的挑战性任务上展示其“结构保持”带来的下游性能提升(如分类准确率),这篇工作更像一个“技术上可行、但尚未证明实用价值”的实验性探索。 🔗 开源详情 代码:论文中未提及本工作(SDSB)的代码仓库链接。 模型权重:未提及公开模型权重。 数据集:使用了合成数据集,未提及是否公开具体生成脚本或数据文件。 Demo:未提供在线演示。 复现材料:论文提及了基于DSBM [8]的代码库进行实现,并给出了关键超参数(λ=100,内/外层迭代次数,网络结构等),但未提供完整的训练配置文件或详细步骤。论文中未提及开源计划。 论文中引用的开源项目:明确引用并基于 [8] Diffusion Schrödinger Bridge Matching 的代码库进行实验。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 槽填充 论文列表

ICASSP 2026 - 槽填充 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Slot Filling as a Reasoning Task for Speechllms 6.5分 前25% 📋 论文详情 🥇 Slot Filling as a Reasoning Task for Speechllms ✅ 6.5/10 | 前25% | #槽填充 | #思维链 | #语音理解 #语音大模型 👥 作者与机构 第一作者:Kadri Hacioglu(Uniphore) 通讯作者:未说明 作者列表:Kadri Hacioglu (Uniphore), Manjunath K. E. (Uniphore), Andreas Stolcke (Uniphore) 💡 毒舌点评 论文亮点在于清晰地指出了推理优化型LLM(如DeepSeek R1蒸馏版)在直接应用于语音槽填充时“水土不服”的现象,并提出了通过混合训练来兼顾直接与推理模式的务实解决方案。然而,其主要短板在于实验局限于有限的几个开源模型和单一的脚本对话数据集,未能充分验证该方法在更多样化语音场景(如自然对话、噪声环境)下的普适性,且完全缺失代码和数据开源,削弱了结论的说服力和影响力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及是否公开微调后的模型权重。 数据集:使用的DefinedAI客服对话数据集未提及是否公开及获取方式。构建的推理数据集也未开源。 Demo:未提及。 复现材料:给出了部分训练细节(如LoRA设置、批量大小、学习率、硬件),但未提供完整的训练配置、数据预处理脚本、评估脚本或附录中的详细超参数表。 论文中引用的开源项目:主要依赖了开源的预训练模型,如Whisper, Llama系列, Qwen系列, Phi系列等。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 模型评估 论文列表

ICASSP 2026 - 模型评估 共 16 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Do Bias Benchmarks Generalise? Evidence from Voice-Based Eva 8.0分 前25% 🥈 The Curious Case of Visual Grounding: Different Effects for 8.0分 前25% 🥉 A Text-To-Text Alignment Algorithm for Better Evaluation of 7.5分 前25% 4. Perceptual Quality Assessment for Stylized Talking Heads 7.5分 前50% 5. Leveraging Multiple Speech Enhancers for Non-Intrusive Intel 7.5分 前25% 6. RHO-PERFECT: Correlation Ceiling for Subjective Evaluation D 7.5分 前25% 7. When Voice Matters: A Controlled Study of Audio LLM Behavior 7.0分 前25% 8. Evaluating Bias in Spoken Dialogue LLMs for Real-World Decis 7.0分 前25% 9. Evaluating Compositional Structure in Audio Representations 7.0分 前50% 10. Auditory Illusion Benchmark for Large Audio Language Models 7.0分 前50% 11. When Silence Matters: The Impact of Irrelevant Audio on Text 7.0分 前50% 12. Investigating Modality Contribution in Audio LLMs for Music 6.5分 前50% 13. Sparse Autoencoders Make Audio Foundation Models More Explai 6.5分 前50% 14. Towards Evaluating Generative Audio: Insights from Neural Au 6.5分 前50% 15. Z-Scores: A Metric for Linguistically Assessing Disfluency R 6.5分 前50% 16. Can Hierarchical Cross-Modal Fusion Predict Human Perception 6.0分 前25% 📋 论文详情 🥇 Do Bias Benchmarks Generalise? Evidence from Voice-Based Evaluation of Gender Bias in Speechllms 🔥 8.0/10 | 前25% | #模型评估 | #基准测试 | #语音大模型 #数据集 ...

2026-04-29

ICASSP 2026 - 歌唱旋律提取 论文列表

ICASSP 2026 - 歌唱旋律提取 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A Hybrid Convolution-Mamba Network with Tone-Octave Contrast 7.5分 前25% 📋 论文详情 🥇 A Hybrid Convolution-Mamba Network with Tone-Octave Contrastive Learning for Stratified Semi-Supervised Singing Melody Extraction ✅ 7.5/10 | 前25% | #歌唱旋律提取 | #对比学习 | #音乐信息检索 #状态空间模型 👥 作者与机构 第一作者:康杰东(Kangjie Dong, 东华大学计算机科学与技术学院) 通讯作者:于帅(Shuai Yu, 大连理工大学信息与通信工程学院), 李威(Wei Li, 复旦大学计算机科学与技术学院) 作者列表:康杰东(东华大学计算机科学与技术学院), Shicheng Ding(美国塔博学院), 于帅(大连理工大学信息与通信工程学院, 通讯作者), 李威(复旦大学计算机科学与技术学院, 通讯作者) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 歌唱语音合成 论文列表

ICASSP 2026 - 歌唱语音合成 共 5 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 SingMOS-Pro: An Comprehensive Benchmark For Singing Quality 7.5分 前25% 🥈 StylePitcher: Generating Style-Following and Expressive Pitc 7.5分 前25% 🥉 DiTSinger: Scaling Singing Voice Synthesis with Diffusion Tr 7.0分 前25% 4. Learning Vocal-Tract Area And Radiation With A Physics-Infor 7.0分 前50% 5. PerformSinger: Multimodal Singing Voice Synthesis Leveraging 4.5分 后50% 📋 论文详情 🥇 SingMOS-Pro: An Comprehensive Benchmark For Singing Quality Assessment ✅ 7.5/10 | 前25% | #歌唱语音合成 | #基准测试 | #数据集 #模型评估 ...

2026-04-29

ICASSP 2026 - 歌唱语音转录 论文列表

ICASSP 2026 - 歌唱语音转录 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Musicdetr: A Position-Aware Spectral Note Detection Model fo 8.5分 前10% 📋 论文详情 🥇 Musicdetr: A Position-Aware Spectral Note Detection Model for Singing Transcription 🔥 8.5/10 | 前10% | #歌唱语音转录 | #对象检测 | #音乐信息检索 #注意力机制 👥 作者与机构 第一作者:Mengqiao Chen(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室) 通讯作者:Wei Xu(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室) 作者列表:Mengqiao Chen(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Qikai He(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Zhuoyuan Zhang(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Wenqing Cheng(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Wei Xu(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室) 💡 毒舌点评 亮点:首次将DETR引入歌声转录领域,并非简单套用,而是通过设计音符位置解码器、多目标单匹配策略和质量敏感损失函数三个针对性模块进行了深度改造,在多个基准上达到SOTA,证明了对象检测范式在AST中的有效性。 短板:论文计算复杂度(特别是引入额外解码器层)未作分析,在音符密集或快速演唱等复杂场景下的鲁棒性有待进一步验证;此外,部分训练细节(如具体优化器参数)的缺失略微影响了技术方案的完整透明度。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/ChenMengqiao/MusicDETR。 模型权重:论文未提及是否公开预训练模型权重。 数据集:论文扩展的SSVD3.0数据集公开可用,提供了下载链接 (https://github.com/hust-itec2/SSVD3.0)。MIR-ST500和ISMIR2014为公开数据集。 Demo:论文未提供在线演示链接。 复现材料:论文提供了代码仓库,但未详细列出训练配置文件、检查点或附录中的超参数设置。 引用的开源项目:论文未明确列出所有依赖的开源项目,但方法基于DETR框架,并使用了mir_eval库进行评估。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 歌唱语音转换 论文列表

ICASSP 2026 - 歌唱语音转换 共 3 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 The Singing Voice Conversion Challenge 2025: From Singer Ide 7.0分 前50% 🥈 S2Voice: Style-Aware Autoregressive Modeling with Enhanced C 7.0分 前25% 🥉 Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harm 6.5分 前50% 📋 论文详情 🥇 The Singing Voice Conversion Challenge 2025: From Singer Identity Conversion to Singing Style Conversion ✅ 7.0/10 | 前50% | #歌唱语音转换 | #基准测试 | #数据集 #开源工具 ...

2026-04-29

ICASSP 2026 - 水下声学目标识别 论文列表

ICASSP 2026 - 水下声学目标识别 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 From Human Speech to Ocean Signals: Transferring Speech Larg 7.0分 前25% 🥈 Adaptive Task-Incremental Learning For Underwater Acoustic R 7.0分 前25% 📋 论文详情 🥇 From Human Speech to Ocean Signals: Transferring Speech Large Models for Underwater Acoustic Target Recognition ✅ 7.0/10 | 前25% | #水下声学目标识别 | #迁移学习 | #语音大模型 #跨域泛化 👥 作者与机构 第一作者:Mengcheng Huang(哈尔滨工程大学计算机科学与技术学院) 通讯作者:Chen Xu*(哈尔滨工程大学计算机科学与技术学院,邮箱:chen.xu@hrbeu.edu.cn) 作者列表:Mengcheng Huang(哈尔滨工程大学计算机科学与技术学院)、Xue Zhou(哈尔滨工程大学计算机科学与技术学院)、Chen Xu*(哈尔滨工程大学计算机科学与技术学院)、Dapeng Man(哈尔滨工程大学计算机科学与技术学院) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 生物声学 论文列表

ICASSP 2026 - 生物声学 共 12 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Enabling Multi-Species Bird Classification on Low-Power Bioa 8.0分 前25% 🥈 Multi-Layer Attentive Probing Improves Transfer of Audio Rep 7.5分 前25% 🥉 Learning Domain-Robust Bioacoustic Representations for Mosqu 7.5分 前25% 4. Unsupervised Discovery and Analysis of the Vocal Repertoires 7.5分 前50% 5. BioSEN: A Bio-Acoustic Signal Enhancement Network for Animal 7.5分 前25% 6. Testing The Efficient Coding Hypothesis Beyond Humans: The A 7.5分 前25% 7. Random Matrix-Driven Graph Representation Learning For Bioac 7.5分 前25% 8. Fusion of Multimodal Estimations by Extended State Hidden Ma 7.0分 前50% 9. Identifying Birdsong Syllables without Labelled Data 7.0分 前50% 10. Representation-Diverse Self-Supervision for Cross-Domain Bio 7.0分 前25% 11. Domain-Invariant Representation Learning of Bird Sounds 6.5分 前50% 12. Utilizing Information Theoretic Approach to Study Cochlear N 6.5分 前50% 📋 论文详情 🥇 Enabling Multi-Species Bird Classification on Low-Power Bioacoustic Loggers 🔥 8.0/10 | 前25% | #生物声学 | #知识蒸馏 | #时频分析 #边缘计算 ...

2026-04-29

ICASSP 2026 - 目标说话人提取 论文列表

ICASSP 2026 - 目标说话人提取 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Adaptive Deterministic Flow Matching for Target Speaker Extr 8.0分 前25% 📋 论文详情 🥇 Adaptive Deterministic Flow Matching for Target Speaker Extraction 🔥 8.0/10 | 前25% | #目标说话人提取 | #流匹配 | #语音增强 #生成模型 👥 作者与机构 第一作者:Tsun-An Hsieh(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 通讯作者:Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 作者列表:Tsun-An Hsieh(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院)、Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 💡 毒舌点评 亮点:将流匹配的“时间”轴与语音混合的物理过程(混合比例τ)直接对齐,并在此基础上实现“按需分配”计算资源的自适应推理,这种思路比简单地追求固定步数的流匹配要精巧得多,实验中仅一步就能追平甚至超越需要多步的强基线,效率提升令人印象深刻。 短板:方法高度依赖于混合信号的线性叠加模型(x=τs₁+(1-τ)b),对混响、非线性失真等更复杂的声学场景(论文中也提到需要更多步)的鲁棒性未充分验证,这限制了其作为通用TSE解决方案的广度。此外,MR预测模块的精度直接影响最终性能,但在实际未知场景中预测一个干净的τ本身就颇具挑战。 🔗 开源详情 代码:提供。论文明确指出代码仓库位于 https://minjekim.com/research-projects/AD-FlowTSE#icassp2026。 模型权重:未提及。 数据集:使用公开数据集Libri2Mix,论文未提供直接下载链接,但该数据集可公开获取。 Demo:提供在线演示,网址包含在上述链接中。 复现材料:提供了详细的训练配置(批大小、学习率、优化器、调度策略、硬件等)和模型架构描述。代码仓库可能包含更详细的配置。 论文中引用的开源项目:ECAPA-TDNN(用于MR预测器骨干网络)、UDiT(向量场估计器架构)。 论文中未提及开源计划,但根据链接,代码已开源。 📌 核心摘要 ...

2026-04-29