ICASSP 2026 - 歌唱语音合成 论文列表

ICASSP 2026 - 歌唱语音合成 共 5 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 SingMOS-Pro: An Comprehensive Benchmark For Singing Quality 7.5分 前25% 🥈 StylePitcher: Generating Style-Following and Expressive Pitc 7.5分 前25% 🥉 DiTSinger: Scaling Singing Voice Synthesis with Diffusion Tr 7.0分 前25% 4. Learning Vocal-Tract Area And Radiation With A Physics-Infor 7.0分 前50% 5. PerformSinger: Multimodal Singing Voice Synthesis Leveraging 4.5分 后50% 📋 论文详情 🥇 SingMOS-Pro: An Comprehensive Benchmark For Singing Quality Assessment ✅ 7.5/10 | 前25% | #歌唱语音合成 | #基准测试 | #数据集 #模型评估 ...

2026-04-29

ICASSP 2026 - 歌唱语音转录 论文列表

ICASSP 2026 - 歌唱语音转录 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Musicdetr: A Position-Aware Spectral Note Detection Model fo 8.5分 前10% 📋 论文详情 🥇 Musicdetr: A Position-Aware Spectral Note Detection Model for Singing Transcription 🔥 8.5/10 | 前10% | #歌唱语音转录 | #对象检测 | #音乐信息检索 #注意力机制 👥 作者与机构 第一作者:Mengqiao Chen(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室) 通讯作者:Wei Xu(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室) 作者列表:Mengqiao Chen(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Qikai He(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Zhuoyuan Zhang(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Wenqing Cheng(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室)、Wei Xu(华中科技大学电子信息与通信学院,湖北省智能互联网技术重点实验室) 💡 毒舌点评 亮点:首次将DETR引入歌声转录领域,并非简单套用,而是通过设计音符位置解码器、多目标单匹配策略和质量敏感损失函数三个针对性模块进行了深度改造,在多个基准上达到SOTA,证明了对象检测范式在AST中的有效性。 短板:论文计算复杂度(特别是引入额外解码器层)未作分析,在音符密集或快速演唱等复杂场景下的鲁棒性有待进一步验证;此外,部分训练细节(如具体优化器参数)的缺失略微影响了技术方案的完整透明度。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/ChenMengqiao/MusicDETR。 模型权重:论文未提及是否公开预训练模型权重。 数据集:论文扩展的SSVD3.0数据集公开可用,提供了下载链接 (https://github.com/hust-itec2/SSVD3.0)。MIR-ST500和ISMIR2014为公开数据集。 Demo:论文未提供在线演示链接。 复现材料:论文提供了代码仓库,但未详细列出训练配置文件、检查点或附录中的超参数设置。 引用的开源项目:论文未明确列出所有依赖的开源项目,但方法基于DETR框架,并使用了mir_eval库进行评估。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 歌唱语音转换 论文列表

ICASSP 2026 - 歌唱语音转换 共 3 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 The Singing Voice Conversion Challenge 2025: From Singer Ide 7.0分 前50% 🥈 S2Voice: Style-Aware Autoregressive Modeling with Enhanced C 7.0分 前25% 🥉 Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harm 6.5分 前50% 📋 论文详情 🥇 The Singing Voice Conversion Challenge 2025: From Singer Identity Conversion to Singing Style Conversion ✅ 7.0/10 | 前50% | #歌唱语音转换 | #基准测试 | #数据集 #开源工具 ...

2026-04-29

ICASSP 2026 - 水下声学目标识别 论文列表

ICASSP 2026 - 水下声学目标识别 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 From Human Speech to Ocean Signals: Transferring Speech Larg 7.0分 前25% 🥈 Adaptive Task-Incremental Learning For Underwater Acoustic R 7.0分 前25% 📋 论文详情 🥇 From Human Speech to Ocean Signals: Transferring Speech Large Models for Underwater Acoustic Target Recognition ✅ 7.0/10 | 前25% | #水下声学目标识别 | #迁移学习 | #语音大模型 #跨域泛化 👥 作者与机构 第一作者:Mengcheng Huang(哈尔滨工程大学计算机科学与技术学院) 通讯作者:Chen Xu*(哈尔滨工程大学计算机科学与技术学院,邮箱:chen.xu@hrbeu.edu.cn) 作者列表:Mengcheng Huang(哈尔滨工程大学计算机科学与技术学院)、Xue Zhou(哈尔滨工程大学计算机科学与技术学院)、Chen Xu*(哈尔滨工程大学计算机科学与技术学院)、Dapeng Man(哈尔滨工程大学计算机科学与技术学院) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 生物声学 论文列表

ICASSP 2026 - 生物声学 共 12 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Enabling Multi-Species Bird Classification on Low-Power Bioa 8.0分 前25% 🥈 Multi-Layer Attentive Probing Improves Transfer of Audio Rep 7.5分 前25% 🥉 Learning Domain-Robust Bioacoustic Representations for Mosqu 7.5分 前25% 4. Unsupervised Discovery and Analysis of the Vocal Repertoires 7.5分 前50% 5. BioSEN: A Bio-Acoustic Signal Enhancement Network for Animal 7.5分 前25% 6. Testing The Efficient Coding Hypothesis Beyond Humans: The A 7.5分 前25% 7. Random Matrix-Driven Graph Representation Learning For Bioac 7.5分 前25% 8. Fusion of Multimodal Estimations by Extended State Hidden Ma 7.0分 前50% 9. Identifying Birdsong Syllables without Labelled Data 7.0分 前50% 10. Representation-Diverse Self-Supervision for Cross-Domain Bio 7.0分 前25% 11. Domain-Invariant Representation Learning of Bird Sounds 6.5分 前50% 12. Utilizing Information Theoretic Approach to Study Cochlear N 6.5分 前50% 📋 论文详情 🥇 Enabling Multi-Species Bird Classification on Low-Power Bioacoustic Loggers 🔥 8.0/10 | 前25% | #生物声学 | #知识蒸馏 | #时频分析 #边缘计算 ...

2026-04-29

ICASSP 2026 - 目标说话人提取 论文列表

ICASSP 2026 - 目标说话人提取 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Adaptive Deterministic Flow Matching for Target Speaker Extr 8.0分 前25% 📋 论文详情 🥇 Adaptive Deterministic Flow Matching for Target Speaker Extraction 🔥 8.0/10 | 前25% | #目标说话人提取 | #流匹配 | #语音增强 #生成模型 👥 作者与机构 第一作者:Tsun-An Hsieh(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 通讯作者:Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 作者列表:Tsun-An Hsieh(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院)、Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 💡 毒舌点评 亮点:将流匹配的“时间”轴与语音混合的物理过程(混合比例τ)直接对齐,并在此基础上实现“按需分配”计算资源的自适应推理,这种思路比简单地追求固定步数的流匹配要精巧得多,实验中仅一步就能追平甚至超越需要多步的强基线,效率提升令人印象深刻。 短板:方法高度依赖于混合信号的线性叠加模型(x=τs₁+(1-τ)b),对混响、非线性失真等更复杂的声学场景(论文中也提到需要更多步)的鲁棒性未充分验证,这限制了其作为通用TSE解决方案的广度。此外,MR预测模块的精度直接影响最终性能,但在实际未知场景中预测一个干净的τ本身就颇具挑战。 🔗 开源详情 代码:提供。论文明确指出代码仓库位于 https://minjekim.com/research-projects/AD-FlowTSE#icassp2026。 模型权重:未提及。 数据集:使用公开数据集Libri2Mix,论文未提供直接下载链接,但该数据集可公开获取。 Demo:提供在线演示,网址包含在上述链接中。 复现材料:提供了详细的训练配置(批大小、学习率、优化器、调度策略、硬件等)和模型架构描述。代码仓库可能包含更详细的配置。 论文中引用的开源项目:ECAPA-TDNN(用于MR预测器骨干网络)、UDiT(向量场估计器架构)。 论文中未提及开源计划,但根据链接,代码已开源。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 神经解码 论文列表

ICASSP 2026 - 神经解码 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Condition-Invariant fMRI decoding of speech intelligibility 7.0分 前25% 📋 论文详情 🥇 Condition-Invariant fMRI decoding of speech intelligibility with deep state space model ✅ 7.0/10 | 前25% | #神经解码 | #状态空间模型 | #语音可懂度解码 #跨条件迁移 👥 作者与机构 第一作者:论文中提到Ching-Chih Sung, Shuntaro Suzuki, Francis Pingfan Chien贡献相等,未明确第一作者。 通讯作者:论文中未明确标注通讯作者。 作者列表:Ching-Chih Sung (Academia Sinica, Taiwan; Graduate Institute of Communication Engineering, National Taiwan University, Taiwan), Shuntaro Suzuki (Keio University, Japan), Francis Pingfan Chien (Academia Sinica, Taiwan; Taiwan International Graduate Program in Interdisciplinary Neuroscience, National Taiwan University, Taiwan), Komei Sugiura (Keio University, Japan), Yu Tsao (Academia Sinica, Taiwan)。 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 空间音频 论文列表

ICASSP 2026 - 空间音频 共 31 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Spatial-CLAP: Learning Spatially-Aware Audio–Text Embeddings 8.5分 前25% 🥈 3D Mesh Grid Room Impulse Responses Measured with A Linear M 8.3分 前25% 🥉 Regularized Inverse Filter Design for Rigid Spherical Microp 8.0分 前25% 4. Time-Domain Synthesis of Virtual Sound Source Within Persona 8.0分 前25% 5. Text2Move: Text-To-Moving Sound Generation via Trajectory Pr 8.0分 前25% 6. Generating Moving 3d Soundscapes with Latent Diffusion Model 7.5分 前25% 7. Coupling Acoustic Geometry and Visual Semantics for Robust D 7.5分 前25% 8. Qastanet: A DNN-Based Quality Metric for Spatial Audio 7.5分 前50% 9. Differentiable Grouped Feedback Delay Networks for Learning 7.5分 前25% 10. Denoising Of Stochastic Ray Tracing Room Impulse Responses 7.5分 前25% 11. Sparse-View Visual-Acoustic Latent Learning for Novel-View A 7.5分 前25% 12. Reconstruction of Spherical Sound Source Radiation Character 7.5分 前25% 13. A Learning-Based Automotive Sound Field Reproduction Method 7.5分 前25% 14. A Data-Driven Framework for Personal Sound Zone Control Addr 7.5分 前25% 15. Personal Sound Zones with Flexible Bright Zone Control 7.5分 前25% 16. Natural Language to Spatial Audio Parameters: Lightweight De 7.5分 前25% 17. Lightweight Implicit Neural Network for Binaural Audio Synth 7.0分 前25% 18. Perceptual Loss Optimized HRTF Personalization in Spherical 7.0分 前25% 19. Individualize the HRTF Neural Field Using Anthropometric Par 7.0分 前25% 20. Decorrelation-Enhanced Multiband Subband Adaptive Filtering 7.0分 前50% 21. On the Design of Higher-Order Time-Intensity Microphone Arra 7.0分 前25% 22. Deep Spatial Clue Informed Ambisonic Encoding for Irregular 7.0分 前25% 23. HergNet: A Fast Neural Surrogate Model for Sound Field Predi 7.0分 前25% 24. AnyRIR: Robust Non-Intrusive Room Impulse Response Estimatio 7.0分 前25% 25. SIREN: Spatially-Informed Reconstruction of Binaural Audio w 7.0分 前25% 26. Frequency-Independent Ambisonics Upscaling Using Deep Learni 6.5分 前50% 27. Exterior Sound Field Estimation Based on Physics-Constrained 6.5分 前25% 28. Mixture-of-Experts Framework for Field-of-View Enhanced Sign 6.5分 前50% 29. Generating Localized Audible Zones Using a Single-Channel Pa 6.5分 前50% 30. Continuation Method for Feedback Delay Network Modal Decompo 6.5分 前50% 31. Secondary Source Placement for Sound Field Control Based on 6.0分 前25% 📋 论文详情 🥇 Spatial-CLAP: Learning Spatially-Aware Audio–Text Embeddings for Multi-Source Conditions 🔥 8.5/10 | 前25% | #空间音频 | #对比学习 | #声源定位 #跨模态 ...

2026-04-29

ICASSP 2026 - 联邦学习 论文列表

ICASSP 2026 - 联邦学习 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Cooperative Multi-Agent Reinforcement Learning for Adaptive 7.0分 前50% 📋 论文详情 🥇 Cooperative Multi-Agent Reinforcement Learning for Adaptive Aggregation in Semi-Supervised Federated Learning with non-IID Data ✅ 7.0/10 | 前50% | #联邦学习 | #强化学习 | #音频分类 #对抗样本 👥 作者与机构 第一作者:Rene Glitza(波鸿鲁尔大学通信声学研究所) 通讯作者:论文中未明确指出,未说明 作者列表:Rene Glitza(波鸿鲁尔大学通信声学研究所)、Luca Becker(波鸿鲁尔大学通信声学研究所)、Rainer Martin(波鸿鲁尔大学通信声学研究所) 💡 毒舌点评 本文巧妙地将TD3算法应用于联邦学习的服务器与客户端双层决策,构建了一个能同时“抵御坏人”和“发展个性”的自适应系统,实验设计考虑了三种非独立同分布场景和对抗设置,相当全面。但实验仅局限于一个450k参数的小型音频Transformer预训练任务,就宣称“适用于真实世界部署”略显仓促,且未与同样使用强化学习的FedAA、FedDRL进行充分直接的性能对比,说服力打了折扣。 🔗 开源详情 代码:论文中提及代码仓库链接为 github.com/NexuFed/pFedMARL。 模型权重:未提及公开模型权重。 数据集:实验使用DCASE Task 2数据集,但论文未说明是否公开处理后的数据集或如何获取,仅提及了原始数据集来源。 Demo:未提供在线演示。 复现材料:论文提供了部分训练细节(网络结构、超参数、数据集描述),但缺少完整的配置文件、训练脚本、环境依赖列表和检查点。 论文中引用的开源项目:论文引用了Twin Delayed DDPG (TD3)算法[12]、优先级经验回放[19]、Audio Spectrogram Transformer (AST)[17, 18]等,表明实现可能依赖这些概念或现有库。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 脑信号编码 论文列表

ICASSP 2026 - 脑信号编码 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Improving Multimodal Brain Encoding Model with Dynamic Subje 8.0分 前25% 📋 论文详情 🥇 Improving Multimodal Brain Encoding Model with Dynamic Subject-Awareness Routing 🔥 8.0/10 | 前25% | #脑信号编码 | #混合专家 | #多模态模型 #动态路由 👥 作者与机构 第一作者:Xuanhua Yin(悉尼大学计算机科学学院) 通讯作者:Runkai Zhao(悉尼大学计算机科学学院)和 Weidong Cai(悉尼大学计算机科学学院) 作者列表:Xuanhua Yin(悉尼大学计算机科学学院)、Runkai Zhao(悉尼大学计算机科学学院)、Weidong Cai(悉尼大学计算机科学学院) 💡 毒舌点评 亮点:论文巧妙地将混合专家模型中的“门控”从单一输入驱动,改造为融合了稳定“被试先验”和动态“令牌上下文”的双路径路由,这一设计在解决跨被试异质性问题上既直观又有效,且实验验证了其相对于单一路由方式的优越性。短板:整个惊人的性能提升(如在ImageBind上r从0.131提升至0.221)完全建立在“Algonauts 2025”这一个基准和仅4名被试上,在未见数据集或更多被试上效果如何存在疑问,这削弱了其宣称的“通用性”和实际影响力。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开权重。 数据集:使用公开的Algonauts 2025数据集,但论文中未提供具体获取链接或说明。 Demo:未提供在线演示。 复现材料:论文提供了一些训练细节(如优化器AdamW、调度器OneCycle、数据窗口设置),但缺失关键超参数(如学习率、批次大小、专家数量E和K值、隐藏维度D)和硬件信息,复现材料不充分。 引用的开源项目:论文引用了多个开源模型和框架作为骨干网络或基线,包括TRIBE [9]、ImageBind [10]、Qwen2.5-Omni [11] 和 MMoE [23]。 总体:论文中未提及任何开源计划。 📌 核心摘要 ...

2026-04-29