Icassp-2026

ICASSP 2026 - 目标说话人提取论文列表

ICASSP 2026 - 目标说话人提取共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Adaptive Deterministic Flow Matching for Target Speaker Extr 8.0分前25% 📋 论文详情 🥇 Adaptive Deterministic Flow Matching for Target Speaker Extraction 🔥 8.0/10 | 前25% | #目标说话人提取 | #流匹配 | #语音增强 #生成模型 👥 作者与机构第一作者：Tsun-An Hsieh（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算机与数据科学学院）通讯作者：Minje Kim（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算机与数据科学学院）作者列表：Tsun-An Hsieh（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算机与数据科学学院）、Minje Kim（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算机与数据科学学院） 💡 毒舌点评亮点：将流匹配的“时间”轴与语音混合的物理过程（混合比例τ）直接对齐，并在此基础上实现“按需分配”计算资源的自适应推理，这种思路比简单地追求固定步数的流匹配要精巧得多，实验中仅一步就能追平甚至超越需要多步的强基线，效率提升令人印象深刻。短板：方法高度依赖于混合信号的线性叠加模型（x=τs₁+(1-τ)b），对混响、非线性失真等更复杂的声学场景（论文中也提到需要更多步）的鲁棒性未充分验证，这限制了其作为通用TSE解决方案的广度。此外，MR预测模块的精度直接影响最终性能，但在实际未知场景中预测一个干净的τ本身就颇具挑战。 🔗 开源详情代码：提供。论文明确指出代码仓库位于 https://minjekim.com/research-projects/AD-FlowTSE#icassp2026。模型权重：未提及。数据集：使用公开数据集Libri2Mix，论文未提供直接下载链接，但该数据集可公开获取。 Demo：提供在线演示，网址包含在上述链接中。复现材料：提供了详细的训练配置（批大小、学习率、优化器、调度策略、硬件等）和模型架构描述。代码仓库可能包含更详细的配置。论文中引用的开源项目：ECAPA-TDNN（用于MR预测器骨干网络）、UDiT（向量场估计器架构）。论文中未提及开源计划，但根据链接，代码已开源。 📌 核心摘要 ...

ICASSP 2026 - 神经解码论文列表

ICASSP 2026 - 神经解码共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Condition-Invariant fMRI decoding of speech intelligibility 7.0分前25% 📋 论文详情 🥇 Condition-Invariant fMRI decoding of speech intelligibility with deep state space model ✅ 7.0/10 | 前25% | #神经解码 | #状态空间模型 | #语音可懂度解码 #跨条件迁移 👥 作者与机构第一作者：论文中提到Ching-Chih Sung, Shuntaro Suzuki, Francis Pingfan Chien贡献相等，未明确第一作者。通讯作者：论文中未明确标注通讯作者。作者列表：Ching-Chih Sung (Academia Sinica, Taiwan; Graduate Institute of Communication Engineering, National Taiwan University, Taiwan), Shuntaro Suzuki (Keio University, Japan), Francis Pingfan Chien (Academia Sinica, Taiwan; Taiwan International Graduate Program in Interdisciplinary Neuroscience, National Taiwan University, Taiwan), Komei Sugiura (Keio University, Japan), Yu Tsao (Academia Sinica, Taiwan)。 💡 毒舌点评 ...

ICASSP 2026 - 空间音频论文列表

ICASSP 2026 - 空间音频共 31 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Spatial-CLAP: Learning Spatially-Aware Audio–Text Embeddings 8.5分前25% 🥈 3D Mesh Grid Room Impulse Responses Measured with A Linear M 8.3分前25% 🥉 Regularized Inverse Filter Design for Rigid Spherical Microp 8.0分前25% 4. Time-Domain Synthesis of Virtual Sound Source Within Persona 8.0分前25% 5. Text2Move: Text-To-Moving Sound Generation via Trajectory Pr 8.0分前25% 6. Generating Moving 3d Soundscapes with Latent Diffusion Model 7.5分前25% 7. Coupling Acoustic Geometry and Visual Semantics for Robust D 7.5分前25% 8. Qastanet: A DNN-Based Quality Metric for Spatial Audio 7.5分前50% 9. Differentiable Grouped Feedback Delay Networks for Learning 7.5分前25% 10. Denoising Of Stochastic Ray Tracing Room Impulse Responses 7.5分前25% 11. Sparse-View Visual-Acoustic Latent Learning for Novel-View A 7.5分前25% 12. Reconstruction of Spherical Sound Source Radiation Character 7.5分前25% 13. A Learning-Based Automotive Sound Field Reproduction Method 7.5分前25% 14. A Data-Driven Framework for Personal Sound Zone Control Addr 7.5分前25% 15. Personal Sound Zones with Flexible Bright Zone Control 7.5分前25% 16. Natural Language to Spatial Audio Parameters: Lightweight De 7.5分前25% 17. Lightweight Implicit Neural Network for Binaural Audio Synth 7.0分前25% 18. Perceptual Loss Optimized HRTF Personalization in Spherical 7.0分前25% 19. Individualize the HRTF Neural Field Using Anthropometric Par 7.0分前25% 20. Decorrelation-Enhanced Multiband Subband Adaptive Filtering 7.0分前50% 21. On the Design of Higher-Order Time-Intensity Microphone Arra 7.0分前25% 22. Deep Spatial Clue Informed Ambisonic Encoding for Irregular 7.0分前25% 23. HergNet: A Fast Neural Surrogate Model for Sound Field Predi 7.0分前25% 24. AnyRIR: Robust Non-Intrusive Room Impulse Response Estimatio 7.0分前25% 25. SIREN: Spatially-Informed Reconstruction of Binaural Audio w 7.0分前25% 26. Frequency-Independent Ambisonics Upscaling Using Deep Learni 6.5分前50% 27. Exterior Sound Field Estimation Based on Physics-Constrained 6.5分前25% 28. Mixture-of-Experts Framework for Field-of-View Enhanced Sign 6.5分前50% 29. Generating Localized Audible Zones Using a Single-Channel Pa 6.5分前50% 30. Continuation Method for Feedback Delay Network Modal Decompo 6.5分前50% 31. Secondary Source Placement for Sound Field Control Based on 6.0分前25% 📋 论文详情 🥇 Spatial-CLAP: Learning Spatially-Aware Audio–Text Embeddings for Multi-Source Conditions 🔥 8.5/10 | 前25% | #空间音频 | #对比学习 | #声源定位 #跨模态 ...

ICASSP 2026 - 联邦学习论文列表

ICASSP 2026 - 联邦学习共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Cooperative Multi-Agent Reinforcement Learning for Adaptive 7.0分前50% 📋 论文详情 🥇 Cooperative Multi-Agent Reinforcement Learning for Adaptive Aggregation in Semi-Supervised Federated Learning with non-IID Data ✅ 7.0/10 | 前50% | #联邦学习 | #强化学习 | #音频分类 #对抗样本 👥 作者与机构第一作者：Rene Glitza（波鸿鲁尔大学通信声学研究所）通讯作者：论文中未明确指出，未说明作者列表：Rene Glitza（波鸿鲁尔大学通信声学研究所）、Luca Becker（波鸿鲁尔大学通信声学研究所）、Rainer Martin（波鸿鲁尔大学通信声学研究所） 💡 毒舌点评本文巧妙地将TD3算法应用于联邦学习的服务器与客户端双层决策，构建了一个能同时“抵御坏人”和“发展个性”的自适应系统，实验设计考虑了三种非独立同分布场景和对抗设置，相当全面。但实验仅局限于一个450k参数的小型音频Transformer预训练任务，就宣称“适用于真实世界部署”略显仓促，且未与同样使用强化学习的FedAA、FedDRL进行充分直接的性能对比，说服力打了折扣。 🔗 开源详情代码：论文中提及代码仓库链接为 github.com/NexuFed/pFedMARL。模型权重：未提及公开模型权重。数据集：实验使用DCASE Task 2数据集，但论文未说明是否公开处理后的数据集或如何获取，仅提及了原始数据集来源。 Demo：未提供在线演示。复现材料：论文提供了部分训练细节（网络结构、超参数、数据集描述），但缺少完整的配置文件、训练脚本、环境依赖列表和检查点。论文中引用的开源项目：论文引用了Twin Delayed DDPG (TD3)算法[12]、优先级经验回放[19]、Audio Spectrogram Transformer (AST)[17, 18]等，表明实现可能依赖这些概念或现有库。 📌 核心摘要 ...

ICASSP 2026 - 脑信号编码论文列表

ICASSP 2026 - 脑信号编码共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Improving Multimodal Brain Encoding Model with Dynamic Subje 8.0分前25% 📋 论文详情 🥇 Improving Multimodal Brain Encoding Model with Dynamic Subject-Awareness Routing 🔥 8.0/10 | 前25% | #脑信号编码 | #混合专家 | #多模态模型 #动态路由 👥 作者与机构第一作者：Xuanhua Yin（悉尼大学计算机科学学院）通讯作者：Runkai Zhao（悉尼大学计算机科学学院）和 Weidong Cai（悉尼大学计算机科学学院）作者列表：Xuanhua Yin（悉尼大学计算机科学学院）、Runkai Zhao（悉尼大学计算机科学学院）、Weidong Cai（悉尼大学计算机科学学院） 💡 毒舌点评亮点：论文巧妙地将混合专家模型中的“门控”从单一输入驱动，改造为融合了稳定“被试先验”和动态“令牌上下文”的双路径路由，这一设计在解决跨被试异质性问题上既直观又有效，且实验验证了其相对于单一路由方式的优越性。短板：整个惊人的性能提升（如在ImageBind上r从0.131提升至0.221）完全建立在“Algonauts 2025”这一个基准和仅4名被试上，在未见数据集或更多被试上效果如何存在疑问，这削弱了其宣称的“通用性”和实际影响力。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开权重。数据集：使用公开的Algonauts 2025数据集，但论文中未提供具体获取链接或说明。 Demo：未提供在线演示。复现材料：论文提供了一些训练细节（如优化器AdamW、调度器OneCycle、数据窗口设置），但缺失关键超参数（如学习率、批次大小、专家数量E和K值、隐藏维度D）和硬件信息，复现材料不充分。引用的开源项目：论文引用了多个开源模型和框架作为骨干网络或基线，包括TRIBE [9]、ImageBind [10]、Qwen2.5-Omni [11] 和 MMoE [23]。总体：论文中未提及任何开源计划。 📌 核心摘要 ...

ICASSP 2026 - 脑机接口论文列表

ICASSP 2026 - 脑机接口共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 SAASDNet: An EEG-Based Streaming Auditory Attention Switch D 8.0分前25% 📋 论文详情 🥇 SAASDNet: An EEG-Based Streaming Auditory Attention Switch Decoding Network for Self-Initiated Attention Switching in Mixed Speech 🔥 8.0/10 | 前25% | #脑机接口 | #端到端 | #流式处理 #数据集 👥 作者与机构第一作者：Yuting Ding（南方科技大学电子与电气工程系）通讯作者：Fei Chen（南方科技大学电子与电气工程系）作者列表：Yuting Ding（南方科技大学电子与电气工程系），Siyu Yu（南方科技大学电子与电气工程系），Ximin Chen（南方科技大学电子与电气工程系），Xuefei Wang（南方科技大学电子与电气工程系），Yueting Ban（南方科技大学电子与电气工程系），Fei Chen（南方科技大学电子与电气工程系） 💡 毒舌点评 ...

ICASSP 2026 - 舞蹈生成论文列表

ICASSP 2026 - 舞蹈生成共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Motionbeat: Motion-Aligned Music Representation via Embodied 7.5分前25% 📋 论文详情 🥇 Motionbeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding ✅ 7.5/10 | 前25% | #舞蹈生成 | #对比学习 | #音频表征学习 #音乐生成 👥 作者与机构第一作者：Xuanchen Wang（悉尼大学计算机科学学院）通讯作者：未说明作者列表：Xuanchen Wang（悉尼大学计算机科学学院）、Heng Wang（悉尼大学计算机科学学院）、Weidong Cai（悉尼大学计算机科学学院） 💡 毒舌点评亮点：论文巧妙地将“运动”作为监督信号引入音乐表征学习，提出的ECL和SRAL损失函数以及相位旋转、接触注意力等架构模块，从理论和实践上系统地弥补了现有音频模型在节奏感知上的短板，思路新颖且有效。短板：核心验证任务（舞蹈生成）的数据集（AIST++）风格相对单一，论文未探讨该表征在更广泛、更多样的音乐风格或非舞蹈类动作（如手势、体育）中的泛化能力，其“具身”的普适性有待进一步验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文使用AIST++数据集，但未说明是否提供该数据集或相关处理脚本。 Demo：未提及。复现材料：论文提供了详细的超参数设置（模型大小、学习率、批量大小等）和训练细节（GPU型号、优化器），但未提供完整的训练配置或检查点说明。引用的开源项目：论文引用了多个开源工作作为基线或工具，如EDGE（舞蹈生成）、wav2vec 2.0、CLAP、Wav2CLIP、Jukebox、Soft-DTW等。总体情况：论文中未提及开源计划。 📌 核心摘要 ...

ICASSP 2026 - 视觉语音识别论文列表

ICASSP 2026 - 视觉语音识别共 2 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 FDCNet: Frequency Domain Channel Attention and Convolution f 8.5分前25% 🥈 Phoneme-Level Visual Speech Recognition via Point-Visual Fus 7.5分前25% 📋 论文详情 🥇 FDCNet: Frequency Domain Channel Attention and Convolution for Lipreading 🔥 8.5/10 | 前25% | #视觉语音识别 | #频域处理 | #注意力机制 #数据增强 👥 作者与机构第一作者：Qianxi Yan（浙江大学）通讯作者：Qifei Zhang（浙江大学）作者列表： Qianxi Yan（浙江大学） Qifei Zhang*（浙江大学，通讯作者） Lei Zhang（中国科学院大学） Linkun Yu（日本早稻田大学生产系统研究生院） Lei Sheng（宁波市知识产权保护中心） 💡 毒舌点评 ...

ICASSP 2026 - 视频到音频生成论文列表

ICASSP 2026 - 视频到音频生成共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 V2A-DPO: Omni-Preference Optimization for Video-To-Audio Gen 7.5分前25% 📋 论文详情 🥇 V2A-DPO: Omni-Preference Optimization for Video-To-Audio Generation ✅ 7.5/10 | 前25% | #视频到音频生成 | #直接偏好优化 | #音视频 #流匹配 👥 作者与机构第一作者：Nolan Chan（The Chinese University of Hong Kong, Hong Kong SAR, China）通讯作者：Dingdong Wang（The Chinese University of Hong Kong, Hong Kong SAR, China）（论文脚注中对应邮箱 yjchen@se.cuhk.edu.hk）作者列表：Nolan Chan（The Chinese University of Hong Kong, Hong Kong SAR, China），Timmy Gang（National Research Council Canada, Canada），Yongqian Wang（The University of Warwick, UK），Yuzhe Liang（Shanghai Jiao Tong University, China），Dingdong Wang（The Chinese University of Hong Kong, Hong Kong SAR, China） 💡 毒舌点评 ...

ICASSP 2026 - 视频检索论文列表

ICASSP 2026 - 视频检索共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Caption and Audio-Guided Video Representation Learning with 7.0分前25% 📋 论文详情 🥇 Caption and Audio-Guided Video Representation Learning with Gated Attention for Partially Relevant Video Retrieval ✅ 7.0/10 | 前25% | #视频检索 | #多模态模型 | #注意力机制 #视觉语言模型 👥 作者与机构第一作者：Dan Jiang（湖南大学计算机科学与电子工程学院）通讯作者：Bin Jiang（湖南大学计算机科学与电子工程学院，标注可能为通讯作者）作者列表：Dan Jiang（湖南大学计算机科学与电子工程学院），Bin Jiang*（湖南大学计算机科学与电子工程学院），Chao Yang（湖南大学计算机科学与电子工程学院），Jianbo Zheng（湖南大学计算机科学与电子工程学院） 💡 毒舌点评论文的亮点在于将视觉大语言模型（VLLM）生成的帧级字幕作为一种“语义高亮”工具，并与音频信号一起，通过一个精心设计的门控融合模块整合进视频表示学习，思路清晰且有效。短板在于，其核心创新——利用现成VLLM生成字幕作为辅助模态——更像是一种巧妙的工程应用，而非根本性的方法论突破，且在音频模态的利用上相对浅层，未能深入挖掘其时序动态特性。 🔗 开源详情 ...