ICASSP 2026 - 神经解码 论文列表

ICASSP 2026 - 神经解码 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Condition-Invariant fMRI decoding of speech intelligibility 7.0分 前25% 📋 论文详情 🥇 Condition-Invariant fMRI decoding of speech intelligibility with deep state space model ✅ 7.0/10 | 前25% | #神经解码 | #状态空间模型 | #语音可懂度解码 #跨条件迁移 👥 作者与机构 第一作者:论文中提到Ching-Chih Sung, Shuntaro Suzuki, Francis Pingfan Chien贡献相等,未明确第一作者。 通讯作者:论文中未明确标注通讯作者。 作者列表:Ching-Chih Sung (Academia Sinica, Taiwan; Graduate Institute of Communication Engineering, National Taiwan University, Taiwan), Shuntaro Suzuki (Keio University, Japan), Francis Pingfan Chien (Academia Sinica, Taiwan; Taiwan International Graduate Program in Interdisciplinary Neuroscience, National Taiwan University, Taiwan), Komei Sugiura (Keio University, Japan), Yu Tsao (Academia Sinica, Taiwan)。 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 空间音频 论文列表

ICASSP 2026 - 空间音频 共 31 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Spatial-CLAP: Learning Spatially-Aware Audio–Text Embeddings 8.5分 前25% 🥈 3D Mesh Grid Room Impulse Responses Measured with A Linear M 8.3分 前25% 🥉 Regularized Inverse Filter Design for Rigid Spherical Microp 8.0分 前25% 4. Time-Domain Synthesis of Virtual Sound Source Within Persona 8.0分 前25% 5. Text2Move: Text-To-Moving Sound Generation via Trajectory Pr 8.0分 前25% 6. Generating Moving 3d Soundscapes with Latent Diffusion Model 7.5分 前25% 7. Coupling Acoustic Geometry and Visual Semantics for Robust D 7.5分 前25% 8. Qastanet: A DNN-Based Quality Metric for Spatial Audio 7.5分 前50% 9. Differentiable Grouped Feedback Delay Networks for Learning 7.5分 前25% 10. Denoising Of Stochastic Ray Tracing Room Impulse Responses 7.5分 前25% 11. Sparse-View Visual-Acoustic Latent Learning for Novel-View A 7.5分 前25% 12. Reconstruction of Spherical Sound Source Radiation Character 7.5分 前25% 13. A Learning-Based Automotive Sound Field Reproduction Method 7.5分 前25% 14. A Data-Driven Framework for Personal Sound Zone Control Addr 7.5分 前25% 15. Personal Sound Zones with Flexible Bright Zone Control 7.5分 前25% 16. Natural Language to Spatial Audio Parameters: Lightweight De 7.5分 前25% 17. Lightweight Implicit Neural Network for Binaural Audio Synth 7.0分 前25% 18. Perceptual Loss Optimized HRTF Personalization in Spherical 7.0分 前25% 19. Individualize the HRTF Neural Field Using Anthropometric Par 7.0分 前25% 20. Decorrelation-Enhanced Multiband Subband Adaptive Filtering 7.0分 前50% 21. On the Design of Higher-Order Time-Intensity Microphone Arra 7.0分 前25% 22. Deep Spatial Clue Informed Ambisonic Encoding for Irregular 7.0分 前25% 23. HergNet: A Fast Neural Surrogate Model for Sound Field Predi 7.0分 前25% 24. AnyRIR: Robust Non-Intrusive Room Impulse Response Estimatio 7.0分 前25% 25. SIREN: Spatially-Informed Reconstruction of Binaural Audio w 7.0分 前25% 26. Frequency-Independent Ambisonics Upscaling Using Deep Learni 6.5分 前50% 27. Exterior Sound Field Estimation Based on Physics-Constrained 6.5分 前25% 28. Mixture-of-Experts Framework for Field-of-View Enhanced Sign 6.5分 前50% 29. Generating Localized Audible Zones Using a Single-Channel Pa 6.5分 前50% 30. Continuation Method for Feedback Delay Network Modal Decompo 6.5分 前50% 31. Secondary Source Placement for Sound Field Control Based on 6.0分 前25% 📋 论文详情 🥇 Spatial-CLAP: Learning Spatially-Aware Audio–Text Embeddings for Multi-Source Conditions 🔥 8.5/10 | 前25% | #空间音频 | #对比学习 | #声源定位 #跨模态 ...

2026-04-29

ICASSP 2026 - 联邦学习 论文列表

ICASSP 2026 - 联邦学习 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Cooperative Multi-Agent Reinforcement Learning for Adaptive 7.0分 前50% 📋 论文详情 🥇 Cooperative Multi-Agent Reinforcement Learning for Adaptive Aggregation in Semi-Supervised Federated Learning with non-IID Data ✅ 7.0/10 | 前50% | #联邦学习 | #强化学习 | #音频分类 #对抗样本 👥 作者与机构 第一作者:Rene Glitza(波鸿鲁尔大学通信声学研究所) 通讯作者:论文中未明确指出,未说明 作者列表:Rene Glitza(波鸿鲁尔大学通信声学研究所)、Luca Becker(波鸿鲁尔大学通信声学研究所)、Rainer Martin(波鸿鲁尔大学通信声学研究所) 💡 毒舌点评 本文巧妙地将TD3算法应用于联邦学习的服务器与客户端双层决策,构建了一个能同时“抵御坏人”和“发展个性”的自适应系统,实验设计考虑了三种非独立同分布场景和对抗设置,相当全面。但实验仅局限于一个450k参数的小型音频Transformer预训练任务,就宣称“适用于真实世界部署”略显仓促,且未与同样使用强化学习的FedAA、FedDRL进行充分直接的性能对比,说服力打了折扣。 🔗 开源详情 代码:论文中提及代码仓库链接为 github.com/NexuFed/pFedMARL。 模型权重:未提及公开模型权重。 数据集:实验使用DCASE Task 2数据集,但论文未说明是否公开处理后的数据集或如何获取,仅提及了原始数据集来源。 Demo:未提供在线演示。 复现材料:论文提供了部分训练细节(网络结构、超参数、数据集描述),但缺少完整的配置文件、训练脚本、环境依赖列表和检查点。 论文中引用的开源项目:论文引用了Twin Delayed DDPG (TD3)算法[12]、优先级经验回放[19]、Audio Spectrogram Transformer (AST)[17, 18]等,表明实现可能依赖这些概念或现有库。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 脑信号编码 论文列表

ICASSP 2026 - 脑信号编码 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Improving Multimodal Brain Encoding Model with Dynamic Subje 8.0分 前25% 📋 论文详情 🥇 Improving Multimodal Brain Encoding Model with Dynamic Subject-Awareness Routing 🔥 8.0/10 | 前25% | #脑信号编码 | #混合专家 | #多模态模型 #动态路由 👥 作者与机构 第一作者:Xuanhua Yin(悉尼大学计算机科学学院) 通讯作者:Runkai Zhao(悉尼大学计算机科学学院)和 Weidong Cai(悉尼大学计算机科学学院) 作者列表:Xuanhua Yin(悉尼大学计算机科学学院)、Runkai Zhao(悉尼大学计算机科学学院)、Weidong Cai(悉尼大学计算机科学学院) 💡 毒舌点评 亮点:论文巧妙地将混合专家模型中的“门控”从单一输入驱动,改造为融合了稳定“被试先验”和动态“令牌上下文”的双路径路由,这一设计在解决跨被试异质性问题上既直观又有效,且实验验证了其相对于单一路由方式的优越性。短板:整个惊人的性能提升(如在ImageBind上r从0.131提升至0.221)完全建立在“Algonauts 2025”这一个基准和仅4名被试上,在未见数据集或更多被试上效果如何存在疑问,这削弱了其宣称的“通用性”和实际影响力。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开权重。 数据集:使用公开的Algonauts 2025数据集,但论文中未提供具体获取链接或说明。 Demo:未提供在线演示。 复现材料:论文提供了一些训练细节(如优化器AdamW、调度器OneCycle、数据窗口设置),但缺失关键超参数(如学习率、批次大小、专家数量E和K值、隐藏维度D)和硬件信息,复现材料不充分。 引用的开源项目:论文引用了多个开源模型和框架作为骨干网络或基线,包括TRIBE [9]、ImageBind [10]、Qwen2.5-Omni [11] 和 MMoE [23]。 总体:论文中未提及任何开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 脑机接口 论文列表

ICASSP 2026 - 脑机接口 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 SAASDNet: An EEG-Based Streaming Auditory Attention Switch D 8.0分 前25% 📋 论文详情 🥇 SAASDNet: An EEG-Based Streaming Auditory Attention Switch Decoding Network for Self-Initiated Attention Switching in Mixed Speech 🔥 8.0/10 | 前25% | #脑机接口 | #端到端 | #流式处理 #数据集 👥 作者与机构 第一作者:Yuting Ding(南方科技大学电子与电气工程系) 通讯作者:Fei Chen(南方科技大学电子与电气工程系) 作者列表:Yuting Ding(南方科技大学电子与电气工程系),Siyu Yu(南方科技大学电子与电气工程系),Ximin Chen(南方科技大学电子与电气工程系),Xuefei Wang(南方科技大学电子与电气工程系),Yueting Ban(南方科技大学电子与电气工程系),Fei Chen(南方科技大学电子与电气工程系) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 舞蹈生成 论文列表

ICASSP 2026 - 舞蹈生成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Motionbeat: Motion-Aligned Music Representation via Embodied 7.5分 前25% 📋 论文详情 🥇 Motionbeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding ✅ 7.5/10 | 前25% | #舞蹈生成 | #对比学习 | #音频表征学习 #音乐生成 👥 作者与机构 第一作者:Xuanchen Wang(悉尼大学计算机科学学院) 通讯作者:未说明 作者列表:Xuanchen Wang(悉尼大学计算机科学学院)、Heng Wang(悉尼大学计算机科学学院)、Weidong Cai(悉尼大学计算机科学学院) 💡 毒舌点评 亮点: 论文巧妙地将“运动”作为监督信号引入音乐表征学习,提出的ECL和SRAL损失函数以及相位旋转、接触注意力等架构模块,从理论和实践上系统地弥补了现有音频模型在节奏感知上的短板,思路新颖且有效。 短板: 核心验证任务(舞蹈生成)的数据集(AIST++)风格相对单一,论文未探讨该表征在更广泛、更多样的音乐风格或非舞蹈类动作(如手势、体育)中的泛化能力,其“具身”的普适性有待进一步验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文使用AIST++数据集,但未说明是否提供该数据集或相关处理脚本。 Demo:未提及。 复现材料:论文提供了详细的超参数设置(模型大小、学习率、批量大小等)和训练细节(GPU型号、优化器),但未提供完整的训练配置或检查点说明。 引用的开源项目:论文引用了多个开源工作作为基线或工具,如EDGE(舞蹈生成)、wav2vec 2.0、CLAP、Wav2CLIP、Jukebox、Soft-DTW等。 总体情况:论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 视觉语音识别 论文列表

ICASSP 2026 - 视觉语音识别 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 FDCNet: Frequency Domain Channel Attention and Convolution f 8.5分 前25% 🥈 Phoneme-Level Visual Speech Recognition via Point-Visual Fus 7.5分 前25% 📋 论文详情 🥇 FDCNet: Frequency Domain Channel Attention and Convolution for Lipreading 🔥 8.5/10 | 前25% | #视觉语音识别 | #频域处理 | #注意力机制 #数据增强 👥 作者与机构 第一作者:Qianxi Yan(浙江大学) 通讯作者:Qifei Zhang(浙江大学) 作者列表: Qianxi Yan(浙江大学) Qifei Zhang*(浙江大学,通讯作者) Lei Zhang(中国科学院大学) Linkun Yu(日本早稻田大学生产系统研究生院) Lei Sheng(宁波市知识产权保护中心) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 视频到音频生成 论文列表

ICASSP 2026 - 视频到音频生成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 V2A-DPO: Omni-Preference Optimization for Video-To-Audio Gen 7.5分 前25% 📋 论文详情 🥇 V2A-DPO: Omni-Preference Optimization for Video-To-Audio Generation ✅ 7.5/10 | 前25% | #视频到音频生成 | #直接偏好优化 | #音视频 #流匹配 👥 作者与机构 第一作者:Nolan Chan(The Chinese University of Hong Kong, Hong Kong SAR, China) 通讯作者:Dingdong Wang(The Chinese University of Hong Kong, Hong Kong SAR, China)(论文脚注中对应邮箱 yjchen@se.cuhk.edu.hk) 作者列表:Nolan Chan(The Chinese University of Hong Kong, Hong Kong SAR, China),Timmy Gang(National Research Council Canada, Canada),Yongqian Wang(The University of Warwick, UK),Yuzhe Liang(Shanghai Jiao Tong University, China),Dingdong Wang(The Chinese University of Hong Kong, Hong Kong SAR, China) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 视频检索 论文列表

ICASSP 2026 - 视频检索 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Caption and Audio-Guided Video Representation Learning with 7.0分 前25% 📋 论文详情 🥇 Caption and Audio-Guided Video Representation Learning with Gated Attention for Partially Relevant Video Retrieval ✅ 7.0/10 | 前25% | #视频检索 | #多模态模型 | #注意力机制 #视觉语言模型 👥 作者与机构 第一作者:Dan Jiang(湖南大学计算机科学与电子工程学院) 通讯作者:Bin Jiang(湖南大学计算机科学与电子工程学院,标注可能为通讯作者) 作者列表:Dan Jiang(湖南大学计算机科学与电子工程学院),Bin Jiang*(湖南大学计算机科学与电子工程学院),Chao Yang(湖南大学计算机科学与电子工程学院),Jianbo Zheng(湖南大学计算机科学与电子工程学院) 💡 毒舌点评 论文的亮点在于将视觉大语言模型(VLLM)生成的帧级字幕作为一种“语义高亮”工具,并与音频信号一起,通过一个精心设计的门控融合模块整合进视频表示学习,思路清晰且有效。短板在于,其核心创新——利用现成VLLM生成字幕作为辅助模态——更像是一种巧妙的工程应用,而非根本性的方法论突破,且在音频模态的利用上相对浅层,未能深入挖掘其时序动态特性。 🔗 开源详情 ...

2026-04-29

ICASSP 2026 - 视频片段检索 论文列表

ICASSP 2026 - 视频片段检索 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Audio-Visual Feature Fusion for Calibrating Relevance Scores 7.0分 前25% 📋 论文详情 🥇 Audio-Visual Feature Fusion for Calibrating Relevance Scores of Video Moment Retrieval ✅ 7.0/10 | 前25% | #视频片段检索 | #晚期融合 | #重评分 #音视频 👥 作者与机构 第一作者:Takehiro Imamura(名古屋大学,LY Corporation) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Takehiro Imamura(名古屋大学, LY Corporation)、Tatsuya Komatsu(LY Corporation)、Hokuto Munakata(LY Corporation)、Tomoki Toda(名古屋大学) 💡 毒舌点评 这篇论文的亮点在于它精准地识别并试图解决DETR类模型在VMR中“定位准但排序乱”的痛点,提出的LARS模块设计清晰且与主流的早期融合形成完美互补。然而,其短板也相当明显:作为一项融合工作,创新性略显平淡(本质是一个轻量级的重评分网络),且未能与近年来可能更强的SOTA基线(如基于大型视频-语言模型的方法)进行对比,削弱了结论的冲击力。 🔗 开源详情 ...

2026-04-29