ICASSP 2026 - 基频估计 论文列表

ICASSP 2026 - 基频估计 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Robust and Lightweight F0 Estimation Through Mid-Level Fusio 8.0分 前25% 📋 论文详情 🥇 Robust and Lightweight F0 Estimation Through Mid-Level Fusion of DSP-Informed Features 🔥 8.0/10 | 前25% | #基频估计 | #信号处理 | #模型融合 #鲁棒性 👥 作者与机构 第一作者:Sebastian Strahl(International Audio Laboratories Erlangen) 通讯作者:未明确说明(论文未明确标注通讯作者,但通常由资深作者Meinard Müller负责) 作者列表:Sebastian Strahl(International Audio Laboratories Erlangen)、Meinard Müller(International Audio Laboratories Erlangen) 机构信息:International Audio Laboratories Erlangen(由Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) 与 Fraunhofer Institute for Integrated Circuits IIS 联合设立) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 声场估计 论文列表

ICASSP 2026 - 声场估计 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Group-Sparse Gaussian Process Regression for Inhomogeneous S 7.5分 前25% 📋 论文详情 🥇 Group-Sparse Gaussian Process Regression for Inhomogeneous Sound Field Estimation ✅ 7.5/10 | 前25% | #声场估计 | #高斯过程回归 | #麦克风阵列 #稀疏优化 👥 作者与机构 第一作者:Ryo Matsuda(京都大学工学部) 通讯作者:Makoto Otani(京都大学工学部) 作者列表:Ryo Matsuda(京都大学工学部)、Makoto Otani(京都大学工学部) 💡 毒舌点评 这篇论文在传统声场估计框架下做出了扎实的改进,亮点在于巧妙地将群稀疏约束引入高斯过程回归核权重优化,摆脱了对先验声源位置的依赖,并在仿真中取得了显著的性能提升。然而,其短板在于实验部分过于理想化(无回声、二维平面),缺乏对实际复杂声学环境(如混响、三维空间)的验证,且未提供任何开源代码,这使得其提出的方法在实际应用中的鲁棒性和可复现性存疑。 🔗 开源详情 代码:论文中未提及代码链接或开源仓库。 模型权重:未提及。 数据集:实验为数值仿真生成,未提供生成代码或具体数据。 Demo:未提供在线演示。 复现材料:论文给出了部分实验设置(如麦克风数量、区域大小、频率范围、噪声模型、部分超参数范围),但关键训练细节(如优化器停止准则、ν_tr的具体计算公式、ζ的最终取值)不充分,难以完全复现。 论文中引用的开源项目:论文引用的文献中,[18] (Koyama & Daudet, 2019) 的算法被用于基线实现,但未说明是否使用其开源代码。论文本身未明确列出依赖的开源工具。 结论:论文中未提及开源计划。 ...

2026-04-29

ICASSP 2026 - 声学建模 论文列表

ICASSP 2026 - 声学建模 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Solving the Helmholtz Equation Via Physics-Informed Neural N 6.5分 前50% 📋 论文详情 🥇 Solving the Helmholtz Equation Via Physics-Informed Neural Networks with an Adaptive Weighting Strategy ✅ 6.5/10 | 前50% | #声学建模 | #物理信息神经网络 | #自适应学习 👥 作者与机构 第一作者:Yanan Guo(国防科技大学气象与海洋学院) 通讯作者:未说明 作者列表:Yanan Guo(国防科技大学气象与海洋学院),Junqiang Song(国防科技大学气象与海洋学院),Xiaoqun Cao(国防科技大学气象与海洋学院),Hongze Leng(国防科技大学气象与海洋学院) 💡 毒舌点评 论文的核心动机——解决PINN训练中多损失项收敛速率不平衡的问题——是真实且重要的,提出的“逆残差衰减率”权重机制在理论上具有吸引力。然而,其验证过程显得过于“温室化”,仅用两个低维、规则、解析解已知的“玩具问题”就宣称方法有效,缺乏对高频波、复杂几何或实际噪声数据等更具挑战性场景的拷问,大大削弱了其声称的普适性和鲁棒性,读起来更像一个初步的概念验证而非完整的解决方案。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:未提及(论文使用自构造的合成数据)。 Demo:未提及。 复现材料:论文描述了网络架构(层数、神经元数、激活函数)、优化器(Adam)、学习率(三维为0.001)、训练步数(三维为20k)。但核心的自适应参数(如β_w, β_s, ε)的具体值、损失函数中γ^R/γ^B的取值、采样策略等细节未充分提供。 论文中引用的开源项目:未提及依赖的特定开源工具或模型。 论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 声源定位 论文列表

ICASSP 2026 - 声源定位 共 15 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Bridging the Measurement–Simulation Gap in Room Acoustics wi 8.5分 前25% 🥈 DSRMS-TransUnet: A Decentralized Non-Shifted Transunet for S 8.0分 前10% 🥉 FUN-SSL: Full-Band Layer Followed by U-Net With Narrow-Band 8.0分 前25% 4. Atomic Norm Minimization Revisited: Progressive Atom Identif 7.5分 前25% 5. Physics-Informed Neural Networks for Ocean Acoustic Field Re 7.5分 前25% 6. Theory and Application of Circular Relative Harmonic Coeffic 7.5分 前25% 7. Sequential and Simultaneous Optimization of Microphone Array 7.5分 前25% 8. Spiking Attention Network: A Hybrid Neuromorphic Approach to 7.0分 前25% 9. SIRUP: A Diffusion-Based Virtual Upmixer of Steering Vectors 7.0分 前25% 10. Phase-Retrieval-Based Physics-Informed Neural Networks For A 7.0分 前50% 11. Microphone-Less Measurement of Three-Dimensional Radiating I 7.0分 前25% 12. Improving Binaural Distance Estimation in Reverberant Rooms 7.0分 前25% 13. A Unified SVD-Modal Solution for Sparse Sound Field Reconstr 6.5分 前25% 14. An Envelope Separation Aided Multi-Task Learning Model for B 6.5分 前25% 15. Adaptive Spectral Weighting in Sagittal-Plane Sound Localiza 6.5分 前25% 📋 论文详情 🥇 Bridging the Measurement–Simulation Gap in Room Acoustics with Real2sim Diffusion 🔥 8.5/10 | 前25% | #声源定位 | #扩散模型 | #麦克风阵列 #信号处理 ...

2026-04-29

ICASSP 2026 - 多模态学习 论文列表

ICASSP 2026 - 多模态学习 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Multimodal Co-Training with Subtractive Unlabeled-Benefit Bo 6.0分 前25% 📋 论文详情 🥇 Multimodal Co-Training with Subtractive Unlabeled-Benefit Bounds ✅ 6.0/10 | 前25% | #多模态学习 | #半监督学习 #协同训练 | #半监督学习 #协同训练 👥 作者与机构 第一作者:Tianyu Bell Pan(佛罗里达大学 ECE系) 通讯作者:未说明 作者列表:Tianyu Bell Pan(佛罗里达大学 ECE系)、Olivia Dizon-Paradis(佛罗里达大学 ECE系)、Damon L. Woodard(佛罗里达大学 ECE系) 💡 毒舌点评 这篇论文的亮点在于为“多模态协同训练”这一实用方法提供了形式化的理论支柱,特别是那个显式的、减去无标签收益项的泛化界,概念很巧妙。然而,其短板也同样明显:整篇论文的实验部分完全依赖于模拟数据的示意图,缺乏任何真实数据集上的基准测试或与SOTA方法的对比,使得漂亮的理论如同空中楼阁,难以令人信服其在实际应用中的威力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:未提及。 Demo:未提及。 复现材料:论文未提供训练细节、配置、检查点或附录说明。Algorithm 1的描述是主要的复现依据。 论文中引用的开源项目:未提及依赖的开源工具或模型。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 多模态对话意图识别 论文列表

ICASSP 2026 - 多模态对话意图识别 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 CaMoD: Causal-Aware Modality Denoising for Multimodal Dialog 7.5分 前25% 📋 论文详情 🥇 CaMoD: Causal-Aware Modality Denoising for Multimodal Dialogue Intent Recognition ✅ 7.5/10 | 前25% | #多模态对话意图识别 | #因果推理 | #多模态模型 #音频事件检测 👥 作者与机构 第一作者:Jinlong Zhang(北京航空航天大学计算机科学与工程学院) 通讯作者:Bo Li(北京航空航天大学计算机科学与工程学院),Xudong Liu(北京航空航天大学计算机科学与工程学院) 作者列表:Jinlong Zhang(北京航空航天大学计算机科学与工程学院),Bo Li(北京航空航天大学计算机科学与工程学院),Xudong Liu(北京航空航天大学计算机科学与工程学院) 💡 毒舌点评 亮点:将“不是所有模态都可信”这一朴素认知,包装成了一套严谨的因果路由与反事实学习框架,解决了多模态融合中“盲目融合”的真实痛点,逻辑自洽且实验完整。 短板:创新本质是现有技术(MoE门控、反事实增强)在特定任务上的精巧组合,缺乏底层理论或架构上的突破;且实验仅限于一个数据集,对极端噪声或模态缺失的鲁棒性验证不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开预训练或训练好的模型权重。 数据集:使用公开的MIntRec数据集,论文中给出了标准划分比例。 Demo:未提及。 复现材料:提供了部分训练细节(优化器、学习率、Batch Size、训练轮数),但关键超参数(如共享维度H)、代码实现和完整配置缺失。 引用的开源项目:论文依赖并引用了BERT、Swin-Transformer、Wav2Vec 2.0、AdamW等开源模型和优化器。 开源计划:论文中未提及任何开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 多模态情感分析 论文列表

ICASSP 2026 - 多模态情感分析 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 GRNet: Graph Reconstruction Network for Robust Multimodal Se 7.5分 前25% 🥈 Dual-Perspective Multimodal Sentiment Analysis with MoE Fusi 7.0分 前50% 📋 论文详情 🥇 GRNet: Graph Reconstruction Network for Robust Multimodal Sentiment Analysis ✅ 7.5/10 | 前25% | #多模态情感分析 | #图神经网络 | #鲁棒性 #缺失模态学习 👥 作者与机构 第一作者:Zhaopan Xu (哈尔滨工业大学) 通讯作者:Hongxun Yao (哈尔滨工业大学) 作者列表:Zhaopan Xu(哈尔滨工业大学)、Lulu Tian(未提供具体机构,邮箱为个人邮箱)、Panpan Zhang(新加坡国立大学 NUS)、Xiaojiang Peng(深圳技术大学)、Hongxun Yao(哈尔滨工业大学) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 多模态情感识别 论文列表

ICASSP 2026 - 多模态情感识别 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 NeuroSIFT: A Biologically-Inspired Framework with Explicit S 8.0分 前25% 🥈 Graph-Based Emotion Consensus Perception Learning for Multim 7.5分 前25% 📋 论文详情 🥇 NeuroSIFT: A Biologically-Inspired Framework with Explicit Signal-Noise Separation for Robust Multimodal Emotion Recognition 🔥 8.0/10 | 前25% | #多模态情感识别 | #神经形态计算 | #多任务学习 #鲁棒性 👥 作者与机构 第一作者:Gang Xie(杭州电子科技大学计算机学院) 通讯作者:Wanzeng Kong(杭州电子科技大学计算机学院) 作者列表:Gang Xie(杭州电子科技大学计算机学院)、Jiajia Tang(杭州电子科技大学计算机学院)、Tianyang Qin(杭州电子科技大学计算机学院)、Yiwen Shen(杭州电子科技大学计算机学院)、Wanzeng Kong(杭州电子科技大学计算机学院) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 多模态模型 论文列表

ICASSP 2026 - 多模态模型 共 6 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 RCAL: Reinforced Cross-Modal Alignment for Multimodal Sentim 8.5分 前25% 🥈 Mitigating Language Prior-Induced Hallucinations via Bi-Leve 7.5分 前25% 🥉 An End-to-End Multimodal System for Subtitle Recognition and 7.0分 前50% 4. Multimodal Transformer with Multiperspective Training for Pr 7.0分 前25% 5. Multimodal Fusion-Based IPCLIP Network for Mixed Reality Sur 6.5分 前50% 6. Selective Hub Fusion with Modality-Heterogeneous Experts for 6.5分 前25% 📋 论文详情 🥇 RCAL: Reinforced Cross-Modal Alignment for Multimodal Sentiment Analysis with Sparse Visual Frames 🔥 8.5/10 | 前25% | #多模态模型 | #对比学习 | #稀疏输入 #跨模态 ...

2026-04-29

ICASSP 2026 - 多通道 论文列表

ICASSP 2026 - 多通道 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Constraint Optimized Multichannel Mixer-Limiter Design 7.0分 前25% 📋 论文详情 🥇 Constraint Optimized Multichannel Mixer-Limiter Design ✅ 7.0/10 | 前25% | #多通道 | #信号处理 | #音频生成 #实时处理 👥 作者与机构 第一作者:Yuancheng Luo (Amazon.com) 通讯作者:未说明 作者列表:Yuancheng Luo (Amazon.com), Dmitriy Yamkovoy (Amazon.com), Guillermo Garcia (Amazon.com) 💡 毒舌点评 亮点:将混音和限幅问题统一建模为线性约束二次规划(QP)是一个优雅且理论扎实的框架,特别是提出的“遮挡剔除”约束缩减算法,能有效降低QP求解复杂度,为实时处理提供了理论可能。 短板:实验部分仅使用人工合成的调幅信号进行验证,缺乏真实音乐或语音内容的主观听感评估和客观指标对比(如LUFS、动态范围),结论的工程实践说服力不足。 🔗 开源详情 论文中未提及任何开源计划,未提供代码链接、模型权重、公开数据集或在线Demo。文中引用了OSQP [22] 作为QP求解器的一个参考,但未明确在实验中使用。 📌 核心摘要 ...

2026-04-29