ICASSP 2026 - 多模态学习 论文列表

ICASSP 2026 - 多模态学习 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Multimodal Co-Training with Subtractive Unlabeled-Benefit Bo 6.0分 前25% 📋 论文详情 🥇 Multimodal Co-Training with Subtractive Unlabeled-Benefit Bounds ✅ 6.0/10 | 前25% | #多模态学习 | #半监督学习 #协同训练 | #半监督学习 #协同训练 👥 作者与机构 第一作者:Tianyu Bell Pan(佛罗里达大学 ECE系) 通讯作者:未说明 作者列表:Tianyu Bell Pan(佛罗里达大学 ECE系)、Olivia Dizon-Paradis(佛罗里达大学 ECE系)、Damon L. Woodard(佛罗里达大学 ECE系) 💡 毒舌点评 这篇论文的亮点在于为“多模态协同训练”这一实用方法提供了形式化的理论支柱,特别是那个显式的、减去无标签收益项的泛化界,概念很巧妙。然而,其短板也同样明显:整篇论文的实验部分完全依赖于模拟数据的示意图,缺乏任何真实数据集上的基准测试或与SOTA方法的对比,使得漂亮的理论如同空中楼阁,难以令人信服其在实际应用中的威力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:未提及。 Demo:未提及。 复现材料:论文未提供训练细节、配置、检查点或附录说明。Algorithm 1的描述是主要的复现依据。 论文中引用的开源项目:未提及依赖的开源工具或模型。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 多模态对话意图识别 论文列表

ICASSP 2026 - 多模态对话意图识别 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 CaMoD: Causal-Aware Modality Denoising for Multimodal Dialog 7.5分 前25% 📋 论文详情 🥇 CaMoD: Causal-Aware Modality Denoising for Multimodal Dialogue Intent Recognition ✅ 7.5/10 | 前25% | #多模态对话意图识别 | #因果推理 | #多模态模型 #音频事件检测 👥 作者与机构 第一作者:Jinlong Zhang(北京航空航天大学计算机科学与工程学院) 通讯作者:Bo Li(北京航空航天大学计算机科学与工程学院),Xudong Liu(北京航空航天大学计算机科学与工程学院) 作者列表:Jinlong Zhang(北京航空航天大学计算机科学与工程学院),Bo Li(北京航空航天大学计算机科学与工程学院),Xudong Liu(北京航空航天大学计算机科学与工程学院) 💡 毒舌点评 亮点:将“不是所有模态都可信”这一朴素认知,包装成了一套严谨的因果路由与反事实学习框架,解决了多模态融合中“盲目融合”的真实痛点,逻辑自洽且实验完整。 短板:创新本质是现有技术(MoE门控、反事实增强)在特定任务上的精巧组合,缺乏底层理论或架构上的突破;且实验仅限于一个数据集,对极端噪声或模态缺失的鲁棒性验证不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开预训练或训练好的模型权重。 数据集:使用公开的MIntRec数据集,论文中给出了标准划分比例。 Demo:未提及。 复现材料:提供了部分训练细节(优化器、学习率、Batch Size、训练轮数),但关键超参数(如共享维度H)、代码实现和完整配置缺失。 引用的开源项目:论文依赖并引用了BERT、Swin-Transformer、Wav2Vec 2.0、AdamW等开源模型和优化器。 开源计划:论文中未提及任何开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 多模态情感分析 论文列表

ICASSP 2026 - 多模态情感分析 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 GRNet: Graph Reconstruction Network for Robust Multimodal Se 7.5分 前25% 🥈 Dual-Perspective Multimodal Sentiment Analysis with MoE Fusi 7.0分 前50% 📋 论文详情 🥇 GRNet: Graph Reconstruction Network for Robust Multimodal Sentiment Analysis ✅ 7.5/10 | 前25% | #多模态情感分析 | #图神经网络 | #鲁棒性 #缺失模态学习 👥 作者与机构 第一作者:Zhaopan Xu (哈尔滨工业大学) 通讯作者:Hongxun Yao (哈尔滨工业大学) 作者列表:Zhaopan Xu(哈尔滨工业大学)、Lulu Tian(未提供具体机构,邮箱为个人邮箱)、Panpan Zhang(新加坡国立大学 NUS)、Xiaojiang Peng(深圳技术大学)、Hongxun Yao(哈尔滨工业大学) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 多模态情感识别 论文列表

ICASSP 2026 - 多模态情感识别 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 NeuroSIFT: A Biologically-Inspired Framework with Explicit S 8.0分 前25% 🥈 Graph-Based Emotion Consensus Perception Learning for Multim 7.5分 前25% 📋 论文详情 🥇 NeuroSIFT: A Biologically-Inspired Framework with Explicit Signal-Noise Separation for Robust Multimodal Emotion Recognition 🔥 8.0/10 | 前25% | #多模态情感识别 | #神经形态计算 | #多任务学习 #鲁棒性 👥 作者与机构 第一作者:Gang Xie(杭州电子科技大学计算机学院) 通讯作者:Wanzeng Kong(杭州电子科技大学计算机学院) 作者列表:Gang Xie(杭州电子科技大学计算机学院)、Jiajia Tang(杭州电子科技大学计算机学院)、Tianyang Qin(杭州电子科技大学计算机学院)、Yiwen Shen(杭州电子科技大学计算机学院)、Wanzeng Kong(杭州电子科技大学计算机学院) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 多模态模型 论文列表

ICASSP 2026 - 多模态模型 共 6 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 RCAL: Reinforced Cross-Modal Alignment for Multimodal Sentim 8.5分 前25% 🥈 Mitigating Language Prior-Induced Hallucinations via Bi-Leve 7.5分 前25% 🥉 An End-to-End Multimodal System for Subtitle Recognition and 7.0分 前50% 4. Multimodal Transformer with Multiperspective Training for Pr 7.0分 前25% 5. Multimodal Fusion-Based IPCLIP Network for Mixed Reality Sur 6.5分 前50% 6. Selective Hub Fusion with Modality-Heterogeneous Experts for 6.5分 前25% 📋 论文详情 🥇 RCAL: Reinforced Cross-Modal Alignment for Multimodal Sentiment Analysis with Sparse Visual Frames 🔥 8.5/10 | 前25% | #多模态模型 | #对比学习 | #稀疏输入 #跨模态 ...

2026-04-29

ICASSP 2026 - 多通道 论文列表

ICASSP 2026 - 多通道 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Constraint Optimized Multichannel Mixer-Limiter Design 7.0分 前25% 📋 论文详情 🥇 Constraint Optimized Multichannel Mixer-Limiter Design ✅ 7.0/10 | 前25% | #多通道 | #信号处理 | #音频生成 #实时处理 👥 作者与机构 第一作者:Yuancheng Luo (Amazon.com) 通讯作者:未说明 作者列表:Yuancheng Luo (Amazon.com), Dmitriy Yamkovoy (Amazon.com), Guillermo Garcia (Amazon.com) 💡 毒舌点评 亮点:将混音和限幅问题统一建模为线性约束二次规划(QP)是一个优雅且理论扎实的框架,特别是提出的“遮挡剔除”约束缩减算法,能有效降低QP求解复杂度,为实时处理提供了理论可能。 短板:实验部分仅使用人工合成的调幅信号进行验证,缺乏真实音乐或语音内容的主观听感评估和客观指标对比(如LUFS、动态范围),结论的工程实践说服力不足。 🔗 开源详情 论文中未提及任何开源计划,未提供代码链接、模型权重、公开数据集或在线Demo。文中引用了OSQP [22] 作为QP求解器的一个参考,但未明确在实验中使用。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 多音高估计 #音符跟踪 论文列表

ICASSP 2026 - 多音高估计 #音符跟踪 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Self-Supervised Note Tracking and Multi-Pitch Estimation Via 8.5分 前25% 📋 论文详情 🥇 Self-Supervised Note Tracking and Multi-Pitch Estimation Via Reconstruction-Based Learning 🔥 8.5/10 | 前25% | #多音高估计 #音符跟踪 | #自监督学习 #重构学习 | #多音高估计 #音符跟踪 👥 作者与机构 第一作者:Heng-Hsiu Hu(中央研究院资讯研究所) 通讯作者:未说明 作者列表:Heng-Hsiu Hu(中央研究院资讯研究所)、Li Su(中央研究院资讯研究所) 💡 毒舌点评 这篇论文的亮点在于其“无缝集成”的思路:将看似独立的MPE和OD模块通过统一的自监督框架和伪标签机制优雅地结合起来,最终构建了一个无需任何人工标签的完整音符跟踪流水线,这在工程实现和方法论上都颇具巧思。然而,其短板也同样明显:尽管在MPE上取得了亮眼成绩,但音符跟踪(POnOff)的整体F1分数相比监督学习的Basic-Pitch仍有显著差距(例如,在MusicNet上为49.1% vs. 46.9%),这暴露了当前纯自监督方法在精准捕捉音符完整时间结构上的局限性,论文对此的解释稍显不足。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/DeReKPIgg/Timbre-Drill。 模型权重:论文中未提及公开预训练模型权重。 数据集:使用了四个公开数据集(NSynth, URMP, MAPS, MusicNet),并说明了划分方式,读者可自行获取。 Demo:论文中未提供在线演示。 复现材料:论文详细说明了模型架构(U-Net,跳跃连接)、输入特征(HCQT)、所有损失函数的公式与权重、优化器(AdamW)、学习率(1e-4)、批量大小(20)、训练步数(30,000)、硬件(单张RTX-3090)和训练时长(约12小时/模块)。这些信息对于复现训练过程足够充分。 论文中引用的开源项目:主要依赖参考文献中提及的Timbre-Trap [9] 和 SS-MPE [10] 的架构与思想,以及Basic-Pitch [12] 的后处理流程和mir_eval [24] 的评估工具。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 实体消歧 论文列表

ICASSP 2026 - 实体消歧 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Rethinking Entity Disambiguation in Complex Modalities 8.0分 前25% 📋 论文详情 🥇 Rethinking Entity Disambiguation in Complex Modalities 🔥 8.0/10 | 前25% | #实体消歧 | #多模态模型 | #对比学习 #音视频 👥 作者与机构 第一作者:Yingyao Ma(东南大学计算机科学与工程学院) 通讯作者:Jiasong Wu(*,东南大学计算机科学与工程学院) 作者列表:Yingyao Ma(东南大学计算机科学与工程学院),Yifan Xue(东南大学计算机科学与工程学院),Wanqiang Cai(东南大学计算机科学与工程学院),Yuanyuan Zhou(东南大学计算机科学与工程学院),Jiasong Wu(东南大学计算机科学与工程学院),Lotfi Senhadji(法国雷恩大学,INSERM,LTSI-UMR 1099),Huazhong Shu(东南大学计算机科学与工程学院) 💡 毒舌点评 亮点:论文系统性地将实体消歧任务从传统文本/静态图像扩展到动态的视频、音频等“复杂模态”,并为此构建了一个专用的多模态数据集,填补了特定场景下的研究空白。短板:音频模态的处理略显“工具化”,主要通过ASR转文本再匹配来利用,对音频波形本身的声学特征(如音色、韵律)利用不足,可能限制了其在语音主导场景下的性能上限。 🔗 开源详情 代码:提供了一个匿名代码仓库链接:https://anonymous.open.science/r/CMED-code-B0E8。 模型权重:未提及是否公开预训练或最终模型的权重。 数据集:构建并公开了Focus数据集(包括Focus-H和Focus-A两个版本),论文中未说明具体获取方式,通常需联系作者或通过提供链接下载。 Demo:未提供在线演示。 复现材料:在论文的“Implementation Details”部分提供了训练所用的优化器(Adam)、学习率(1e-3)、batch size(64)、训练轮数(50 epochs)、GPU型号(NVIDIA GTX A6000)以及超参数调优方法(网格搜索)。 论文中引用的开源项目:依赖的开源工具/模型包括:CLIP(特征提取)、SBERT(句子编码)、BERT(基线)、BLINK(基线)以及多个多模态基线模型(ALBEF, MaPLe, ClipBERT等)。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 实时处理 论文列表

ICASSP 2026 - 实时处理 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A Personalized Real-Time Proactive Voice Memory Assistant 7.0分 前50% 📋 论文详情 🥇 A Personalized Real-Time Proactive Voice Memory Assistant ✅ 7.0/10 | 前50% | #实时处理 | #大语言模型 | #语音识别 #说话人识别 👥 作者与机构 第一作者:Hao Zhou (Samsung Research America, The Pennsylvania State University) - 根据作者列表顺序和标注“†”判断。 通讯作者:论文中未明确标注通讯作者。 作者列表:Hao Zhou¹²†, Md Mahbubur Rahman¹, Simon A. Lee¹³†, Baiying Lu¹⁴†, Juhyeon Lee¹⁵†, Cyrus Tanade¹, Megha Thukral¹⁶†, Md. Sazzad Hissain Khan⁷, Samsad Ul Islam⁷, Subramaniam Venkatraman¹, Sharanya Arcot Desai¹。 机构信息:¹Samsung Research America, ²The Pennsylvania State University, ³University of California, Los Angeles, ⁴Dartmouth, ⁵University of Massachusetts Amherst, ⁶Georgia Institute of Technology, ⁷Samsung Research Bangladesh。标注“†”表示工作在三星研究美国实习期间完成。 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 对抗样本 论文列表

ICASSP 2026 - 对抗样本 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Style Attack Disguise: When Fonts Become a Camouflage for Ad 7.0分 前25% 📋 论文详情 🥇 Style Attack Disguise: When Fonts Become a Camouflage for Adversarial Intent ✅ 7.0/10 | 前25% | #对抗样本 | #数据增强 | #文本分类 #机器翻译 👥 作者与机构 第一作者:Yangshijie Zhang† (Lanzhou University) 通讯作者:Xingxing Jia⋆ (Lanzhou University, jiaxx@lzu.edu.cn) 作者列表: Yangshijie Zhang† (Lanzhou University) Xinda Wang† (Peking University) Jialin Liu (Peking University) Wenqiang Wang (Sun Yat-sen University) Zhicong Ma (Lanzhou University) Xingxing Jia⋆ (Lanzhou University) 机构:兰州大学、北京大学、中山大学 💡 毒舌点评 ...

2026-04-29