多模态学习

ICASSP 2026 - 多模态学习论文列表

ICASSP 2026 - 多模态学习共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Multimodal Co-Training with Subtractive Unlabeled-Benefit Bo 6.0分前25% 📋 论文详情 🥇 Multimodal Co-Training with Subtractive Unlabeled-Benefit Bounds ✅ 6.0/10 | 前25% | #多模态学习 | #半监督学习 #协同训练 | #半监督学习 #协同训练 👥 作者与机构第一作者：Tianyu Bell Pan（佛罗里达大学 ECE系）通讯作者：未说明作者列表：Tianyu Bell Pan（佛罗里达大学 ECE系）、Olivia Dizon-Paradis（佛罗里达大学 ECE系）、Damon L. Woodard（佛罗里达大学 ECE系） 💡 毒舌点评这篇论文的亮点在于为“多模态协同训练”这一实用方法提供了形式化的理论支柱，特别是那个显式的、减去无标签收益项的泛化界，概念很巧妙。然而，其短板也同样明显：整篇论文的实验部分完全依赖于模拟数据的示意图，缺乏任何真实数据集上的基准测试或与SOTA方法的对比，使得漂亮的理论如同空中楼阁，难以令人信服其在实际应用中的威力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及。 Demo：未提及。复现材料：论文未提供训练细节、配置、检查点或附录说明。Algorithm 1的描述是主要的复现依据。论文中引用的开源项目：未提及依赖的开源工具或模型。 📌 核心摘要 ...

Multimodal Co-Training with Subtractive Unlabeled-Benefit Bounds

📄 Multimodal Co-Training with Subtractive Unlabeled-Benefit Bounds #多模态学习 #半监督学习 #协同训练 #理论分析 ✅ 6.0/10 | 前25% | #多模态学习 | #半监督学习 #协同训练 | #半监督学习 #协同训练学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Tianyu Bell Pan（佛罗里达大学 ECE系）通讯作者：未说明作者列表：Tianyu Bell Pan（佛罗里达大学 ECE系）、Olivia Dizon-Paradis（佛罗里达大学 ECE系）、Damon L. Woodard（佛罗里达大学 ECE系） 💡 毒舌点评这篇论文的亮点在于为“多模态协同训练”这一实用方法提供了形式化的理论支柱，特别是那个显式的、减去无标签收益项的泛化界，概念很巧妙。然而，其短板也同样明显：整篇论文的实验部分完全依赖于模拟数据的示意图，缺乏任何真实数据集上的基准测试或与SOTA方法的对比，使得漂亮的理论如同空中楼阁，难以令人信服其在实际应用中的威力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及。 Demo：未提及。复现材料：论文未提供训练细节、配置、检查点或附录说明。Algorithm 1的描述是主要的复现依据。论文中引用的开源项目：未提及依赖的开源工具或模型。 📌 核心摘要解决问题：针对传统单视图半监督学习（SSL）中存在的“确认偏差”问题，即错误的伪标签会自我强化，本文旨在为多模态（多视图）协同训练方法提供坚实的理论保证。方法核心：提出一个两视图协同训练框架，其中每个视图的分类器选择高置信度的预测作为伪标签提供给另一个视图进行重训练，并加入跨视图一致性损失。理论分析基于视图充分性和条件独立性假设。创新之处：（1）证明了在单次迭代中，较弱视图的期望误差会收缩为两个视图误差的凸组合（Lemma 3.1）；（2）证明了两个视图的最大误差会以几何速率收敛到一个不可约的下限（Theorem 3.2）；（3）推导了一个PAC风格的泛化界，其中包含一个非负的“减法无标签收益项”（Γ），该项随着无标签数据比例、跨视图一致性和视图独立性的增加而增加（Theorem 3.5）。实验结果：论文未提供在真实数据集上的定量实验结果。所有“实验”均为数值模拟，以示意图形式展示了误差收敛曲面（图1）、泛化界随无标签样本数变化（图2）以及收益项Γ随分歧和独立性变化（图3）。论文中未给出具体数值。实际意义：该理论框架量化了多模态协同训练的优势来源，解释了无标签数据和视图间一致性如何协同作用以提升泛化性能，为设计和在实践中安全使用此类算法提供了理论指导。主要局限性：最大局限是缺乏真实实验验证。理论基于较强的假设（如视图条件独立），其在现实世界复杂多模态数据（视图相关）上的适用性未知。未与现有单视图或多视图SSL方法进行性能对比。 🏗️ 模型架构本文提出的不是传统意义上的神经网络模型，而是一个协同训练算法框架（Algorithm 1）。 ...

Multimodal Transformer with Multiperspective Training for Predicting Self-Expression Skills from Video Interview

📄 Multimodal Transformer with Multiperspective Training for Predicting Self-Expression Skills from Video Interview #多模态模型 #多模态学习 #数据集 #预训练 ✅ 7.0/10 | 前25% | #多模态模型 | #多模态模型 | #多模态学习 #数据集学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -1.0 | 置信度中 👥 作者与机构第一作者：Ryo Masumura（NTT, Inc., Japan）通讯作者：未说明作者列表：Ryo Masumura（NTT, Inc., Japan）、Shota Orihashi（NTT, Inc., Japan）、Mana Ihori（NTT, Inc., Japan）、Tomohiro Tanaka（NTT, Inc., Japan）、Naoki Makishima（NTT, Inc., Japan）、Suzuka Yamada（NTT, Inc., Japan）、Taiga Yamane（NTT, Inc., Japan）、Naotaka Kawata（NTT, Inc., Japan）、Satoshi Suzuki（NTT, Inc., Japan） 💡 毒舌点评亮点：论文开创性地定义了“自我表达技能”的多视角自动评估任务，并巧妙设计了多视角训练策略，让模型既能进行多模态融合判断，也能对单一维度进行评估，实验显示其性能可比肩人类评估员。短板：所用数据集和模型均未开源，对于一个标注成本高昂的新任务而言，这无疑大大限制了后续研究的跟进和验证，使得其“有效模型”的结论暂时只能停留在论文层面。 ...