ICASSP 2026 - 课堂阶段分割 论文列表

ICASSP 2026 - 课堂阶段分割 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A New Method and Dataset for Classroom Teaching Stage Segmen 6.5分 前25% 📋 论文详情 🥇 A New Method and Dataset for Classroom Teaching Stage Segmentation ✅ 6.5/10 | 前25% | #课堂阶段分割 | #多模态融合 | #教育技术 #数据集 👥 作者与机构 第一作者:Shihao Yang(东北师范大学信息科学学院) 通讯作者:Shuhua Liu(东北师范大学信息科学学院,邮箱:liush129@nenu.edu.cn) 作者列表:Shihao Yang(东北师范大学信息科学学院)、Nan Zhang(东北师范大学信息科学学院)、Yue Jiang(东北师范大学信息科学学院)、Ziyi Zhang(东北师范大学信息科学学院)、Shuhua Liu(东北师范大学信息科学学院) 💡 毒舌点评 本文最大亮点是首次明确定义了“课堂教学阶段分割”这一任务并构建了首个大规模多模态数据集,为教育过程分析提供了重要的基准和基础设施。然而,其提出的“多模态聚类-分离损失”与“熵权动态加权”方法在技术原创性上略显保守,更多是已有技巧在特定任务上的组合应用,动态加权策略带来的性能提升(如表2中从63.17到66.85)虽显著但幅度有限。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文构建并介绍了TSS数据集,包含1,928节课和详细划分,但未提及数据集的具体公开或获取方式。 Demo:未提及。 复现材料:提供了训练的主要超参数(学习率、batch size、epoch数、损失权重)和硬件配置,但部分细节(如优化器、数据预处理代码)未说明。 论文中引用的开源项目:提到了使用的预训练模型(Bart, Longformer, TimeSformer, wav2vec2)和工具(讯飞语音转写API)。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 跨模态 论文列表

ICASSP 2026 - 跨模态 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Dynamic Balanced Cross-Modal Attention with Gated Sequence R 7.5分 前25% 🥈 UVT-LM: Unifying Visual and Tactile Perception with Language 7.0分 前25% 📋 论文详情 🥇 Dynamic Balanced Cross-Modal Attention with Gated Sequence Restoration: Towards Robust Multimodal Sentiment Analysis ✅ 7.5/10 | 前25% | #跨模态 | #多任务学习 | #语音情感识别 #鲁棒性 👥 作者与机构 第一作者:Rong Geng†(† 西安理工大学网络计算与安全陕西省重点实验室) 通讯作者:Qindong Sun‡(‡ 西安交通大学网络科学与工程学院;带⋆符号) 作者列表: Rong Geng†(西安理工大学网络计算与安全陕西省重点实验室) Qindong Sun†,‡,⋆(†西安理工大学网络计算与安全陕西省重点实验室;‡西安交通大学网络科学与工程学院) Han Cao†(西安理工大学网络计算与安全陕西省重点实验室) Xiaoxiong Wang†(西安理工大学网络计算与安全陕西省重点实验室) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 跨模态检索 论文列表

ICASSP 2026 - 跨模态检索 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Auto-MatchCut: An Audio-Visual Retrieval Framework for Seaml 7.0分 前50% 🥈 CoVA: Text-Guided Composed Video Retrieval for Audio-Visual 6.5分 前25% 📋 论文详情 🥇 Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting ✅ 7.0/10 | 前50% | #跨模态检索 | #音频检索 | #视频检索 #跨模态 👥 作者与机构 第一作者:Hongjie Chen (Dolby Laboratories) 通讯作者:未说明 作者列表:Hongjie Chen (Dolby Laboratories), Hanyu Meng (The University of New South Wales), Gautam Bhattacharya (Dolby Laboratories), Lie Lu (Dolby Laboratories), Josh Kimball (Dolby Laboratories), Ryan Rossi (未说明) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 轻度认知障碍检测 论文列表

ICASSP 2026 - 轻度认知障碍检测 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 MCI-OTFusion: A Multimodal Model for MCI Detection and Cogni 6.5分 前50% 📋 论文详情 🥇 MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction ✅ 6.5/10 | 前50% | #轻度认知障碍检测 | #多模态融合 | #最优传输 #双向交叉注意力 👥 作者与机构 第一作者:Yuqin Lin(福州大学计算机与数据科学学院) 通讯作者:Jianwu Dang(中国科学院深圳先进技术研究院) 作者列表:Yuqin Lin(福州大学计算机与数据科学学院)、Jinsong Zhang(福州大学计算机与数据科学学院)、Xiao Wei(中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室)、Kai Li(中国科学院深圳先进技术研究院)、Bin Wen(天津大学智能与计算学院认知计算与应用天津市重点实验室)、Mingyang Gu(中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室)、Jianwu Dang(中国科学院深圳先进技术研究院) 💡 毒舌点评 这篇论文的亮点在于其方法设计的“物理意义”——用OT来捕捉语音和文本在分布层面的全局对齐,而非仅停留在浅层特征拼接,这在方法论上是一个清晰且合理的改进。然而,其短板同样明显:整个研究都建立在TAUKADIAL这一个较小的、特定挑战赛的数据集上,这极大地限制了其结论的泛化说服力,让人怀疑该模型是否在真实世界、更多样化的人群和语音条件下依然有效。 ...

2026-04-29

ICASSP 2026 - 迁移学习 论文列表

ICASSP 2026 - 迁移学习 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 GLUE: Gradient-free Learning to Unify Experts 6.5分 前50% 📋 论文详情 🥇 GLUE: Gradient-free Learning to Unify Experts ✅ 6.5/10 | 前50% | #迁移学习 | #预训练 | #知识蒸馏 #多任务学习 👥 作者与机构 第一作者:Jong-Ik Park (卡内基梅隆大学电气与计算机工程系) 通讯作者:未说明 (论文中未明确指定通讯作者) 作者列表:Jong-Ik Park (卡内基梅隆大学电气与计算机工程系)、Shreyas Chaudhari (卡内基梅隆大学电气与计算机工程系)、Srinivasa Pranav* (卡内基梅隆大学电气与计算机工程系)、Carlee Joe-Wong (卡内基梅隆大学电气与计算机工程系)、Jos´e M. F. Moura (卡内基梅隆大学电气与计算机工程系) *作者贡献相同。 💡 毒舌点评 亮点:该研究提出了一种巧妙的“偷懒”方法——用无需反向传播的无梯度优化(SPSA)来学习多专家模型的混合系数,将计算成本从全网络反向传播降至仅需两次前向传播,在保持与全梯度优化方法相当性能的同时,显著提升了效率。 短板:论文的实验验证场景较为理想化(使用同构模型在简单CV数据集上的混合),缺乏对真实世界复杂场景(如模型架构不同、训练数据量巨大、或需要在线学习)的验证,且未提供任何代码或复现细节,大大削弱了其实用价值和说服力。 🔗 开源详情 ...

2026-04-29

ICASSP 2026 - 零样本关键词检测 论文列表

ICASSP 2026 - 零样本关键词检测 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Malefa: Multi-Granularity Learning and Effective False Alarm 7.5分 前25% 📋 论文详情 🥇 Malefa: Multi-Granularity Learning and Effective False Alarm Suppression for Zero-Shot Keyword Spotting ✅ 7.5/10 | 前25% | #零样本关键词检测 | #对比学习 #多任务学习 | #对比学习 #多任务学习 👥 作者与机构 第一作者:Lo-Ya Li(台湾师范大学,标记为*) 通讯作者:未明确说明(根据贡献描述和标记,Berlin Chen(*)和Jeih-Weih Hung(†)可能为主要指导者) 作者列表:Lo-Ya Li(台湾师范大学),Tien-Hong Lo(台湾师范大学),Jeih-Weih Hung†(暨南国际大学),Shih-Chieh Huang¶(瑞昱半导体),Berlin Chen*(台湾师范大学) 💡 毒舌点评 这篇论文的亮点在于它没有盲目追求模型规模,而是用轻量级架构(0.7M参数)通过更精细的学习目标(音素级对齐+误报惩罚)在核心指标(特别是误报率)上实现了数量级的改进,这对实际部署极具吸引力。短板是其创新主要是现有技术(CTC、对比学习、注意力机制)的工程化组合,在模型架构原理上缺乏颠覆性,且实验仅限于特定的英文数据集,其泛化能力(如跨语言、复杂声学场景)有待进一步证明。 🔗 开源详情 ...

2026-04-29

ICASSP 2026 - 音乐信息检索 论文列表

ICASSP 2026 - 音乐信息检索 共 26 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Noise-to-Notes: Diffusion-Based Generation and Refinement fo 8.0分 前10% 🥈 Leveraging Diffusion U-Net Features for Predominant Instrume 8.0分 前25% 🥉 Subsequence SDTW: Differentiable Alignment with Flexible Bou 8.0分 前25% 4. A Unsupervised Domain Adaptation Framework For Semi-Supervis 8.0分 前25% 5. Evaluating High-Resolution Piano Sustain Pedal Depth Estimat 8.0分 前25% 6. Improving Active Learning for Melody Estimation by Disentang 7.5分 前25% 7. Temporal Distillation for Music Representation Learning 7.5分 前25% 8. Constructing Composite Features for Interpretable Music-Tagg 7.5分 前25% 9. Audio-to-Score Jazz Solo Transcription with the Rhythm Perce 7.5分 前25% 10. Benchmarking Music Autotagging with MGPHot Expert Annotation 7.5分 前25% 11. BeatMamba: Bidirectional Selective State-Space Modeling for 7.5分 前25% 12. Spectrogram Event Based Feature Representation for Generaliz 7.5分 前25% 13. BACHI: Boundary-Aware Symbolic Chord Recognition Through Mas 7.5分 前25% 14. An Event-Based Sequence Modeling Approach to Recognizing Non 7.5分 前25% 15. Off-The-Grid Multi-Pitch Estimation Using Optimal Transport 7.5分 前25% 16. RMODGDF: A Robust STFT-Derived Feature for Musical Instrumen 7.0分 前50% 17. SAUNA: Song-Level Audio & User-Listening Data Neural Alignme 7.0分 前25% 18. Timbre-Based Pretraining with Pseudo-Labels for Multi-Instru 7.0分 前25% 19. Towards Blind Data Cleaning: A Case Study in Music Source Se 7.0分 前50% 20. Do Foundational Audio Encoders Understand Music Structure? 7.0分 前25% 21. Sing What You Fit: A Perception-Based Dataset and Benchmark 7.0分 前25% 22. Single-Step Controllable Music Bandwidth extension with Flow 7.0分 前25% 23. Leveraging Whisper Embeddings For Audio-Based Lyrics Matchin 7.0分 前50% 24. Enhancing Automatic Drum Transcription with Online Dynamic F 7.0分 前25% 25. ALMA-Chor: Leveraging Audio-Lyric Alignment with Mamba for C 7.0分 前25% 26. Vioptt: Violin Technique-Aware Transcription from Synthetic 6.5分 前50% 📋 论文详情 🥇 Noise-to-Notes: Diffusion-Based Generation and Refinement for Automatic Drum Transcription 🔥 8.0/10 | 前10% | #音乐信息检索 | #扩散模型 | #生成模型 #鲁棒性 ...

2026-04-29

ICASSP 2026 - 音乐分离 论文列表

ICASSP 2026 - 音乐分离 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Separate this, and all of these Things Around It: Music Sour 7.0分 前25% 📋 论文详情 🥇 Separate this, and all of these Things Around It: Music Source Separation Via Hyperellipsoidal Queries ✅ 7.0/10 | 前25% | #音乐分离 | #音频检索 | #零样本 #少样本 👥 作者与机构 第一作者:Karn N. Watcharasupat(佐治亚理工学院音乐信息学组) 通讯作者:未说明 作者列表:Karn N. Watcharasupat(佐治亚理工学院音乐信息学组)、Alexander Lerch(佐治亚理工学院音乐信息学组) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 音乐分类 论文列表

ICASSP 2026 - 音乐分类 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Adversarial Rivalry Learning for Music Classification 6.5分 前25% 📋 论文详情 🥇 Adversarial Rivalry Learning for Music Classification ✅ 6.5/10 | 前25% | #音乐分类 | #对抗学习 | #音乐信息检索 #注意力机制 👥 作者与机构 第一作者:Yi-Xing Lin(中央研究院 资讯科学研究所) 通讯作者:未说明 作者列表:Yi-Xing Lin(中央研究院 资讯科学研究所)、Wen-Li Wei(中央研究院 资讯科学研究所)、Jen-Chun Lin(中央研究院 资讯科学研究所) 💡 毒舌点评 本文巧妙地将复杂的“反事实推理”优化问题,转化为两个注意力分支之间更直观的“对抗赛跑”,有效简化了超参调优,是LCA方法的一次有价值的工程化精简。然而,论文仅在几个标准音乐数据集上进行了验证,未能在更具挑战性的多模态或跨领域任务中展示其通用性,且完全未开源代码,使得这一“简单有效”的范式难以被社区快速接纳和验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用了公开数据集(Artist20, EMOPIA, FMA, GTZAN),但未说明是否提供处理后的版本或获取指南。 Demo:未提及在线演示。 复现材料:论文给出了算法伪代码(Algorithm 1)和部分训练超参数(如学习率、早停步数),但未提供完整的训练配置、环境依赖、检查点或附录的详细说明。核心复现材料(代码)缺失。 引用的开源项目:论文提到了作为骨干模型的MERT,以及用于对比的genreMERT、Short-chunk ResNet、M2D、AST-Fusion等模型,但未明确说明是否依赖或整合了这些模型的开源实现。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 音乐推荐 论文列表

ICASSP 2026 - 音乐推荐 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 MusiCRS: Benchmarking Audio-Centric Conversational Recommend 7.5分 前25% 📋 论文详情 🥇 MusiCRS: Benchmarking Audio-Centric Conversational Recommendation ✅ 7.5/10 | 前25% | #音乐推荐 | #多模态模型 | #基准测试 #音频检索 👥 作者与机构 第一作者:未说明(作者列表无顺序指示) 通讯作者:未说明 作者列表:Rohan Surana(University of California, San Diego, USA)、Amit Namburi(University of California, San Diego, USA)、Gagan Mundada(University of California, San Diego, USA)、Abhay Lal(University of California, San Diego, USA)、Zachary Novack(University of California, San Diego, USA)、Julian McAuley(University of California, San Diego, USA)、Junda Wu(University of California, San Diego, USA) 💡 毒舌点评 ...

2026-04-29