ICASSP 2026 - 脑机接口 论文列表

ICASSP 2026 - 脑机接口 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 SAASDNet: An EEG-Based Streaming Auditory Attention Switch D 8.0分 前25% 📋 论文详情 🥇 SAASDNet: An EEG-Based Streaming Auditory Attention Switch Decoding Network for Self-Initiated Attention Switching in Mixed Speech 🔥 8.0/10 | 前25% | #脑机接口 | #端到端 | #流式处理 #数据集 👥 作者与机构 第一作者:Yuting Ding(南方科技大学电子与电气工程系) 通讯作者:Fei Chen(南方科技大学电子与电气工程系) 作者列表:Yuting Ding(南方科技大学电子与电气工程系),Siyu Yu(南方科技大学电子与电气工程系),Ximin Chen(南方科技大学电子与电气工程系),Xuefei Wang(南方科技大学电子与电气工程系),Yueting Ban(南方科技大学电子与电气工程系),Fei Chen(南方科技大学电子与电气工程系) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 舞蹈生成 论文列表

ICASSP 2026 - 舞蹈生成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Motionbeat: Motion-Aligned Music Representation via Embodied 7.5分 前25% 📋 论文详情 🥇 Motionbeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding ✅ 7.5/10 | 前25% | #舞蹈生成 | #对比学习 | #音频表征学习 #音乐生成 👥 作者与机构 第一作者:Xuanchen Wang(悉尼大学计算机科学学院) 通讯作者:未说明 作者列表:Xuanchen Wang(悉尼大学计算机科学学院)、Heng Wang(悉尼大学计算机科学学院)、Weidong Cai(悉尼大学计算机科学学院) 💡 毒舌点评 亮点: 论文巧妙地将“运动”作为监督信号引入音乐表征学习,提出的ECL和SRAL损失函数以及相位旋转、接触注意力等架构模块,从理论和实践上系统地弥补了现有音频模型在节奏感知上的短板,思路新颖且有效。 短板: 核心验证任务(舞蹈生成)的数据集(AIST++)风格相对单一,论文未探讨该表征在更广泛、更多样的音乐风格或非舞蹈类动作(如手势、体育)中的泛化能力,其“具身”的普适性有待进一步验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文使用AIST++数据集,但未说明是否提供该数据集或相关处理脚本。 Demo:未提及。 复现材料:论文提供了详细的超参数设置(模型大小、学习率、批量大小等)和训练细节(GPU型号、优化器),但未提供完整的训练配置或检查点说明。 引用的开源项目:论文引用了多个开源工作作为基线或工具,如EDGE(舞蹈生成)、wav2vec 2.0、CLAP、Wav2CLIP、Jukebox、Soft-DTW等。 总体情况:论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 视觉语音识别 论文列表

ICASSP 2026 - 视觉语音识别 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 FDCNet: Frequency Domain Channel Attention and Convolution f 8.5分 前25% 🥈 Phoneme-Level Visual Speech Recognition via Point-Visual Fus 7.5分 前25% 📋 论文详情 🥇 FDCNet: Frequency Domain Channel Attention and Convolution for Lipreading 🔥 8.5/10 | 前25% | #视觉语音识别 | #频域处理 | #注意力机制 #数据增强 👥 作者与机构 第一作者:Qianxi Yan(浙江大学) 通讯作者:Qifei Zhang(浙江大学) 作者列表: Qianxi Yan(浙江大学) Qifei Zhang*(浙江大学,通讯作者) Lei Zhang(中国科学院大学) Linkun Yu(日本早稻田大学生产系统研究生院) Lei Sheng(宁波市知识产权保护中心) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 视频到音频生成 论文列表

ICASSP 2026 - 视频到音频生成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 V2A-DPO: Omni-Preference Optimization for Video-To-Audio Gen 7.5分 前25% 📋 论文详情 🥇 V2A-DPO: Omni-Preference Optimization for Video-To-Audio Generation ✅ 7.5/10 | 前25% | #视频到音频生成 | #直接偏好优化 | #音视频 #流匹配 👥 作者与机构 第一作者:Nolan Chan(The Chinese University of Hong Kong, Hong Kong SAR, China) 通讯作者:Dingdong Wang(The Chinese University of Hong Kong, Hong Kong SAR, China)(论文脚注中对应邮箱 yjchen@se.cuhk.edu.hk) 作者列表:Nolan Chan(The Chinese University of Hong Kong, Hong Kong SAR, China),Timmy Gang(National Research Council Canada, Canada),Yongqian Wang(The University of Warwick, UK),Yuzhe Liang(Shanghai Jiao Tong University, China),Dingdong Wang(The Chinese University of Hong Kong, Hong Kong SAR, China) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 视频检索 论文列表

ICASSP 2026 - 视频检索 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Caption and Audio-Guided Video Representation Learning with 7.0分 前25% 📋 论文详情 🥇 Caption and Audio-Guided Video Representation Learning with Gated Attention for Partially Relevant Video Retrieval ✅ 7.0/10 | 前25% | #视频检索 | #多模态模型 | #注意力机制 #视觉语言模型 👥 作者与机构 第一作者:Dan Jiang(湖南大学计算机科学与电子工程学院) 通讯作者:Bin Jiang(湖南大学计算机科学与电子工程学院,标注可能为通讯作者) 作者列表:Dan Jiang(湖南大学计算机科学与电子工程学院),Bin Jiang*(湖南大学计算机科学与电子工程学院),Chao Yang(湖南大学计算机科学与电子工程学院),Jianbo Zheng(湖南大学计算机科学与电子工程学院) 💡 毒舌点评 论文的亮点在于将视觉大语言模型(VLLM)生成的帧级字幕作为一种“语义高亮”工具,并与音频信号一起,通过一个精心设计的门控融合模块整合进视频表示学习,思路清晰且有效。短板在于,其核心创新——利用现成VLLM生成字幕作为辅助模态——更像是一种巧妙的工程应用,而非根本性的方法论突破,且在音频模态的利用上相对浅层,未能深入挖掘其时序动态特性。 🔗 开源详情 ...

2026-04-29

ICASSP 2026 - 视频片段检索 论文列表

ICASSP 2026 - 视频片段检索 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Audio-Visual Feature Fusion for Calibrating Relevance Scores 7.0分 前25% 📋 论文详情 🥇 Audio-Visual Feature Fusion for Calibrating Relevance Scores of Video Moment Retrieval ✅ 7.0/10 | 前25% | #视频片段检索 | #晚期融合 | #重评分 #音视频 👥 作者与机构 第一作者:Takehiro Imamura(名古屋大学,LY Corporation) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Takehiro Imamura(名古屋大学, LY Corporation)、Tatsuya Komatsu(LY Corporation)、Hokuto Munakata(LY Corporation)、Tomoki Toda(名古屋大学) 💡 毒舌点评 这篇论文的亮点在于它精准地识别并试图解决DETR类模型在VMR中“定位准但排序乱”的痛点,提出的LARS模块设计清晰且与主流的早期融合形成完美互补。然而,其短板也相当明显:作为一项融合工作,创新性略显平淡(本质是一个轻量级的重评分网络),且未能与近年来可能更强的SOTA基线(如基于大型视频-语言模型的方法)进行对比,削弱了结论的冲击力。 🔗 开源详情 ...

2026-04-29

ICASSP 2026 - 视频理解 论文列表

ICASSP 2026 - 视频理解 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 SceneRAG: Scene-Level Retrieval-Augmented Generation for Vid 7.5分 前25% 📋 论文详情 🥇 SceneRAG: Scene-Level Retrieval-Augmented Generation for Video Understanding ✅ 7.5/10 | 前25% | #视频理解 | #检索增强生成 | #长视频理解 #场景分割 👥 作者与机构 第一作者:Nianbo Zeng(广东人工智能与数字经济实验室(SZ),深圳;深圳大学计算机科学与软件工程学院) 通讯作者:Si Shi(广东人工智能与数字经济实验室(SZ),深圳) 作者列表: Nianbo Zeng(广东人工智能与数字经济实验室(SZ),深圳;深圳大学计算机科学与软件工程学院) Haowen Hou(广东人工智能与数字经济实验室(SZ),深圳) F. Richard Yu(卡尔顿大学信息技术学院) Si Shi(广东人工智能与数字经济实验室(SZ),深圳) Ying Tiffany He(深圳大学计算机科学与软件工程学院) 💡 毒舌点评 亮点:它将视频理解从机械的“分块切割”提升到了拟人的“场景感知”,并通过动态知识图谱串联起碎片化的证据,在134小时的长视频测试中取得了最高达70.8%的胜率,证明了场景级单元对于长程推理的关键价值。短板:整个框架高度依赖LLM/VLM进行场景划分与描述,其准确性是上限,而论文对这一核心环节的误差传播与鲁棒性讨论略显不足;另外,未提供代码和模型权重,大大削弱了其可复现性。 🔗 开源详情 代码:论文中未提及提供SceneRAG框架本身的代码仓库链接。 模型权重:未提及公开SceneRAG框架下训练或微调的任何模型权重。 数据集:论文使用了公开基准LongerVideos和Video-MME,但未提及是否提供其处理后的场景分割标注或场景知识图谱数据。 Demo:未提及提供在线演示。 复现材料:论文给出了详细的算法描述(算法1)和方法流程,但缺乏具体的实现细节、超参数配置文件、训练日志等。硬件环境已说明(单卡3090)。 论文中引用的开源项目: ASR: Distil-Whisper [12] VLM: MiniCPM-V [14] 多模态编码器: ImageBind [24] 实体/片段检索嵌入: text-embedding-3-small (OpenAI) 图RAG基线: GraphRAG [18], LightRAG [19] 论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 视频生成 论文列表

ICASSP 2026 - 视频生成 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 StyHarmo: Efficient Style-Specific Video Generation with Mus 6.5分 前50% 🥈 VT-Heads: Voice Cloning and Talking Head Generation from Tex 6.5分 前50% 📋 论文详情 🥇 StyHarmo: Efficient Style-Specific Video Generation with Music Synchronization ✅ 6.5/10 | 前50% | #视频生成 | #扩散模型 | #音乐同步 👥 作者与机构 第一作者:Jialin Wang(华南师范大学人工智能学院) 通讯作者:Chaoqun Wang†(华南师范大学人工智能学院) 作者列表:Jialin Wang(华南师范大学人工智能学院)、Chaoqun Wang(华南师范大学人工智能学院)、Junjie Cai(华南师范大学人工智能学院)、Tianming Chen(华南师范大学人工智能学院) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 视频设备识别 论文列表

ICASSP 2026 - 视频设备识别 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 MFF-RVRDI: Multimodal Fusion Framework for Robust Video Reco 7.5分 前25% 📋 论文详情 🥇 MFF-RVRDI: Multimodal Fusion Framework for Robust Video Recording Device Identification ✅ 7.5/10 | 前25% | #视频设备识别 | #多模态融合 | #注意力机制 #鲁棒性 👥 作者与机构 第一作者:Wei Li(杭州电子科技大学计算机科学与技术学院) 通讯作者:Xingfa Shen(杭州电子科技大学计算机科学与技术学院,shenxf@hdu.edu.cn) 作者列表:Wei Li(杭州电子科技大学计算机科学与技术学院)、Yu Cao(杭州电子科技大学计算机科学与技术学院)、Xingfa Shen(杭州电子科技大学计算机科学与技术学院) 💡 毒舌点评 亮点:论文敏锐地抓住了“真实噪声下视频设备识别”这一实际痛点,并创新性地设计了SD-BCA模块来解决音视频对齐与融合的核心难题,实验数据也确实显示了其在低信噪比下的强大鲁棒性。短板:作为一篇顶会论文,在模型轻量化和效率上着墨不多,且完全缺少代码、模型和训练细节的公开,这对于一个强调“实用”和“部署”的框架来说,极大地削弱了其可验证性和后续影响力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开数据集QUFVD和Daxing。论文中未提及他们构建的噪声增强版本(QUFVD-NA, Daxing-NA)是否公开。 Demo:未提及。 复现材料:论文提供了一些训练参数(优化器、初始学习率、权重衰减、批大小)和硬件信息(A100 GPU),但缺少模型架构的详细配置(如层数、维度)、完整的训练过程(如总epoch数、验证策略)、以及具体的评估脚本,因此复现信息不充分。 论文中引用的开源项目:未提及依赖的特定开源模型或代码库,但使用了FFmpeg进行数据处理。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 视频问答 论文列表

ICASSP 2026 - 视频问答 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 DAMO: A Data-Efficient Multimodal Orchestrator for Temporal 7.0分 前25% 📋 论文详情 🥇 DAMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMS ✅ 7.0/10 | 前25% | #视频问答 | #多模态模型 | #时间定位 #渐进训练 👥 作者与机构 第一作者:Bo-Cheng Chiu (国立阳明交通大学人工智能学院) 通讯作者:未明确标注。根据贡献和机构排序,推测可能为通讯作者的是:Jen-Jee Chen (国立阳明交通大学人工智能学院), Yu-Chee Tseng (国立阳明交通大学人工智能学院), 或 An-Zi Yen (国立阳明交通大学计算机科学系)。论文中未明确指定。 作者列表:Bo-Cheng Chiu (国立阳明交通大学人工智能学院), Jen-Jee Chen (国立阳明交通大学人工智能学院), Yu-Chee Tseng (国立阳明交通大学人工智能学院), Feng-Chi Chen (国家卫生研究院人口健康科学研究所), An-Zi Yen (国立阳明交通大学计算机科学系) 💡 毒舌点评 ...

2026-04-29