ICASSP 2026 - 视觉语音识别 论文列表

ICASSP 2026 - 视觉语音识别 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 FDCNet: Frequency Domain Channel Attention and Convolution f 8.5分 前25% 🥈 Phoneme-Level Visual Speech Recognition via Point-Visual Fus 7.5分 前25% 📋 论文详情 🥇 FDCNet: Frequency Domain Channel Attention and Convolution for Lipreading 🔥 8.5/10 | 前25% | #视觉语音识别 | #频域处理 | #注意力机制 #数据增强 👥 作者与机构 第一作者:Qianxi Yan(浙江大学) 通讯作者:Qifei Zhang(浙江大学) 作者列表: Qianxi Yan(浙江大学) Qifei Zhang*(浙江大学,通讯作者) Lei Zhang(中国科学院大学) Linkun Yu(日本早稻田大学生产系统研究生院) Lei Sheng(宁波市知识产权保护中心) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 视频到音频生成 论文列表

ICASSP 2026 - 视频到音频生成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 V2A-DPO: Omni-Preference Optimization for Video-To-Audio Gen 7.5分 前25% 📋 论文详情 🥇 V2A-DPO: Omni-Preference Optimization for Video-To-Audio Generation ✅ 7.5/10 | 前25% | #视频到音频生成 | #直接偏好优化 | #音视频 #流匹配 👥 作者与机构 第一作者:Nolan Chan(The Chinese University of Hong Kong, Hong Kong SAR, China) 通讯作者:Dingdong Wang(The Chinese University of Hong Kong, Hong Kong SAR, China)(论文脚注中对应邮箱 yjchen@se.cuhk.edu.hk) 作者列表:Nolan Chan(The Chinese University of Hong Kong, Hong Kong SAR, China),Timmy Gang(National Research Council Canada, Canada),Yongqian Wang(The University of Warwick, UK),Yuzhe Liang(Shanghai Jiao Tong University, China),Dingdong Wang(The Chinese University of Hong Kong, Hong Kong SAR, China) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 视频检索 论文列表

ICASSP 2026 - 视频检索 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Caption and Audio-Guided Video Representation Learning with 7.0分 前25% 📋 论文详情 🥇 Caption and Audio-Guided Video Representation Learning with Gated Attention for Partially Relevant Video Retrieval ✅ 7.0/10 | 前25% | #视频检索 | #多模态模型 | #注意力机制 #视觉语言模型 👥 作者与机构 第一作者:Dan Jiang(湖南大学计算机科学与电子工程学院) 通讯作者:Bin Jiang(湖南大学计算机科学与电子工程学院,标注可能为通讯作者) 作者列表:Dan Jiang(湖南大学计算机科学与电子工程学院),Bin Jiang*(湖南大学计算机科学与电子工程学院),Chao Yang(湖南大学计算机科学与电子工程学院),Jianbo Zheng(湖南大学计算机科学与电子工程学院) 💡 毒舌点评 论文的亮点在于将视觉大语言模型(VLLM)生成的帧级字幕作为一种“语义高亮”工具,并与音频信号一起,通过一个精心设计的门控融合模块整合进视频表示学习,思路清晰且有效。短板在于,其核心创新——利用现成VLLM生成字幕作为辅助模态——更像是一种巧妙的工程应用,而非根本性的方法论突破,且在音频模态的利用上相对浅层,未能深入挖掘其时序动态特性。 🔗 开源详情 ...

2026-04-29

ICASSP 2026 - 视频片段检索 论文列表

ICASSP 2026 - 视频片段检索 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Audio-Visual Feature Fusion for Calibrating Relevance Scores 7.0分 前25% 📋 论文详情 🥇 Audio-Visual Feature Fusion for Calibrating Relevance Scores of Video Moment Retrieval ✅ 7.0/10 | 前25% | #视频片段检索 | #晚期融合 | #重评分 #音视频 👥 作者与机构 第一作者:Takehiro Imamura(名古屋大学,LY Corporation) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Takehiro Imamura(名古屋大学, LY Corporation)、Tatsuya Komatsu(LY Corporation)、Hokuto Munakata(LY Corporation)、Tomoki Toda(名古屋大学) 💡 毒舌点评 这篇论文的亮点在于它精准地识别并试图解决DETR类模型在VMR中“定位准但排序乱”的痛点,提出的LARS模块设计清晰且与主流的早期融合形成完美互补。然而,其短板也相当明显:作为一项融合工作,创新性略显平淡(本质是一个轻量级的重评分网络),且未能与近年来可能更强的SOTA基线(如基于大型视频-语言模型的方法)进行对比,削弱了结论的冲击力。 🔗 开源详情 ...

2026-04-29

ICASSP 2026 - 视频理解 论文列表

ICASSP 2026 - 视频理解 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 SceneRAG: Scene-Level Retrieval-Augmented Generation for Vid 7.5分 前25% 📋 论文详情 🥇 SceneRAG: Scene-Level Retrieval-Augmented Generation for Video Understanding ✅ 7.5/10 | 前25% | #视频理解 | #检索增强生成 | #长视频理解 #场景分割 👥 作者与机构 第一作者:Nianbo Zeng(广东人工智能与数字经济实验室(SZ),深圳;深圳大学计算机科学与软件工程学院) 通讯作者:Si Shi(广东人工智能与数字经济实验室(SZ),深圳) 作者列表: Nianbo Zeng(广东人工智能与数字经济实验室(SZ),深圳;深圳大学计算机科学与软件工程学院) Haowen Hou(广东人工智能与数字经济实验室(SZ),深圳) F. Richard Yu(卡尔顿大学信息技术学院) Si Shi(广东人工智能与数字经济实验室(SZ),深圳) Ying Tiffany He(深圳大学计算机科学与软件工程学院) 💡 毒舌点评 亮点:它将视频理解从机械的“分块切割”提升到了拟人的“场景感知”,并通过动态知识图谱串联起碎片化的证据,在134小时的长视频测试中取得了最高达70.8%的胜率,证明了场景级单元对于长程推理的关键价值。短板:整个框架高度依赖LLM/VLM进行场景划分与描述,其准确性是上限,而论文对这一核心环节的误差传播与鲁棒性讨论略显不足;另外,未提供代码和模型权重,大大削弱了其可复现性。 🔗 开源详情 代码:论文中未提及提供SceneRAG框架本身的代码仓库链接。 模型权重:未提及公开SceneRAG框架下训练或微调的任何模型权重。 数据集:论文使用了公开基准LongerVideos和Video-MME,但未提及是否提供其处理后的场景分割标注或场景知识图谱数据。 Demo:未提及提供在线演示。 复现材料:论文给出了详细的算法描述(算法1)和方法流程,但缺乏具体的实现细节、超参数配置文件、训练日志等。硬件环境已说明(单卡3090)。 论文中引用的开源项目: ASR: Distil-Whisper [12] VLM: MiniCPM-V [14] 多模态编码器: ImageBind [24] 实体/片段检索嵌入: text-embedding-3-small (OpenAI) 图RAG基线: GraphRAG [18], LightRAG [19] 论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 视频生成 论文列表

ICASSP 2026 - 视频生成 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 StyHarmo: Efficient Style-Specific Video Generation with Mus 6.5分 前50% 🥈 VT-Heads: Voice Cloning and Talking Head Generation from Tex 6.5分 前50% 📋 论文详情 🥇 StyHarmo: Efficient Style-Specific Video Generation with Music Synchronization ✅ 6.5/10 | 前50% | #视频生成 | #扩散模型 | #音乐同步 👥 作者与机构 第一作者:Jialin Wang(华南师范大学人工智能学院) 通讯作者:Chaoqun Wang†(华南师范大学人工智能学院) 作者列表:Jialin Wang(华南师范大学人工智能学院)、Chaoqun Wang(华南师范大学人工智能学院)、Junjie Cai(华南师范大学人工智能学院)、Tianming Chen(华南师范大学人工智能学院) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 视频设备识别 论文列表

ICASSP 2026 - 视频设备识别 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 MFF-RVRDI: Multimodal Fusion Framework for Robust Video Reco 7.5分 前25% 📋 论文详情 🥇 MFF-RVRDI: Multimodal Fusion Framework for Robust Video Recording Device Identification ✅ 7.5/10 | 前25% | #视频设备识别 | #多模态融合 | #注意力机制 #鲁棒性 👥 作者与机构 第一作者:Wei Li(杭州电子科技大学计算机科学与技术学院) 通讯作者:Xingfa Shen(杭州电子科技大学计算机科学与技术学院,shenxf@hdu.edu.cn) 作者列表:Wei Li(杭州电子科技大学计算机科学与技术学院)、Yu Cao(杭州电子科技大学计算机科学与技术学院)、Xingfa Shen(杭州电子科技大学计算机科学与技术学院) 💡 毒舌点评 亮点:论文敏锐地抓住了“真实噪声下视频设备识别”这一实际痛点,并创新性地设计了SD-BCA模块来解决音视频对齐与融合的核心难题,实验数据也确实显示了其在低信噪比下的强大鲁棒性。短板:作为一篇顶会论文,在模型轻量化和效率上着墨不多,且完全缺少代码、模型和训练细节的公开,这对于一个强调“实用”和“部署”的框架来说,极大地削弱了其可验证性和后续影响力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开数据集QUFVD和Daxing。论文中未提及他们构建的噪声增强版本(QUFVD-NA, Daxing-NA)是否公开。 Demo:未提及。 复现材料:论文提供了一些训练参数(优化器、初始学习率、权重衰减、批大小)和硬件信息(A100 GPU),但缺少模型架构的详细配置(如层数、维度)、完整的训练过程(如总epoch数、验证策略)、以及具体的评估脚本,因此复现信息不充分。 论文中引用的开源项目:未提及依赖的特定开源模型或代码库,但使用了FFmpeg进行数据处理。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 视频问答 论文列表

ICASSP 2026 - 视频问答 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 DAMO: A Data-Efficient Multimodal Orchestrator for Temporal 7.0分 前25% 📋 论文详情 🥇 DAMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMS ✅ 7.0/10 | 前25% | #视频问答 | #多模态模型 | #时间定位 #渐进训练 👥 作者与机构 第一作者:Bo-Cheng Chiu (国立阳明交通大学人工智能学院) 通讯作者:未明确标注。根据贡献和机构排序,推测可能为通讯作者的是:Jen-Jee Chen (国立阳明交通大学人工智能学院), Yu-Chee Tseng (国立阳明交通大学人工智能学院), 或 An-Zi Yen (国立阳明交通大学计算机科学系)。论文中未明确指定。 作者列表:Bo-Cheng Chiu (国立阳明交通大学人工智能学院), Jen-Jee Chen (国立阳明交通大学人工智能学院), Yu-Chee Tseng (国立阳明交通大学人工智能学院), Feng-Chi Chen (国家卫生研究院人口健康科学研究所), An-Zi Yen (国立阳明交通大学计算机科学系) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 视频高光检测 论文列表

ICASSP 2026 - 视频高光检测 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Sounding Highlights: Dual-Pathway Audio Encoders for Audio-V 8.5分 前10% 📋 论文详情 🥇 Sounding Highlights: Dual-Pathway Audio Encoders for Audio-Visual Video Highlight Detection 🔥 8.5/10 | 前10% | #视频高光检测 | #多模态融合 | #音视频 #自适应模型 👥 作者与机构 第一作者:Seohyun Joo(GIST电气工程与计算机科学学院) 通讯作者:论文中未明确说明通讯作者。 作者列表:Seohyun Joo(GIST电气工程与计算机科学学院)、Yoori Oh(首尔国立大学音乐与音频研究组) 💡 毒舌点评 亮点在于其“双通路”音频编码器的设计非常精巧,通过一个动态通路显式捕获频谱动态(如突变声音事件),并与语义通路进行门控式融合,有效解决了以往音频特征利用不足的痛点,在大规模数据集上效果显著。短板是其在较小规模、类别更多样的TVSum数据集上优势不明显,可能暗示模型的泛化能力或对不同视频风格的适应性仍有提升空间。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及。 数据集:使用了Mr.HiSum和TVSum公开数据集,但未在文中提供获取方式链接(假设读者已知)。 Demo:提供了在线演示链接:https://seohyj.github.io/soundhd.github.io/。 复现材料:提供了详细的训练细节(优化器、学习率、批量大小、训练轮数、权重衰减、梯度裁剪)、关键超参数(K值、特征维度、频谱图参数)和模型架构描述,便于复现。 论文中引用的开源项目:引用了多个预训练模型作为基线或组件,包括PANNs (用于音频语义编码器)、ResNet-34、Inception-v3 (用于视觉编码器),以及作为基线比较的PGL-SUM, Joint-VA, UMT, CSTA等。 总结:论文中未提及开源计划,但提供了Demo和详细的复现参数。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 语音伪造检测 论文列表

ICASSP 2026 - 语音伪造检测 共 8 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning fo 8.0分 前25% 🥈 Fine-Grained Frame Modeling in Multi-Head Self-Attention for 8.0分 前25% 🥉 Detecting and Attributing Synthetic Spanish Speech: The HISP 7.5分 前25% 4. Multi-Task Transformer for Explainable Speech Deepfake Detec 7.5分 前25% 5. Fake Speech Wild: Detecting Deepfake Speech on Social Media 7.0分 前25% 6. Addressing Gradient Misalignment in Data-Augmented Training 7.0分 前25% 7. Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Anal 7.0分 前25% 8. Tri-Attention Fusion: Joint Temporal-Spectral and Bidirectio 7.0分 前25% 📋 论文详情 🥇 WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning for Speech Deepfake Detection 🔥 8.0/10 | 前25% | #语音伪造检测 | #时频分析 #预训练 | #时频分析 #预训练 ...

2026-04-29