Icassp-2026

ICASSP 2026 - 视频片段检索论文列表

ICASSP 2026 - 视频片段检索共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Audio-Visual Feature Fusion for Calibrating Relevance Scores 7.0分前25% 📋 论文详情 🥇 Audio-Visual Feature Fusion for Calibrating Relevance Scores of Video Moment Retrieval ✅ 7.0/10 | 前25% | #视频片段检索 | #晚期融合 | #重评分 #音视频 👥 作者与机构第一作者：Takehiro Imamura（名古屋大学，LY Corporation）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Takehiro Imamura（名古屋大学, LY Corporation）、Tatsuya Komatsu（LY Corporation）、Hokuto Munakata（LY Corporation）、Tomoki Toda（名古屋大学） 💡 毒舌点评这篇论文的亮点在于它精准地识别并试图解决DETR类模型在VMR中“定位准但排序乱”的痛点，提出的LARS模块设计清晰且与主流的早期融合形成完美互补。然而，其短板也相当明显：作为一项融合工作，创新性略显平淡（本质是一个轻量级的重评分网络），且未能与近年来可能更强的SOTA基线（如基于大型视频-语言模型的方法）进行对比，削弱了结论的冲击力。 🔗 开源详情 ...

ICASSP 2026 - 视频理解论文列表

ICASSP 2026 - 视频理解共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 SceneRAG: Scene-Level Retrieval-Augmented Generation for Vid 7.5分前25% 📋 论文详情 🥇 SceneRAG: Scene-Level Retrieval-Augmented Generation for Video Understanding ✅ 7.5/10 | 前25% | #视频理解 | #检索增强生成 | #长视频理解 #场景分割 👥 作者与机构第一作者：Nianbo Zeng（广东人工智能与数字经济实验室（SZ），深圳；深圳大学计算机科学与软件工程学院）通讯作者：Si Shi（广东人工智能与数字经济实验室（SZ），深圳）作者列表： Nianbo Zeng（广东人工智能与数字经济实验室（SZ），深圳；深圳大学计算机科学与软件工程学院） Haowen Hou（广东人工智能与数字经济实验室（SZ），深圳） F. Richard Yu（卡尔顿大学信息技术学院） Si Shi（广东人工智能与数字经济实验室（SZ），深圳） Ying Tiffany He（深圳大学计算机科学与软件工程学院） 💡 毒舌点评亮点：它将视频理解从机械的“分块切割”提升到了拟人的“场景感知”，并通过动态知识图谱串联起碎片化的证据，在134小时的长视频测试中取得了最高达70.8%的胜率，证明了场景级单元对于长程推理的关键价值。短板：整个框架高度依赖LLM/VLM进行场景划分与描述，其准确性是上限，而论文对这一核心环节的误差传播与鲁棒性讨论略显不足；另外，未提供代码和模型权重，大大削弱了其可复现性。 🔗 开源详情代码：论文中未提及提供SceneRAG框架本身的代码仓库链接。模型权重：未提及公开SceneRAG框架下训练或微调的任何模型权重。数据集：论文使用了公开基准LongerVideos和Video-MME，但未提及是否提供其处理后的场景分割标注或场景知识图谱数据。 Demo：未提及提供在线演示。复现材料：论文给出了详细的算法描述（算法1）和方法流程，但缺乏具体的实现细节、超参数配置文件、训练日志等。硬件环境已说明（单卡3090）。论文中引用的开源项目： ASR: Distil-Whisper [12] VLM: MiniCPM-V [14] 多模态编码器: ImageBind [24] 实体/片段检索嵌入: text-embedding-3-small (OpenAI) 图RAG基线: GraphRAG [18], LightRAG [19] 论文中未提及开源计划。 📌 核心摘要 ...

ICASSP 2026 - 视频生成论文列表

ICASSP 2026 - 视频生成共 2 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 StyHarmo: Efficient Style-Specific Video Generation with Mus 6.5分前50% 🥈 VT-Heads: Voice Cloning and Talking Head Generation from Tex 6.5分前50% 📋 论文详情 🥇 StyHarmo: Efficient Style-Specific Video Generation with Music Synchronization ✅ 6.5/10 | 前50% | #视频生成 | #扩散模型 | #音乐同步 👥 作者与机构第一作者：Jialin Wang（华南师范大学人工智能学院）通讯作者：Chaoqun Wang†（华南师范大学人工智能学院）作者列表：Jialin Wang（华南师范大学人工智能学院）、Chaoqun Wang（华南师范大学人工智能学院）、Junjie Cai（华南师范大学人工智能学院）、Tianming Chen（华南师范大学人工智能学院） 💡 毒舌点评 ...

ICASSP 2026 - 视频设备识别论文列表

ICASSP 2026 - 视频设备识别共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 MFF-RVRDI: Multimodal Fusion Framework for Robust Video Reco 7.5分前25% 📋 论文详情 🥇 MFF-RVRDI: Multimodal Fusion Framework for Robust Video Recording Device Identification ✅ 7.5/10 | 前25% | #视频设备识别 | #多模态融合 | #注意力机制 #鲁棒性 👥 作者与机构第一作者：Wei Li（杭州电子科技大学计算机科学与技术学院）通讯作者：Xingfa Shen（杭州电子科技大学计算机科学与技术学院，shenxf@hdu.edu.cn）作者列表：Wei Li（杭州电子科技大学计算机科学与技术学院）、Yu Cao（杭州电子科技大学计算机科学与技术学院）、Xingfa Shen（杭州电子科技大学计算机科学与技术学院） 💡 毒舌点评亮点：论文敏锐地抓住了“真实噪声下视频设备识别”这一实际痛点，并创新性地设计了SD-BCA模块来解决音视频对齐与融合的核心难题，实验数据也确实显示了其在低信噪比下的强大鲁棒性。短板：作为一篇顶会论文，在模型轻量化和效率上着墨不多，且完全缺少代码、模型和训练细节的公开，这对于一个强调“实用”和“部署”的框架来说，极大地削弱了其可验证性和后续影响力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开数据集QUFVD和Daxing。论文中未提及他们构建的噪声增强版本（QUFVD-NA， Daxing-NA）是否公开。 Demo：未提及。复现材料：论文提供了一些训练参数（优化器、初始学习率、权重衰减、批大小）和硬件信息（A100 GPU），但缺少模型架构的详细配置（如层数、维度）、完整的训练过程（如总epoch数、验证策略）、以及具体的评估脚本，因此复现信息不充分。论文中引用的开源项目：未提及依赖的特定开源模型或代码库，但使用了FFmpeg进行数据处理。 📌 核心摘要 ...

ICASSP 2026 - 视频问答论文列表

ICASSP 2026 - 视频问答共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 DAMO: A Data-Efficient Multimodal Orchestrator for Temporal 7.0分前25% 📋 论文详情 🥇 DAMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMS ✅ 7.0/10 | 前25% | #视频问答 | #多模态模型 | #时间定位 #渐进训练 👥 作者与机构第一作者：Bo-Cheng Chiu (国立阳明交通大学人工智能学院) 通讯作者：未明确标注。根据贡献和机构排序，推测可能为通讯作者的是：Jen-Jee Chen (国立阳明交通大学人工智能学院)， Yu-Chee Tseng (国立阳明交通大学人工智能学院)，或 An-Zi Yen (国立阳明交通大学计算机科学系)。论文中未明确指定。作者列表：Bo-Cheng Chiu (国立阳明交通大学人工智能学院)， Jen-Jee Chen (国立阳明交通大学人工智能学院)， Yu-Chee Tseng (国立阳明交通大学人工智能学院)， Feng-Chi Chen (国家卫生研究院人口健康科学研究所)， An-Zi Yen (国立阳明交通大学计算机科学系) 💡 毒舌点评 ...

ICASSP 2026 - 视频高光检测论文列表

ICASSP 2026 - 视频高光检测共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Sounding Highlights: Dual-Pathway Audio Encoders for Audio-V 8.5分前10% 📋 论文详情 🥇 Sounding Highlights: Dual-Pathway Audio Encoders for Audio-Visual Video Highlight Detection 🔥 8.5/10 | 前10% | #视频高光检测 | #多模态融合 | #音视频 #自适应模型 👥 作者与机构第一作者：Seohyun Joo（GIST电气工程与计算机科学学院）通讯作者：论文中未明确说明通讯作者。作者列表：Seohyun Joo（GIST电气工程与计算机科学学院）、Yoori Oh（首尔国立大学音乐与音频研究组） 💡 毒舌点评亮点在于其“双通路”音频编码器的设计非常精巧，通过一个动态通路显式捕获频谱动态（如突变声音事件），并与语义通路进行门控式融合，有效解决了以往音频特征利用不足的痛点，在大规模数据集上效果显著。短板是其在较小规模、类别更多样的TVSum数据集上优势不明显，可能暗示模型的泛化能力或对不同视频风格的适应性仍有提升空间。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：使用了Mr.HiSum和TVSum公开数据集，但未在文中提供获取方式链接（假设读者已知）。 Demo：提供了在线演示链接：https://seohyj.github.io/soundhd.github.io/。复现材料：提供了详细的训练细节（优化器、学习率、批量大小、训练轮数、权重衰减、梯度裁剪）、关键超参数（K值、特征维度、频谱图参数）和模型架构描述，便于复现。论文中引用的开源项目：引用了多个预训练模型作为基线或组件，包括PANNs (用于音频语义编码器)、ResNet-34、Inception-v3 (用于视觉编码器)，以及作为基线比较的PGL-SUM, Joint-VA, UMT, CSTA等。总结：论文中未提及开源计划，但提供了Demo和详细的复现参数。 📌 核心摘要 ...

ICASSP 2026 - 语音伪造检测论文列表

ICASSP 2026 - 语音伪造检测共 8 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning fo 8.0分前25% 🥈 Fine-Grained Frame Modeling in Multi-Head Self-Attention for 8.0分前25% 🥉 Detecting and Attributing Synthetic Spanish Speech: The HISP 7.5分前25% 4. Multi-Task Transformer for Explainable Speech Deepfake Detec 7.5分前25% 5. Fake Speech Wild: Detecting Deepfake Speech on Social Media 7.0分前25% 6. Addressing Gradient Misalignment in Data-Augmented Training 7.0分前25% 7. Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Anal 7.0分前25% 8. Tri-Attention Fusion: Joint Temporal-Spectral and Bidirectio 7.0分前25% 📋 论文详情 🥇 WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning for Speech Deepfake Detection 🔥 8.0/10 | 前25% | #语音伪造检测 | #时频分析 #预训练 | #时频分析 #预训练 ...

ICASSP 2026 - 语音克隆论文列表

ICASSP 2026 - 语音克隆共 4 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Dis 9.0分前10% 🥈 FED-PISA: Federated Voice Cloning Via Personalized Identity- 8.0分前25% 🥉 Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Clonin 7.5分前25% 4. ZSV2C-MLLM: Zero-Shot Visual Voice Cloning Via Multimodal La 6.5分前50% 📋 论文详情 🥇 VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Disentangled Embeddings 🔥 9.0/10 | 前10% | #语音克隆 | #流匹配 | #零样本 #语音合成 ...

ICASSP 2026 - 语音分离论文列表

ICASSP 2026 - 语音分离共 25 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Adaptive Rotary Steering with Joint Autoregression for Robus 8.5分前25% 🥈 UNMIXX: Untangling Highly Correlated Singing Voices Mixtures 8.5分前25% 🥉 Brainprint-Modulated Target Speaker Extraction 8.0分前25% 4. Flexio: Flexible Single- and Multi-Channel Speech Separation 8.0分前25% 5. MMAudioSep: Taming Video-to-Audio Generative Model Towards V 8.0分前25% 6. Bayesian Signal Separation Via Plug-and-Play Diffusion-Withi 7.5分前25% 7. An Audio-Visual Speech Separation Network with Joint Cross-A 7.5分前25% 8. Aneural Forward Filtering for Speaker-Image Separation 7.5分前25% 9. Str-DiffSep: Streamable Diffusion Model for Speech Separatio 7.5分前25% 10. PromptSep: Generative Audio Separation Via Multimodal Prompt 7.5分前10% 11. Diff-vs: Efficient Audio-Aware Diffusion U-Net for Vocals Se 7.5分前25% 12. CodeSep: Low-Bitrate Codec-Driven Speech Separation with Bas 7.5分前25% 13. SLM-SS: Speech Language Model for Generative Speech Separati 7.5分前25% 14. VM-UNSSOR: Unsupervised Neural Speech Separation Enhanced by 7.5分前25% 15. SoundCompass: Navigating Target Sound Extraction with Effect 7.5分前25% 16. Prototype-Guided Cross-Modal Contrastive Learning for Contin 7.5分前25% 17. EEG and Eye-Tracking Driven Dynamic Target Speaker Extractio 7.0分前25% 18. Robust Online Overdetermined Independent Vector Analysis Bas 7.0分前25% 19. AR-BSNet: Towards Ultra-Low Complexity Autoregressive Target 7.0分前25% 20. Spectral or Spatial? Leveraging Both for Speaker Extraction 7.0分前25% 21. Neural Network-Based Time-Frequency-Bin-Wise Linear Combinat 7.0分前25% 22. Training Dynamics-Aware Multi-Factor Curriculum Learning for 7.0分前25% 23. Vib2Sound: Separation Of Multimodal Sound Sources 6.5分前50% 24. Source Separation For A Cappella Music 6.5分前50% 25. Towards Distance-Aware Synthetic Audio Mixtures for Universa 6.5分前50% 📋 论文详情 🥇 Adaptive Rotary Steering with Joint Autoregression for Robust Extraction of Closely Moving Speakers in Dynamic Scenarios 🔥 8.5/10 | 前25% | #语音分离 | #信号处理 | #麦克风阵列 #自回归模型 ...

ICASSP 2026 - 语音匿名化论文列表

ICASSP 2026 - 语音匿名化共 10 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 ECSA: Dual-Branch Emotion Compensation for Emotion-Consisten 8.5分前25% 🥈 Target Speaker Anonymization in Multi-Speaker Recordings 7.6分前50% 🥉 Content Anonymization for Privacy in Long-Form Audio 7.5分前25% 4. Content Leakage in Librispeech and its Impact on the Privacy 7.5分前25% 5. Improving the Speaker Anonymization Evaluation’s Robustness 7.5分前50% 6. ZK-VSA: Zero-Knowledge Verifiable Speaker Anonymization Leve 7.5分前25% 7. Speaker Anonymisation for Speech-Based Suicide Risk Detectio 7.5分前25% 8. PRSA: Preventing Malicious Speaker Recognition and Speech Sy 7.0分前25% 9. Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker An 7.0分前25% 10. Identity Leakage Through Accent Cues in Voice Anonymisation 7.0分前50% 📋 论文详情 🥇 ECSA: Dual-Branch Emotion Compensation for Emotion-Consistent Speaker Anonymization 🔥 8.5/10 | 前25% | #语音匿名化 | #生成模型 | #语音情感识别 #自监督学习 ...