ICASSP 2026 - 视频理解 论文列表

ICASSP 2026 - 视频理解 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 SceneRAG: Scene-Level Retrieval-Augmented Generation for Vid 7.5分 前25% 📋 论文详情 🥇 SceneRAG: Scene-Level Retrieval-Augmented Generation for Video Understanding ✅ 7.5/10 | 前25% | #视频理解 | #检索增强生成 | #长视频理解 #场景分割 👥 作者与机构 第一作者:Nianbo Zeng(广东人工智能与数字经济实验室(SZ),深圳;深圳大学计算机科学与软件工程学院) 通讯作者:Si Shi(广东人工智能与数字经济实验室(SZ),深圳) 作者列表: Nianbo Zeng(广东人工智能与数字经济实验室(SZ),深圳;深圳大学计算机科学与软件工程学院) Haowen Hou(广东人工智能与数字经济实验室(SZ),深圳) F. Richard Yu(卡尔顿大学信息技术学院) Si Shi(广东人工智能与数字经济实验室(SZ),深圳) Ying Tiffany He(深圳大学计算机科学与软件工程学院) 💡 毒舌点评 亮点:它将视频理解从机械的“分块切割”提升到了拟人的“场景感知”,并通过动态知识图谱串联起碎片化的证据,在134小时的长视频测试中取得了最高达70.8%的胜率,证明了场景级单元对于长程推理的关键价值。短板:整个框架高度依赖LLM/VLM进行场景划分与描述,其准确性是上限,而论文对这一核心环节的误差传播与鲁棒性讨论略显不足;另外,未提供代码和模型权重,大大削弱了其可复现性。 🔗 开源详情 代码:论文中未提及提供SceneRAG框架本身的代码仓库链接。 模型权重:未提及公开SceneRAG框架下训练或微调的任何模型权重。 数据集:论文使用了公开基准LongerVideos和Video-MME,但未提及是否提供其处理后的场景分割标注或场景知识图谱数据。 Demo:未提及提供在线演示。 复现材料:论文给出了详细的算法描述(算法1)和方法流程,但缺乏具体的实现细节、超参数配置文件、训练日志等。硬件环境已说明(单卡3090)。 论文中引用的开源项目: ASR: Distil-Whisper [12] VLM: MiniCPM-V [14] 多模态编码器: ImageBind [24] 实体/片段检索嵌入: text-embedding-3-small (OpenAI) 图RAG基线: GraphRAG [18], LightRAG [19] 论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 视频生成 论文列表

ICASSP 2026 - 视频生成 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 StyHarmo: Efficient Style-Specific Video Generation with Mus 6.5分 前50% 🥈 VT-Heads: Voice Cloning and Talking Head Generation from Tex 6.5分 前50% 📋 论文详情 🥇 StyHarmo: Efficient Style-Specific Video Generation with Music Synchronization ✅ 6.5/10 | 前50% | #视频生成 | #扩散模型 | #音乐同步 👥 作者与机构 第一作者:Jialin Wang(华南师范大学人工智能学院) 通讯作者:Chaoqun Wang†(华南师范大学人工智能学院) 作者列表:Jialin Wang(华南师范大学人工智能学院)、Chaoqun Wang(华南师范大学人工智能学院)、Junjie Cai(华南师范大学人工智能学院)、Tianming Chen(华南师范大学人工智能学院) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 视频设备识别 论文列表

ICASSP 2026 - 视频设备识别 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 MFF-RVRDI: Multimodal Fusion Framework for Robust Video Reco 7.5分 前25% 📋 论文详情 🥇 MFF-RVRDI: Multimodal Fusion Framework for Robust Video Recording Device Identification ✅ 7.5/10 | 前25% | #视频设备识别 | #多模态融合 | #注意力机制 #鲁棒性 👥 作者与机构 第一作者:Wei Li(杭州电子科技大学计算机科学与技术学院) 通讯作者:Xingfa Shen(杭州电子科技大学计算机科学与技术学院,shenxf@hdu.edu.cn) 作者列表:Wei Li(杭州电子科技大学计算机科学与技术学院)、Yu Cao(杭州电子科技大学计算机科学与技术学院)、Xingfa Shen(杭州电子科技大学计算机科学与技术学院) 💡 毒舌点评 亮点:论文敏锐地抓住了“真实噪声下视频设备识别”这一实际痛点,并创新性地设计了SD-BCA模块来解决音视频对齐与融合的核心难题,实验数据也确实显示了其在低信噪比下的强大鲁棒性。短板:作为一篇顶会论文,在模型轻量化和效率上着墨不多,且完全缺少代码、模型和训练细节的公开,这对于一个强调“实用”和“部署”的框架来说,极大地削弱了其可验证性和后续影响力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开数据集QUFVD和Daxing。论文中未提及他们构建的噪声增强版本(QUFVD-NA, Daxing-NA)是否公开。 Demo:未提及。 复现材料:论文提供了一些训练参数(优化器、初始学习率、权重衰减、批大小)和硬件信息(A100 GPU),但缺少模型架构的详细配置(如层数、维度)、完整的训练过程(如总epoch数、验证策略)、以及具体的评估脚本,因此复现信息不充分。 论文中引用的开源项目:未提及依赖的特定开源模型或代码库,但使用了FFmpeg进行数据处理。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 视频问答 论文列表

ICASSP 2026 - 视频问答 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 DAMO: A Data-Efficient Multimodal Orchestrator for Temporal 7.0分 前25% 📋 论文详情 🥇 DAMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMS ✅ 7.0/10 | 前25% | #视频问答 | #多模态模型 | #时间定位 #渐进训练 👥 作者与机构 第一作者:Bo-Cheng Chiu (国立阳明交通大学人工智能学院) 通讯作者:未明确标注。根据贡献和机构排序,推测可能为通讯作者的是:Jen-Jee Chen (国立阳明交通大学人工智能学院), Yu-Chee Tseng (国立阳明交通大学人工智能学院), 或 An-Zi Yen (国立阳明交通大学计算机科学系)。论文中未明确指定。 作者列表:Bo-Cheng Chiu (国立阳明交通大学人工智能学院), Jen-Jee Chen (国立阳明交通大学人工智能学院), Yu-Chee Tseng (国立阳明交通大学人工智能学院), Feng-Chi Chen (国家卫生研究院人口健康科学研究所), An-Zi Yen (国立阳明交通大学计算机科学系) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 视频高光检测 论文列表

ICASSP 2026 - 视频高光检测 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Sounding Highlights: Dual-Pathway Audio Encoders for Audio-V 8.5分 前10% 📋 论文详情 🥇 Sounding Highlights: Dual-Pathway Audio Encoders for Audio-Visual Video Highlight Detection 🔥 8.5/10 | 前10% | #视频高光检测 | #多模态融合 | #音视频 #自适应模型 👥 作者与机构 第一作者:Seohyun Joo(GIST电气工程与计算机科学学院) 通讯作者:论文中未明确说明通讯作者。 作者列表:Seohyun Joo(GIST电气工程与计算机科学学院)、Yoori Oh(首尔国立大学音乐与音频研究组) 💡 毒舌点评 亮点在于其“双通路”音频编码器的设计非常精巧,通过一个动态通路显式捕获频谱动态(如突变声音事件),并与语义通路进行门控式融合,有效解决了以往音频特征利用不足的痛点,在大规模数据集上效果显著。短板是其在较小规模、类别更多样的TVSum数据集上优势不明显,可能暗示模型的泛化能力或对不同视频风格的适应性仍有提升空间。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及。 数据集:使用了Mr.HiSum和TVSum公开数据集,但未在文中提供获取方式链接(假设读者已知)。 Demo:提供了在线演示链接:https://seohyj.github.io/soundhd.github.io/。 复现材料:提供了详细的训练细节(优化器、学习率、批量大小、训练轮数、权重衰减、梯度裁剪)、关键超参数(K值、特征维度、频谱图参数)和模型架构描述,便于复现。 论文中引用的开源项目:引用了多个预训练模型作为基线或组件,包括PANNs (用于音频语义编码器)、ResNet-34、Inception-v3 (用于视觉编码器),以及作为基线比较的PGL-SUM, Joint-VA, UMT, CSTA等。 总结:论文中未提及开源计划,但提供了Demo和详细的复现参数。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 语音伪造检测 论文列表

ICASSP 2026 - 语音伪造检测 共 8 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning fo 8.0分 前25% 🥈 Fine-Grained Frame Modeling in Multi-Head Self-Attention for 8.0分 前25% 🥉 Detecting and Attributing Synthetic Spanish Speech: The HISP 7.5分 前25% 4. Multi-Task Transformer for Explainable Speech Deepfake Detec 7.5分 前25% 5. Fake Speech Wild: Detecting Deepfake Speech on Social Media 7.0分 前25% 6. Addressing Gradient Misalignment in Data-Augmented Training 7.0分 前25% 7. Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Anal 7.0分 前25% 8. Tri-Attention Fusion: Joint Temporal-Spectral and Bidirectio 7.0分 前25% 📋 论文详情 🥇 WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning for Speech Deepfake Detection 🔥 8.0/10 | 前25% | #语音伪造检测 | #时频分析 #预训练 | #时频分析 #预训练 ...

2026-04-29

ICASSP 2026 - 语音克隆 论文列表

ICASSP 2026 - 语音克隆 共 4 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Dis 9.0分 前10% 🥈 FED-PISA: Federated Voice Cloning Via Personalized Identity- 8.0分 前25% 🥉 Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Clonin 7.5分 前25% 4. ZSV2C-MLLM: Zero-Shot Visual Voice Cloning Via Multimodal La 6.5分 前50% 📋 论文详情 🥇 VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Disentangled Embeddings 🔥 9.0/10 | 前10% | #语音克隆 | #流匹配 | #零样本 #语音合成 ...

2026-04-29

ICASSP 2026 - 语音分离 论文列表

ICASSP 2026 - 语音分离 共 25 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Adaptive Rotary Steering with Joint Autoregression for Robus 8.5分 前25% 🥈 UNMIXX: Untangling Highly Correlated Singing Voices Mixtures 8.5分 前25% 🥉 Brainprint-Modulated Target Speaker Extraction 8.0分 前25% 4. Flexio: Flexible Single- and Multi-Channel Speech Separation 8.0分 前25% 5. MMAudioSep: Taming Video-to-Audio Generative Model Towards V 8.0分 前25% 6. Bayesian Signal Separation Via Plug-and-Play Diffusion-Withi 7.5分 前25% 7. An Audio-Visual Speech Separation Network with Joint Cross-A 7.5分 前25% 8. Aneural Forward Filtering for Speaker-Image Separation 7.5分 前25% 9. Str-DiffSep: Streamable Diffusion Model for Speech Separatio 7.5分 前25% 10. PromptSep: Generative Audio Separation Via Multimodal Prompt 7.5分 前10% 11. Diff-vs: Efficient Audio-Aware Diffusion U-Net for Vocals Se 7.5分 前25% 12. CodeSep: Low-Bitrate Codec-Driven Speech Separation with Bas 7.5分 前25% 13. SLM-SS: Speech Language Model for Generative Speech Separati 7.5分 前25% 14. VM-UNSSOR: Unsupervised Neural Speech Separation Enhanced by 7.5分 前25% 15. SoundCompass: Navigating Target Sound Extraction with Effect 7.5分 前25% 16. Prototype-Guided Cross-Modal Contrastive Learning for Contin 7.5分 前25% 17. EEG and Eye-Tracking Driven Dynamic Target Speaker Extractio 7.0分 前25% 18. Robust Online Overdetermined Independent Vector Analysis Bas 7.0分 前25% 19. AR-BSNet: Towards Ultra-Low Complexity Autoregressive Target 7.0分 前25% 20. Spectral or Spatial? Leveraging Both for Speaker Extraction 7.0分 前25% 21. Neural Network-Based Time-Frequency-Bin-Wise Linear Combinat 7.0分 前25% 22. Training Dynamics-Aware Multi-Factor Curriculum Learning for 7.0分 前25% 23. Vib2Sound: Separation Of Multimodal Sound Sources 6.5分 前50% 24. Source Separation For A Cappella Music 6.5分 前50% 25. Towards Distance-Aware Synthetic Audio Mixtures for Universa 6.5分 前50% 📋 论文详情 🥇 Adaptive Rotary Steering with Joint Autoregression for Robust Extraction of Closely Moving Speakers in Dynamic Scenarios 🔥 8.5/10 | 前25% | #语音分离 | #信号处理 | #麦克风阵列 #自回归模型 ...

2026-04-29

ICASSP 2026 - 语音匿名化 论文列表

ICASSP 2026 - 语音匿名化 共 10 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 ECSA: Dual-Branch Emotion Compensation for Emotion-Consisten 8.5分 前25% 🥈 Target Speaker Anonymization in Multi-Speaker Recordings 7.6分 前50% 🥉 Content Anonymization for Privacy in Long-Form Audio 7.5分 前25% 4. Content Leakage in Librispeech and its Impact on the Privacy 7.5分 前25% 5. Improving the Speaker Anonymization Evaluation’s Robustness 7.5分 前50% 6. ZK-VSA: Zero-Knowledge Verifiable Speaker Anonymization Leve 7.5分 前25% 7. Speaker Anonymisation for Speech-Based Suicide Risk Detectio 7.5分 前25% 8. PRSA: Preventing Malicious Speaker Recognition and Speech Sy 7.0分 前25% 9. Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker An 7.0分 前25% 10. Identity Leakage Through Accent Cues in Voice Anonymisation 7.0分 前50% 📋 论文详情 🥇 ECSA: Dual-Branch Emotion Compensation for Emotion-Consistent Speaker Anonymization 🔥 8.5/10 | 前25% | #语音匿名化 | #生成模型 | #语音情感识别 #自监督学习 ...

2026-04-29

ICASSP 2026 - 语音发现 论文列表

ICASSP 2026 - 语音发现 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Unsupervised Lexicon Learning from Speech is Limited by Repr 8.0分 前25% 📋 论文详情 🥇 Unsupervised Lexicon Learning from Speech is Limited by Representations Rather than Clustering 🔥 8.0/10 | 前25% | #语音发现 | #聚类 | #自监督学习 #零资源 👥 作者与机构 第一作者:Danel Slabbert(斯泰伦博斯大学电气与电子工程系) 通讯作者:Herman Kamper(斯泰伦博斯大学电气与电子工程系) 作者列表:Danel Slabbert(斯泰伦博斯大学电气与电子工程系),Simon Malan(斯泰伦博斯大学电气与电子工程系),Herman Kamper(斯泰伦博斯大学电气与电子工程系) 💡 毒舌点评 这篇论文的亮点在于其精巧的控制实验设计,通过人为理想化聚类初始化或表示一致性,清晰地量化了“表示变异性”与“聚类方法”对最终词汇学习性能的独立影响,为领域指明了瓶颈所在。然而,其短板也很明显:研究完全依赖于理想的词边界已知前提,这在真实的零资源场景中不存在,因此结论的实践指导意义有所折扣,本质上仍是一篇在“温室”条件下的诊断性研究。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及作者自己的模型权重,但明确使用了公开的预训练SSL模型(如WavLM Large, HuBERT Large, mHuBERT等)。 数据集:使用了公开的标准数据集(LibriSpeech, Zero Speech Challenge数据)。 Demo:未提及。 复现材料:论文详细说明了特征提取层、PCA维度、量化器训练数据、聚类超参数等,为复现提供了详细指南。运行时间的报告有助于评估计算成本。 引用的开源项目/模型:FAISS (Facebook Research), scikit-learn, igraph, Montreal Forced Aligner。SSL模型来自Hugging Face模型库(HuBERT, WavLM, mHuBERT)。 总体开源情况:论文本身未提供完整代码包,但其复现高度依赖并整合了现有的开源模型和工具,给出了清晰的组合和配置指南。 📌 核心摘要 ...

2026-04-29