ICASSP 2026 - 音频水印 论文列表

ICASSP 2026 - 音频水印 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with 7.5分 前25% 📋 论文详情 🥇 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness ✅ 7.5/10 | 前25% | #音频水印 | #条件生成 | #音频安全 #Conformer 👥 作者与机构 第一作者:Linxi Li(University of Warwick, OfSpectrum, Inc.) 通讯作者:未说明 作者列表:Linxi Li(University of Warwick, OfSpectrum, Inc.)、Liwei Jin(OfSpectrum, Inc.)、Yechen Wang(OfSpectrum, Inc.)、Houmin Sun(Duke Kunshan University)、Zi Hu(Duke Kunshan University)、Carsten Maple(University of Warwick) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 音频深度伪造检测 论文列表

ICASSP 2026 - 音频深度伪造检测 共 29 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfa 8.5分 前25% 🥈 Dynamic Spectrogram Analysis with Local-Aware Graph Networks 8.5分 前10% 🥉 The Impact of Audio Watermarking on Audio Anti-Spoofing Coun 8.5分 前25% 4. Beyond Face Swapping: A Diffusion-Based Digital Human Benchm 8.1分 前25% 5. StreamMark: A Deep Learning-Based Semi-Fragile Audio Waterma 8.0分 前25% 6. Assessing the Impact of Speaker Identity in Speech Spoofing 8.0分 前25% 7. Subgraph Localization in the Subbands for Partially Spoofed 8.0分 前25% 8. On deepfake voice detection - It’s all in the presentation 8.0分 前25% 9. Dynamic Noise-Aware Multi Lora Framework Towards Real-World 8.0分 前25% 10. Hanui: Harnessing Distributional Discrepancies for Singing V 8.0分 前10% 11. Localizing Speech Deepfakes Beyond Transitions via Segment-A 8.0分 前25% 12. Discrete-Continuous Fusion With Adaptive Hierarchical Featur 8.0分 前10% 13. AVATAR: Audio-Visual Adaptive Fusion via Trained Agent Reinf 7.5分 前25% 14. Few-Shot Recognition of Audio Deepfake Generators using Grap 7.5分 前25% 15. Audio Deepfake Detection at the First Greeting: “Hi!” 7.5分 前25% 16. Combining SSL Speech Features, Contextual Transformers and M 7.5分 前25% 17. How to Label Resynthesized Audio: The Dual Role of Neural Au 7.5分 前25% 18. KAN We Make Models Simpler for Audio Deepfake Detection with 7.5分 前25% 19. Robust Deepfake Audio Detection via Multi-Level Intermediate 7.5分 前25% 20. AI-Generated Music Detection in Broadcast Monitoring 7.0分 前50% 21. Leveraging Large Multimodal Models for Audio-Video Deepfake 7.0分 前25% 22. A Superb-Style Benchmark of Self-Supervised Speech Models fo 7.0分 前25% 23. Understanding the Strengths and Weaknesses of SSL Models for 7.0分 前50% 24. Towards Data Drift Monitoring for Speech Deepfake Detection 7.0分 前25% 25. CompSpoof: A Dataset and Joint Learning Framework for Compon 7.0分 前25% 26. MSCT: Differential Cross-Modal Attention for Deepfake Detect 6.5分 前10% 27. Auxiliary Multi-Label Training For Improving the Robustness 6.5分 前50% 28. Audio-Visual Deepfake Generation and Detection: An Explorato 6.5分 前25% 29. Disentangled Authenticity Representation for Partially Deepf 6.5分 前25% 📋 论文详情 🥇 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #语音伪造检测 #重放攻击 ...

2026-04-29

ICASSP 2026 - 音频生成 论文列表

ICASSP 2026 - 音频生成 共 39 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 SwitchCodec: Adaptive Residual-Expert Sparse Quantization fo 8.5分 前25% 🥈 Synthcloner: Synthesizer-Style Audio Transfer via Factorized 8.5分 前25% 🥉 MAG: Multi-Modal Aligned Autoregressive Co-Speech Gesture Ge 8.0分 前25% 4. Training-Free Multimodal Guidance for Video to Audio Generat 8.0分 前25% 5. Audience-Aware Co-speech Gesture Generation in Public Speaki 8.0分 前50% 6. Matching Reverberant Speech Through Learned Acoustic Embeddi 8.0分 前25% 7. Assessing The Perceptual Impact of Low-Altitude Aircraft Noi 8.0分 前25% 8. Parametric Neural Amp Modeling with Active Learning 8.0分 前25% 9. AUV: Teaching Audio Universal Vector Quantization with Singl 8.0分 前25% 10. EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust 8.0分 前25% 11. Improving Interpretability in Generative Multitimbral DDSP F 7.5分 前25% 12. Cardiobridge-DM: Bridging Cross-Cohort Heart Sound Synthesis 7.5分 前25% 13. Disentangling Physiology from Fidelity: Latent-Guided Diffus 7.5分 前25% 14. GMS-CAVP: Improving Audio-Video Correspondence with Multi-Sc 7.5分 前25% 15. KSDIFF: Keyframe-Augmented Speech-Aware Dual-Path Diffusion 7.5分 前25% 16. Sunac: Source-Aware Unified Neural Audio Codec 7.5分 前50% 17. S-PRESSO: Ultra Low Bitrate Sound Effect Compression with Di 7.5分 前25% 18. PICOAUDIO2: Temporal Controllable Text-to-Audio Generation w 7.5分 前25% 19. FoleyBench: A Benchmark for Video-to-Audio Models 7.5分 前25% 20. Multimodal Room Impulse Response Generation Through Latent R 7.5分 前25% 21. Mix2Morph: Learning Sound Morphing from Noisy Mixes 7.5分 前25% 22. Generative Audio Extension and Morphing 7.5分 前25% 23. FlashFoley: Fast Interactive Sketch2audio Generation 7.5分 前25% 24. Mitigating Data Replication in Text-to-Audio Generative Diff 7.5分 前25% 25. Learning Linearity in Audio Consistency Autoencoders via Imp 7.5分 前25% 26. Spring Reverb Emulation with Hybrid Gated Convolutional Netw 7.5分 前25% 27. StereoFoley: Object-Aware Stereo Audio Generation from Video 7.5分 前25% 28. AudioGen-Omni: A Unified Multimodal Diffusion Transformer fo 7.5分 前25% 29. Meanflow-Accelerated Multimodal Video-to-Audio Synthesis Via 7.5分 前25% 30. TAG: Structured Temporal Audio Generation via LLM-Guided Man 7.5分 前25% 31. HFSQVAE: Hierarchical Vector Quantization with Residuals for 7.0分 前25% 32. Sounds that Shape: Audio-Driven 3D Mesh Generation with Attr 7.0分 前25% 33. ReCoM: Realistic Co-Speech Motion Generation with Recurrent 7.0分 前25% 34. Arbitrarily Settable Frame Rate Neural Speech Codec with Con 7.0分 前25% 35. A Speech-Driven Paradigm for Physics-Informed Modeling of Co 7.0分 前50% 36. FxSearcher: Gradient-Free Text-Driven Audio Transformation 7.0分 前50% 37. FODGE : High-Fidelity Dance Generation via Full-Body Optimiz 6.5分 前50% 38. Feedback-Driven Retrieval-Augmented Audio Generation with La 6.5分 前25% 39. Taming Audio VAEs via Target-KL Regularization 6.5分 前25% 📋 论文详情 🥇 SwitchCodec: Adaptive Residual-Expert Sparse Quantization for High-Fidelity Neural Audio Coding 🔥 8.5/10 | 前25% | #音频生成 | #模型评估 | #向量量化 #混合专家 ...

2026-04-29

ICASSP 2026 - 音频编辑 论文列表

ICASSP 2026 - 音频编辑 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 RFM-Editing: Rectified Flow Matching for Text-Guided Audio E 7.5分 前25% 📋 论文详情 🥇 RFM-Editing: Rectified Flow Matching for Text-Guided Audio Editing ✅ 7.5/10 | 前25% | #音频编辑 | #流匹配 | #扩散模型 #数据集 👥 作者与机构 第一作者:Liting Gao(英国萨里大学视觉、语音与信号处理中心) 通讯作者:未说明 作者列表:Liting Gao(英国萨里大学视觉、语音与信号处理中心),Yi Yuan(英国萨里大学视觉、语音与信号处理中心),Yaru Chen(英国萨里大学视觉、语音与信号处理中心),Yuelan Cheng(英国萨里大学视觉、语音与信号处理中心),Zhenbo Li(中国农业大学信息与电气工程学院),Juan Wen(中国农业大学信息与电气工程学院),Shubin Zhang(中国海洋大学水产学院),Wenwu Wang(英国萨里大学视觉、语音与信号处理中心) 💡 毒舌点评 亮点:论文巧妙地利用Rectified Flow Matching的确定性ODE过程,将音频编辑重新定义为学习从噪声到目标音频的“速度场”,并通过对原始音频潜变量的拼接作为条件,实现了一个优雅的、端到端且无需掩码的训练范式。短板:虽然整体表现均衡,但在衡量编辑忠实度的关键指标CLAP分数上,训练完整数据集的RFM-Editingfull(0.4398)仍略低于需要复杂优化的AudioEditor(0.4579),显示出其“效率换精度”的妥协,且编辑时间并非最快。 🔗 开源详情 ...

2026-04-29

ICASSP 2026 - 音频质量评估 论文列表

ICASSP 2026 - 音频质量评估 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Deepaq: A Perceptual Audio Quality Metric Based on Foundatio 7.5分 前25% 📋 论文详情 🥇 Deepaq: A Perceptual Audio Quality Metric Based on Foundational Models and Weakly Supervised Learning ✅ 7.5/10 | 前25% | #音频质量评估 | #弱监督学习 | #度量学习 #音频大模型 👥 作者与机构 第一作者:Guanxin Jiang (International Audio Laboratories Erlangen†, Germany) 通讯作者:Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) 作者列表:Guanxin Jiang (International Audio Laboratories Erlangen†, Germany)、Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Pablo M. Delgado (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Jürgen Herre (International Audio Laboratories Erlangen†, Germany; Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) (†注:International Audio Laboratories Erlangen是Friedrich-Alexander University Erlangen-Nürnberg (FAU)与Fraunhofer IIS的联合机构) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 音频超分辨率 论文列表

ICASSP 2026 - 音频超分辨率 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Universr: Unified and Versatile Audio Super-Resolution Via V 8.0分 前25% 📋 论文详情 🥇 Universr: Unified and Versatile Audio Super-Resolution Via Vocoder-Free Flow Matching 🔥 8.0/10 | 前25% | #音频超分辨率 | #流匹配 | #语音增强 #音频生成 👥 作者与机构 第一作者:Woongjib Choi(延世大学电气与电子工程系) 通讯作者:未说明 作者列表:Woongjib Choi(延世大学电气与电子工程系)、Sangmin Lee(延世大学电气与电子工程系)、Hyungseob Lim(延世大学电气与电子工程系)、Hong-Goo Kang(延世大学电气与电子工程系) 💡 毒舌点评 这篇论文最大的亮点是提供了一个优雅且高效的“去vocoder”解决方案,用一个统一的流匹配模型直击频谱,避免了传统两阶段管线的性能天花板,在主观听感上甚至优于vocoded的GT。然而,其核心架构本质是成熟的ConvNeXt V2 U-Net在频域数据上的应用,创新更多体现在任务定义和流程整合上,而非模型架构本身,这使得它更像一个工程上的巧妙优化而非理论上的重大突破。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/woongzip1/UniverSR 模型权重:论文中未提及是否公开预训练模型权重。 数据集:论文中提及了训练所用的数据集名称和规模,但未说明是否提供这些数据集的下载或处理脚本。 Demo:提供在线演示链接:https://woongzip1.github.io/universr-demo 复现材料:论文中详细说明了模型架构、训练超参数、损失函数、推理设置等,为复现提供了关键信息。 论文中引用的开源项目:未明确提及依赖的具体开源代码库。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 音频问答 论文列表

ICASSP 2026 - 音频问答 共 15 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Enhancing Audio Question-Answering Performance Through Log-L 8.5分 前25% 🥈 DSpAST: Disentangled Representations for Spatial Audio Reaso 8.0分 前25% 🥉 Improving Audio Question Answering with Variational Inferenc 7.5分 前25% 4. TAU: A Benchmark for Cultural Sound Understanding Beyond Sem 7.5分 前25% 5. Efficient Audio-Visual Inference Via Token Clustering And Mo 7.5分 前25% 6. SightSound-R1: Cross-Modal Reasoning Distillation from Visio 7.5分 前25% 7. Keeping Models Listening: Segment- and time-aware attention 7.5分 前25% 8. Benchmarking Humans And Machines On Complex Multilingual Spe 7.5分 前25% 9. FastAV: Efficient Token Pruning for Audio-Visual Large Langu 7.0分 前25% 10. AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework f 7.0分 前25% 11. Segmentwise Pruning in Audio-Language Models 7.0分 前50% 12. Teaching Audio Models to Reason: A Unified Framework for Sou 7.0分 前25% 13. AQUA-Bench: Beyond finding answers to knowing when there are 7.0分 前50% 14. Test-Time Scaling for Auditory Cognition in Audio Language M 7.0分 前25% 15. Advancing Speech Summarization in Multi-Modal LLMs with Rein 7.0分 前50% 📋 论文详情 🥇 Enhancing Audio Question-Answering Performance Through Log-Likelihood Guided Reward Functions 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #多模态模型 #基准测试 ...

2026-04-29

ICASSP 2026 - 预训练 论文列表

ICASSP 2026 - 预训练 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Probing the Hidden Talent of ASR foundation models for L2 En 7.5分 前25% 📋 论文详情 🥇 Probing the Hidden Talent of ASR foundation models for L2 English Oral Assessment ✅ 7.5/10 | 前25% | #预训练 | #迁移学习 | #零样本 #语音评估 👥 作者与机构 第一作者:Fu-An Chao(台湾师范大学, 台北) 通讯作者:Berlin Chen(台湾师范大学, 台北) 作者列表:Fu-An Chao(台湾师范大学, 台北), Bi-Cheng Yan(台湾师范大学, 台北), Berlin Chen(台湾师范大学, 台北) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 领域适应 论文列表

ICASSP 2026 - 领域适应 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Beyond Mapping: Domain-Invariant Representations via Spectra 7.5分 前25% 🥈 The Synergistic Role of Audio and Large Video-Language Model 7.0分 前25% 📋 论文详情 🥇 Beyond Mapping: Domain-Invariant Representations via Spectral Embedding of Optimal Transport Plans ✅ 7.5/10 | 前25% | #领域适应 | #最优传输 #谱图嵌入 | #最优传输 #谱图嵌入 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Abdel Djalil Sad Saoud (Universite Paris-Saclay, CEA, List), Fred Maurice Ngol`e Mboula (Universite Paris-Saclay, CEA, List), Hanane Slimani (Universite Paris-Saclay, CEA, List) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 语音/音频论文详细分析

ICASSP 2026 语音/音频论文详细分析 共分析 898 篇 ICASSP 2026 论文 🎯 任务分类 点击任务标签查看该方向所有论文: 语音识别(102篇) 语音增强(75篇) 语音合成(63篇) 语音情感识别(49篇) 音频分类(39篇) 音频生成(39篇) 音乐生成(31篇) 空间音频(31篇) 音频深度伪造检测(29篇) 音乐信息检索(26篇) 语音分离(25篇) 语音生物标志物(24篇) 音频事件检测(21篇) 模型评估(16篇) 声源定位(15篇) 音频问答(15篇) 生物声学(12篇) 音频安全(11篇) 音频检索(11篇) 音乐理解(11篇) 语音对话系统(10篇) 语音匿名化(10篇) 说话人验证(10篇) 说话人分离(9篇) 语音转换(9篇) 语音质量评估(8篇) 语音翻译(8篇) 语音伪造检测(8篇) 多模态模型(6篇) 音视频(6篇) 语音编码(5篇) 基准测试(5篇) 语音评估(5篇) 语音活动检测(5篇) 歌唱语音合成(5篇) 语音克隆(4篇) 语音问答(3篇) 情感分析(3篇) 音频场景理解(3篇) 音频增强(3篇) 语音识别 #语音翻译(3篇) 数据集(3篇) 音乐检索(3篇) 语音大模型(3篇) 歌唱语音转换(3篇) 视觉语音识别(2篇) 多模态情感识别(2篇) 信号处理(2篇) 语音理解(2篇) 领域适应(2篇) 听觉注意力解码(2篇) 多模态情感分析(2篇) 情感识别(2篇) 跨模态(2篇) 音频压缩(2篇) 音乐源分离(2篇) 关键词检测(2篇) 说话人日志(2篇) 跨模态检索(2篇) 水下声学目标识别(2篇) 视频生成(2篇) 听觉注意解码(1篇) 视频高光检测(1篇) 多音高估计 #音符跟踪(1篇) 歌唱语音转录(1篇) 异常声音检测(1篇) 脑机接口(1篇) 脑信号编码(1篇) 实体消歧(1篇) 音频检索 #音频分类(1篇) 目标说话人提取(1篇) 语音转换 #语音增强(1篇) 音频超分辨率(1篇) 基频估计(1篇) 语音发现(1篇) 语音表示学习(1篇) 数据集对齐(1篇) 预训练(1篇) 医疗AI(1篇) 语音解码(1篇) 说话人合成(1篇) 说话人脸生成(1篇) 说话人检测(1篇) 多模态对话意图识别(1篇) 视频理解(1篇) 音乐推荐(1篇) 视频设备识别(1篇) 说话人识别(1篇) 房间脉冲响应去噪(1篇) 音频质量评估(1篇) 主动降噪(1篇) 舞蹈生成(1篇) 歌唱旋律提取(1篇) 声场估计(1篇) 语音编码器(1篇) 音频编辑(1篇) 零样本关键词检测(1篇) 音频分离(1篇) 音频无损编码(1篇) 语音增强 #对抗防御(1篇) 音视频实例分割(1篇) 视频到音频生成(1篇) 语音摘要(1篇) 音频水印(1篇) 说话人日志 #语音分离(1篇) 联邦学习(1篇) 音乐混合(1篇) 视频片段检索(1篇) 神经解码(1篇) 视频检索(1篇) 语音驱动动作生成(1篇) 视频问答(1篇) 音频分类 #零样本学习(1篇) 主题建模(1篇) 说话人生成(1篇) 对抗样本(1篇) 音频描述(1篇) 主动噪声控制(1篇) 音乐分离(1篇) 音乐源提取(1篇) 音乐转录(1篇) 房间脉冲响应(1篇) 语音识别 #语音合成(1篇) 音频场景分类(1篇) 多通道(1篇) 音频效果估计(1篇) 音频信号处理(1篇) 回声消除(1篇) 语音生成(1篇) 实时处理(1篇) 音频大模型(1篇) 声学建模(1篇) 迁移学习(1篇) 课堂阶段分割(1篇) 噪声控制(1篇) 音频字幕生成(1篇) 轻度认知障碍检测(1篇) 音乐分类(1篇) 槽填充(1篇) 多模态学习(1篇) ⚡ 今日概览 📥 898 篇 → 🔬 深度分析完成 ...

2026-04-29