ICASSP 2026 - 音频安全 论文列表

ICASSP 2026 - 音频安全 共 11 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems 8.5分 前25% 🥈 RoCo: Robust Code for Fast and Effective Proactive Defense a 7.5分 前25% 🥉 Membership Inference Attack against Music Diffusion Models v 7.5分 前25% 4. A Feature-Optimized Audio Watermarking Algorithm with Adapti 7.5分 前25% 5. Co-Initialization of Control Filter and Secondary Path via M 7.5分 前25% 6. LenslessMic: Audio Encryption and Authentication via Lensles 7.5分 前25% 7. Bloodroot: When Watermarking Turns Poisonous for Stealthy Ba 7.5分 前25% 8. Emotional Damage: Investigating Safety Vulnerabilities of La 7.5分 前25% 9. Audio-Text Jailbreak Attack on Large Audio-Language Models: 7.0分 前25% 10. PRoADS: Provably Secure And Robust Audio Diffusion Steganogr 6.5分 前50% 11. Linguard: Authenticating Speech Recordings Using Speech Reco 6.5分 前50% 📋 论文详情 🥇 HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems 🔥 8.5/10 | 前25% | #音频安全 | #时频分析 | #端到端 #工业应用 ...

2026-04-29

ICASSP 2026 - 音频描述 论文列表

ICASSP 2026 - 音频描述 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 LAMB: LLM-Based Audio Captioning with Modality Gap Bridging 7.0分 前25% 📋 论文详情 🥇 LAMB: LLM-Based Audio Captioning with Modality Gap Bridging Via Cauchy-Schwarz Divergence ✅ 7.0/10 | 前25% | #音频描述 | #跨模态对齐 | #大语言模型 #音频场景理解 👥 作者与机构 请基于当前提供的论文内容尽量完整提取作者与机构信息,要求: 明确标注第一作者(如论文可判断),否则写“未说明” 明确标注通讯作者(如论文可判断),否则写“未说明” 列出能确认的作者姓名及其所属机构(大学、实验室、公司) 机构信息尽量具体到实验室或部门;如果文本里没有,就写到能确认的层级 禁止猜测机构信息;无法确认时明确写“未说明” 输出格式示例: 第一作者:张三(清华大学计算机系) 通讯作者:李四(Google DeepMind) 作者列表:张三(清华大学计算机系)、李四(Google DeepMind)、王五(未说明) 第一作者:Hyeongkeun Lee(韩国科学技术院, KAIST) 通讯作者:未说明 ...

2026-04-29

ICASSP 2026 - 音频效果估计 论文列表

ICASSP 2026 - 音频效果估计 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Audio Effect Estimation with DNN-Based Prediction and Search 7.0分 前25% 📋 论文详情 🥇 Audio Effect Estimation with DNN-Based Prediction and Search Algorithm ✅ 7.0/10 | 前25% | #音频效果估计 | #深度神经网络 #优化算法 | #音乐信息检索 #深度神经网络 👥 作者与机构 第一作者:Youichi Okita(关西学院大学 理工学研究科) 通讯作者:Haruhiro Katayose(关西学院大学 工学部) 作者列表:Youichi Okita(关西学院大学 理工学研究科)、Haruhiro Katayose(关西学院大学 工学部) 💡 毒舌点评 这篇论文的亮点在于它优雅地模拟了人类音频工程师“先猜后调”的工作流程,将数据驱动的预测与基于信号相似度的搜索有机结合,实验证明这种“两阶段法”确实优于纯预测方法。短板在于其研究的问题场景(吉他效果链)相对垂直窄众,虽然方法论扎实,但能否推广到更复杂、更多样的现实音频处理场景(如流行音乐、混音工程)还有待验证,且未与该领域所有可能的最新方法进行对比。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开的模型权重。 数据集:论文中提及使用了公开的吉他数据集(IDMT-SMT-Guitar, GuitarSet, EGDB, Guitar-TECHS),但用于生成湿信号的效果参数和生成脚本未提及是否公开。 Demo:提供了一个在线演示网站:https://okitayouichi.github.io/afx-pred-sch-demo/ 复现材料:论文提供了较为详细的训练超参数、网络架构描述和损失函数公式,但缺乏硬件配置、训练时长、以及完整的配置文件或检查点信息。 论文中引用的开源项目:使用了pedalboard库(由Spotify开源)来生成数据,使用了Optuna框架来进行搜索算法实现。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 音频无损编码 论文列表

ICASSP 2026 - 音频无损编码 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 LLAC: Learned Lossless Audio Codec 7.5分 前25% 📋 论文详情 🥇 LLAC: Learned Lossless Audio Codec ✅ 7.5/10 | 前25% | #音频无损编码 | #生成模型 | #模型评估 👥 作者与机构 第一作者:Khanh Quoc Dinh (Samsung Research, Korea) 通讯作者:未说明 作者列表:Khanh Quoc Dinh (Samsung Research, Korea), Liang Wen (Samsung R&D Institute China-Beijing, China), Lizhong Wang (Samsung R&D Institute China-Beijing, China), Kwang Pyo Choi (Samsung Research, Korea) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 音频检索 #音频分类 论文列表

ICASSP 2026 - 音频检索 #音频分类 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Hashing-Baseline: Rethinking Hashing in the Age of Pretraine 8.0分 前25% 📋 论文详情 🥇 Hashing-Baseline: Rethinking Hashing in the Age of Pretrained Models 🔥 8.0/10 | 前25% | #音频检索 #音频分类 | #预训练 | #音频检索 #图像检索 👥 作者与机构 第一作者:未说明(论文作者列表顺序为并列贡献) 通讯作者:未说明 作者列表:Ilyass Moummad(INRIA, LIRMM, Université de Montpellier, France),Kawtar Zaher(INRIA, LIRMM, Université de Montpellier, France;Institut National de l’Audiovisuel, France),Lukas Rauch(University of Kassel, Germany),Alexis Joly(INRIA, LIRMM, Université de Montpellier, France) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 音频检索 论文列表

ICASSP 2026 - 音频检索 共 11 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 GLAP: General Contrastive Audio-Text Pretraining Across Doma 8.5分 前25% 🥈 CASTELLA: Long Audio Dataset with Captions and Temporal Boun 8.5分 前25% 🥉 WavLink: Compact Audio–Text Embeddings with a Global Whisper 8.0分 前25% 4. SLAP: Scalable Language-Audio Pretraining with Variable-Dura 8.0分 前25% 5. AUDIOCARDS: Structured Metadata Improves Audio Language Mode 7.5分 前50% 6. Automatic Music Sample Identification with Multi-Track Contr 7.5分 前25% 7. Contrastive Timbre Representations for Musical Instrument An 7.5分 前25% 8. BEST-STD 2.0: Balanced and Efficient Speech Tokenizer for Sp 7.5分 前25% 9. EchoRAG: A Two-Stage Framework for Audio-Text Retrieval and 7.5分 前25% 10. Scalable Evaluation for Audio Identification Via Synthetic L 7.0分 前25% 11. Do Speech LLMs Learn Crossmodal Embedding Spaces? 6.5分 前50% 📋 论文详情 🥇 GLAP: General Contrastive Audio-Text Pretraining Across Domains and Languages 🔥 8.5/10 | 前25% | #音频检索 | #对比学习 #预训练 | #对比学习 #预训练 ...

2026-04-29

ICASSP 2026 - 音频水印 论文列表

ICASSP 2026 - 音频水印 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with 7.5分 前25% 📋 论文详情 🥇 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness ✅ 7.5/10 | 前25% | #音频水印 | #条件生成 | #音频安全 #Conformer 👥 作者与机构 第一作者:Linxi Li(University of Warwick, OfSpectrum, Inc.) 通讯作者:未说明 作者列表:Linxi Li(University of Warwick, OfSpectrum, Inc.)、Liwei Jin(OfSpectrum, Inc.)、Yechen Wang(OfSpectrum, Inc.)、Houmin Sun(Duke Kunshan University)、Zi Hu(Duke Kunshan University)、Carsten Maple(University of Warwick) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 音频深度伪造检测 论文列表

ICASSP 2026 - 音频深度伪造检测 共 29 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfa 8.5分 前25% 🥈 Dynamic Spectrogram Analysis with Local-Aware Graph Networks 8.5分 前10% 🥉 The Impact of Audio Watermarking on Audio Anti-Spoofing Coun 8.5分 前25% 4. Beyond Face Swapping: A Diffusion-Based Digital Human Benchm 8.1分 前25% 5. StreamMark: A Deep Learning-Based Semi-Fragile Audio Waterma 8.0分 前25% 6. Assessing the Impact of Speaker Identity in Speech Spoofing 8.0分 前25% 7. Subgraph Localization in the Subbands for Partially Spoofed 8.0分 前25% 8. On deepfake voice detection - It’s all in the presentation 8.0分 前25% 9. Dynamic Noise-Aware Multi Lora Framework Towards Real-World 8.0分 前25% 10. Hanui: Harnessing Distributional Discrepancies for Singing V 8.0分 前10% 11. Localizing Speech Deepfakes Beyond Transitions via Segment-A 8.0分 前25% 12. Discrete-Continuous Fusion With Adaptive Hierarchical Featur 8.0分 前10% 13. AVATAR: Audio-Visual Adaptive Fusion via Trained Agent Reinf 7.5分 前25% 14. Few-Shot Recognition of Audio Deepfake Generators using Grap 7.5分 前25% 15. Audio Deepfake Detection at the First Greeting: “Hi!” 7.5分 前25% 16. Combining SSL Speech Features, Contextual Transformers and M 7.5分 前25% 17. How to Label Resynthesized Audio: The Dual Role of Neural Au 7.5分 前25% 18. KAN We Make Models Simpler for Audio Deepfake Detection with 7.5分 前25% 19. Robust Deepfake Audio Detection via Multi-Level Intermediate 7.5分 前25% 20. AI-Generated Music Detection in Broadcast Monitoring 7.0分 前50% 21. Leveraging Large Multimodal Models for Audio-Video Deepfake 7.0分 前25% 22. A Superb-Style Benchmark of Self-Supervised Speech Models fo 7.0分 前25% 23. Understanding the Strengths and Weaknesses of SSL Models for 7.0分 前50% 24. Towards Data Drift Monitoring for Speech Deepfake Detection 7.0分 前25% 25. CompSpoof: A Dataset and Joint Learning Framework for Compon 7.0分 前25% 26. MSCT: Differential Cross-Modal Attention for Deepfake Detect 6.5分 前10% 27. Auxiliary Multi-Label Training For Improving the Robustness 6.5分 前50% 28. Audio-Visual Deepfake Generation and Detection: An Explorato 6.5分 前25% 29. Disentangled Authenticity Representation for Partially Deepf 6.5分 前25% 📋 论文详情 🥇 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #语音伪造检测 #重放攻击 ...

2026-04-29

ICASSP 2026 - 音频生成 论文列表

ICASSP 2026 - 音频生成 共 39 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 SwitchCodec: Adaptive Residual-Expert Sparse Quantization fo 8.5分 前25% 🥈 Synthcloner: Synthesizer-Style Audio Transfer via Factorized 8.5分 前25% 🥉 MAG: Multi-Modal Aligned Autoregressive Co-Speech Gesture Ge 8.0分 前25% 4. Training-Free Multimodal Guidance for Video to Audio Generat 8.0分 前25% 5. Audience-Aware Co-speech Gesture Generation in Public Speaki 8.0分 前50% 6. Matching Reverberant Speech Through Learned Acoustic Embeddi 8.0分 前25% 7. Assessing The Perceptual Impact of Low-Altitude Aircraft Noi 8.0分 前25% 8. Parametric Neural Amp Modeling with Active Learning 8.0分 前25% 9. AUV: Teaching Audio Universal Vector Quantization with Singl 8.0分 前25% 10. EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust 8.0分 前25% 11. Improving Interpretability in Generative Multitimbral DDSP F 7.5分 前25% 12. Cardiobridge-DM: Bridging Cross-Cohort Heart Sound Synthesis 7.5分 前25% 13. Disentangling Physiology from Fidelity: Latent-Guided Diffus 7.5分 前25% 14. GMS-CAVP: Improving Audio-Video Correspondence with Multi-Sc 7.5分 前25% 15. KSDIFF: Keyframe-Augmented Speech-Aware Dual-Path Diffusion 7.5分 前25% 16. Sunac: Source-Aware Unified Neural Audio Codec 7.5分 前50% 17. S-PRESSO: Ultra Low Bitrate Sound Effect Compression with Di 7.5分 前25% 18. PICOAUDIO2: Temporal Controllable Text-to-Audio Generation w 7.5分 前25% 19. FoleyBench: A Benchmark for Video-to-Audio Models 7.5分 前25% 20. Multimodal Room Impulse Response Generation Through Latent R 7.5分 前25% 21. Mix2Morph: Learning Sound Morphing from Noisy Mixes 7.5分 前25% 22. Generative Audio Extension and Morphing 7.5分 前25% 23. FlashFoley: Fast Interactive Sketch2audio Generation 7.5分 前25% 24. Mitigating Data Replication in Text-to-Audio Generative Diff 7.5分 前25% 25. Learning Linearity in Audio Consistency Autoencoders via Imp 7.5分 前25% 26. Spring Reverb Emulation with Hybrid Gated Convolutional Netw 7.5分 前25% 27. StereoFoley: Object-Aware Stereo Audio Generation from Video 7.5分 前25% 28. AudioGen-Omni: A Unified Multimodal Diffusion Transformer fo 7.5分 前25% 29. Meanflow-Accelerated Multimodal Video-to-Audio Synthesis Via 7.5分 前25% 30. TAG: Structured Temporal Audio Generation via LLM-Guided Man 7.5分 前25% 31. HFSQVAE: Hierarchical Vector Quantization with Residuals for 7.0分 前25% 32. Sounds that Shape: Audio-Driven 3D Mesh Generation with Attr 7.0分 前25% 33. ReCoM: Realistic Co-Speech Motion Generation with Recurrent 7.0分 前25% 34. Arbitrarily Settable Frame Rate Neural Speech Codec with Con 7.0分 前25% 35. A Speech-Driven Paradigm for Physics-Informed Modeling of Co 7.0分 前50% 36. FxSearcher: Gradient-Free Text-Driven Audio Transformation 7.0分 前50% 37. FODGE : High-Fidelity Dance Generation via Full-Body Optimiz 6.5分 前50% 38. Feedback-Driven Retrieval-Augmented Audio Generation with La 6.5分 前25% 39. Taming Audio VAEs via Target-KL Regularization 6.5分 前25% 📋 论文详情 🥇 SwitchCodec: Adaptive Residual-Expert Sparse Quantization for High-Fidelity Neural Audio Coding 🔥 8.5/10 | 前25% | #音频生成 | #模型评估 | #向量量化 #混合专家 ...

2026-04-29

ICASSP 2026 - 音频编辑 论文列表

ICASSP 2026 - 音频编辑 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 RFM-Editing: Rectified Flow Matching for Text-Guided Audio E 7.5分 前25% 📋 论文详情 🥇 RFM-Editing: Rectified Flow Matching for Text-Guided Audio Editing ✅ 7.5/10 | 前25% | #音频编辑 | #流匹配 | #扩散模型 #数据集 👥 作者与机构 第一作者:Liting Gao(英国萨里大学视觉、语音与信号处理中心) 通讯作者:未说明 作者列表:Liting Gao(英国萨里大学视觉、语音与信号处理中心),Yi Yuan(英国萨里大学视觉、语音与信号处理中心),Yaru Chen(英国萨里大学视觉、语音与信号处理中心),Yuelan Cheng(英国萨里大学视觉、语音与信号处理中心),Zhenbo Li(中国农业大学信息与电气工程学院),Juan Wen(中国农业大学信息与电气工程学院),Shubin Zhang(中国海洋大学水产学院),Wenwu Wang(英国萨里大学视觉、语音与信号处理中心) 💡 毒舌点评 亮点:论文巧妙地利用Rectified Flow Matching的确定性ODE过程,将音频编辑重新定义为学习从噪声到目标音频的“速度场”,并通过对原始音频潜变量的拼接作为条件,实现了一个优雅的、端到端且无需掩码的训练范式。短板:虽然整体表现均衡,但在衡量编辑忠实度的关键指标CLAP分数上,训练完整数据集的RFM-Editingfull(0.4398)仍略低于需要复杂优化的AudioEditor(0.4579),显示出其“效率换精度”的妥协,且编辑时间并非最快。 🔗 开源详情 ...

2026-04-29