ICASSP 2026 - 视频高光检测 论文列表

ICASSP 2026 - 视频高光检测 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Sounding Highlights: Dual-Pathway Audio Encoders for Audio-V 8.5分 前10% 📋 论文详情 🥇 Sounding Highlights: Dual-Pathway Audio Encoders for Audio-Visual Video Highlight Detection 🔥 8.5/10 | 前10% | #视频高光检测 | #多模态融合 | #音视频 #自适应模型 👥 作者与机构 第一作者:Seohyun Joo(GIST电气工程与计算机科学学院) 通讯作者:论文中未明确说明通讯作者。 作者列表:Seohyun Joo(GIST电气工程与计算机科学学院)、Yoori Oh(首尔国立大学音乐与音频研究组) 💡 毒舌点评 亮点在于其“双通路”音频编码器的设计非常精巧,通过一个动态通路显式捕获频谱动态(如突变声音事件),并与语义通路进行门控式融合,有效解决了以往音频特征利用不足的痛点,在大规模数据集上效果显著。短板是其在较小规模、类别更多样的TVSum数据集上优势不明显,可能暗示模型的泛化能力或对不同视频风格的适应性仍有提升空间。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及。 数据集:使用了Mr.HiSum和TVSum公开数据集,但未在文中提供获取方式链接(假设读者已知)。 Demo:提供了在线演示链接:https://seohyj.github.io/soundhd.github.io/。 复现材料:提供了详细的训练细节(优化器、学习率、批量大小、训练轮数、权重衰减、梯度裁剪)、关键超参数(K值、特征维度、频谱图参数)和模型架构描述,便于复现。 论文中引用的开源项目:引用了多个预训练模型作为基线或组件,包括PANNs (用于音频语义编码器)、ResNet-34、Inception-v3 (用于视觉编码器),以及作为基线比较的PGL-SUM, Joint-VA, UMT, CSTA等。 总结:论文中未提及开源计划,但提供了Demo和详细的复现参数。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 语音伪造检测 论文列表

ICASSP 2026 - 语音伪造检测 共 8 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning fo 8.0分 前25% 🥈 Fine-Grained Frame Modeling in Multi-Head Self-Attention for 8.0分 前25% 🥉 Detecting and Attributing Synthetic Spanish Speech: The HISP 7.5分 前25% 4. Multi-Task Transformer for Explainable Speech Deepfake Detec 7.5分 前25% 5. Fake Speech Wild: Detecting Deepfake Speech on Social Media 7.0分 前25% 6. Addressing Gradient Misalignment in Data-Augmented Training 7.0分 前25% 7. Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Anal 7.0分 前25% 8. Tri-Attention Fusion: Joint Temporal-Spectral and Bidirectio 7.0分 前25% 📋 论文详情 🥇 WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning for Speech Deepfake Detection 🔥 8.0/10 | 前25% | #语音伪造检测 | #时频分析 #预训练 | #时频分析 #预训练 ...

2026-04-29

ICASSP 2026 - 语音克隆 论文列表

ICASSP 2026 - 语音克隆 共 4 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Dis 9.0分 前10% 🥈 FED-PISA: Federated Voice Cloning Via Personalized Identity- 8.0分 前25% 🥉 Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Clonin 7.5分 前25% 4. ZSV2C-MLLM: Zero-Shot Visual Voice Cloning Via Multimodal La 6.5分 前50% 📋 论文详情 🥇 VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Disentangled Embeddings 🔥 9.0/10 | 前10% | #语音克隆 | #流匹配 | #零样本 #语音合成 ...

2026-04-29

ICASSP 2026 - 语音分离 论文列表

ICASSP 2026 - 语音分离 共 25 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Adaptive Rotary Steering with Joint Autoregression for Robus 8.5分 前25% 🥈 UNMIXX: Untangling Highly Correlated Singing Voices Mixtures 8.5分 前25% 🥉 Brainprint-Modulated Target Speaker Extraction 8.0分 前25% 4. Flexio: Flexible Single- and Multi-Channel Speech Separation 8.0分 前25% 5. MMAudioSep: Taming Video-to-Audio Generative Model Towards V 8.0分 前25% 6. Bayesian Signal Separation Via Plug-and-Play Diffusion-Withi 7.5分 前25% 7. An Audio-Visual Speech Separation Network with Joint Cross-A 7.5分 前25% 8. Aneural Forward Filtering for Speaker-Image Separation 7.5分 前25% 9. Str-DiffSep: Streamable Diffusion Model for Speech Separatio 7.5分 前25% 10. PromptSep: Generative Audio Separation Via Multimodal Prompt 7.5分 前10% 11. Diff-vs: Efficient Audio-Aware Diffusion U-Net for Vocals Se 7.5分 前25% 12. CodeSep: Low-Bitrate Codec-Driven Speech Separation with Bas 7.5分 前25% 13. SLM-SS: Speech Language Model for Generative Speech Separati 7.5分 前25% 14. VM-UNSSOR: Unsupervised Neural Speech Separation Enhanced by 7.5分 前25% 15. SoundCompass: Navigating Target Sound Extraction with Effect 7.5分 前25% 16. Prototype-Guided Cross-Modal Contrastive Learning for Contin 7.5分 前25% 17. EEG and Eye-Tracking Driven Dynamic Target Speaker Extractio 7.0分 前25% 18. Robust Online Overdetermined Independent Vector Analysis Bas 7.0分 前25% 19. AR-BSNet: Towards Ultra-Low Complexity Autoregressive Target 7.0分 前25% 20. Spectral or Spatial? Leveraging Both for Speaker Extraction 7.0分 前25% 21. Neural Network-Based Time-Frequency-Bin-Wise Linear Combinat 7.0分 前25% 22. Training Dynamics-Aware Multi-Factor Curriculum Learning for 7.0分 前25% 23. Vib2Sound: Separation Of Multimodal Sound Sources 6.5分 前50% 24. Source Separation For A Cappella Music 6.5分 前50% 25. Towards Distance-Aware Synthetic Audio Mixtures for Universa 6.5分 前50% 📋 论文详情 🥇 Adaptive Rotary Steering with Joint Autoregression for Robust Extraction of Closely Moving Speakers in Dynamic Scenarios 🔥 8.5/10 | 前25% | #语音分离 | #信号处理 | #麦克风阵列 #自回归模型 ...

2026-04-29

ICASSP 2026 - 语音匿名化 论文列表

ICASSP 2026 - 语音匿名化 共 10 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 ECSA: Dual-Branch Emotion Compensation for Emotion-Consisten 8.5分 前25% 🥈 Target Speaker Anonymization in Multi-Speaker Recordings 7.6分 前50% 🥉 Content Anonymization for Privacy in Long-Form Audio 7.5分 前25% 4. Content Leakage in Librispeech and its Impact on the Privacy 7.5分 前25% 5. Improving the Speaker Anonymization Evaluation’s Robustness 7.5分 前50% 6. ZK-VSA: Zero-Knowledge Verifiable Speaker Anonymization Leve 7.5分 前25% 7. Speaker Anonymisation for Speech-Based Suicide Risk Detectio 7.5分 前25% 8. PRSA: Preventing Malicious Speaker Recognition and Speech Sy 7.0分 前25% 9. Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker An 7.0分 前25% 10. Identity Leakage Through Accent Cues in Voice Anonymisation 7.0分 前50% 📋 论文详情 🥇 ECSA: Dual-Branch Emotion Compensation for Emotion-Consistent Speaker Anonymization 🔥 8.5/10 | 前25% | #语音匿名化 | #生成模型 | #语音情感识别 #自监督学习 ...

2026-04-29

ICASSP 2026 - 语音发现 论文列表

ICASSP 2026 - 语音发现 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Unsupervised Lexicon Learning from Speech is Limited by Repr 8.0分 前25% 📋 论文详情 🥇 Unsupervised Lexicon Learning from Speech is Limited by Representations Rather than Clustering 🔥 8.0/10 | 前25% | #语音发现 | #聚类 | #自监督学习 #零资源 👥 作者与机构 第一作者:Danel Slabbert(斯泰伦博斯大学电气与电子工程系) 通讯作者:Herman Kamper(斯泰伦博斯大学电气与电子工程系) 作者列表:Danel Slabbert(斯泰伦博斯大学电气与电子工程系),Simon Malan(斯泰伦博斯大学电气与电子工程系),Herman Kamper(斯泰伦博斯大学电气与电子工程系) 💡 毒舌点评 这篇论文的亮点在于其精巧的控制实验设计,通过人为理想化聚类初始化或表示一致性,清晰地量化了“表示变异性”与“聚类方法”对最终词汇学习性能的独立影响,为领域指明了瓶颈所在。然而,其短板也很明显:研究完全依赖于理想的词边界已知前提,这在真实的零资源场景中不存在,因此结论的实践指导意义有所折扣,本质上仍是一篇在“温室”条件下的诊断性研究。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及作者自己的模型权重,但明确使用了公开的预训练SSL模型(如WavLM Large, HuBERT Large, mHuBERT等)。 数据集:使用了公开的标准数据集(LibriSpeech, Zero Speech Challenge数据)。 Demo:未提及。 复现材料:论文详细说明了特征提取层、PCA维度、量化器训练数据、聚类超参数等,为复现提供了详细指南。运行时间的报告有助于评估计算成本。 引用的开源项目/模型:FAISS (Facebook Research), scikit-learn, igraph, Montreal Forced Aligner。SSL模型来自Hugging Face模型库(HuBERT, WavLM, mHuBERT)。 总体开源情况:论文本身未提供完整代码包,但其复现高度依赖并整合了现有的开源模型和工具,给出了清晰的组合和配置指南。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 语音合成 论文列表

ICASSP 2026 - 语音合成 共 63 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 T-Cache: Fast Inference For Masked Generative Transformer-Ba 9.0分 前25% 🥈 Wavenext 2: Convnext-Based Fast Neural Vocoders with Residua 9.0分 前25% 🥉 VoXtream: Full-Stream Text-To-Speech With Extremely Low Late 8.5分 前25% 4. EMORL-TTS: Reinforcement Learning for Fine-Grained Emotion C 8.5分 前25% 5. No Verifiable Reward for Prosody: Toward Preference-Guided P 8.0分 前25% 6. Marco-Voice: A Unified Framework for Expressive Speech Synth 8.0分 前25% 7. Neuromamba: Adaptive Frequency Filtering with a Pyramid Mamb 8.0分 前25% 8. Group Relative Policy Optimization for Text-to-Speech with L 8.0分 前25% 9. Do You Hear What I Mean? Quantifying the Instruction-Percept 8.0分 前25% 10. OV-INSTRUCTTTS: Towards Open-Vocabulary Instruct Text-to-Spe 8.0分 前25% 11. HD-PPT: Hierarchical Decoding of Content- and Prompt-Prefere 8.0分 前25% 12. Emotion-Aligned Generation in Diffusion Text to Speech Model 8.0分 前25% 13. Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, 8.0分 前25% 14. DAIEN-TTS: Disentangled Audio Infilling for Environment-Awar 8.0分 前25% 15. BridgeCode: A Dual Speech Representation Paradigm for Autore 8.0分 前25% 16. Continuous-Token Diffusion for Speaker-Referenced TTS in Mul 8.0分 前10% 17. Prosody-Guided Harmonic Attention for Phase-Coherent Neural 8.0分 前25% 18. Optimizing Speech Language Models for Acoustic Consistency 8.0分 前25% 19. NCF-TTS: Enhancing Flow Matching Based Text-To-Speech with N 8.0分 前25% 20. ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with S 8.0分 前25% 21. EMG-to-Speech with Fewer Channels 7.5分 前25% 22. VividTalker: A Modular Framework for Expressive 3D Talking A 7.5分 前25% 23. Real-Time Streaming MEL Vocoding with Generative Flow Matchi 7.5分 前25% 24. From Hallucination to Articulation: Language Model-Driven Lo 7.5分 前25% 25. SynParaSpeech: Automated Synthesis of Paralinguistic Dataset 7.5分 前25% 26. Asynchrony-Aware Decoupled Multimodal Control for Cued Speec 7.5分 前10% 27. DMP-TTS: Disentangled Multi-Modal Prompting for Controllable 7.5分 前25% 28. RRPO: Robust Reward Policy Optimization for LLM-Based Emotio 7.5分 前25% 29. Syncspeech: Efficient and Low-Latency Text-to-Speech Based o 7.5分 前25% 30. Principled Coarse-Grained Acceptance For Speculative Decodin 7.5分 前25% 31. SPADE: Structured Pruning and Adaptive Distillation for Effi 7.5分 前25% 32. Entropy-Guided GRVQ for Ultra-Low Bitrate Neural Speech Code 7.5分 前25% 33. Discrete Diffusion for Generative Modeling of Text-Aligned S 7.5分 前25% 34. Emotional Dimension Control in Language Model-Based Text-To- 7.5分 前25% 35. Beyond Global Emotion: Fine-Grained Emotional Speech Synthes 7.5分 前25% 36. QFOCUS: Controllable Synthesis for Automated Speech Stress E 7.5分 前50% 37. Synthetic yet Striking? Assessing Vocal Charisma in TTS via 7.5分 前25% 38. TMD-TTS: A Unified Tibetan Multi-Dialect Text-to-Speech Fram 7.5分 前25% 39. Deep Dubbing: End-to-End Auto-Audiobook System with Text-to- 7.5分 前25% 40. Erasing Your Voice Before it’s Heard: Training-Free Speaker 7.5分 前25% 41. InstructAudio: Unified Speech and Music Generation with Natu 7.5分 前25% 42. GLA-GRAD++: An Improved Griffin-Lim Guided Diffusion Model f 7.5分 前25% 43. Int-MeanFlow: Few-Step Speech Generation with Integral Veloc 7.5分 前25% 44. Training Flow Matching Models with Reliable Labels via Self- 7.5分 前25% 45. Hierarchical Discrete Flow Matching For Multi-Codebook Codec 7.5分 前25% 46. Frame-Stacked Local Transformers for Efficient Multi-Codeboo 7.5分 前25% 47. Direct Preference Optimization For Speech Autoregressive Dif 7.5分 前25% 48. MirrorTalk: Forging Personalized Avatars Via Disentangled St 7.0分 前25% 49. Residual Tokens Enhance Masked Autoencoders for Speech Model 7.0分 前50% 50. SP-MCQA: Evaluating Intelligibility of TTS Beyond the Word L 7.0分 前50% 51. SPAM: Style Prompt Adherence Metric for Prompt-Based TTS 7.0分 前50% 52. Gelina: Unified Speech and Gesture Synthesis Via Interleaved 7.0分 前50% 53. Retrieval-Based Speculative Decoding For Autoregressive Spee 7.0分 前50% 54. T-Mimi: A Transformer-Based Mimi Decoder for Real-Time On-Ph 7.0分 前50% 55. Wave-Trainer-Fit: Neural Vocoder With Trainable Prior And Fi 7.0分 前25% 56. EmoShift: Lightweight Activation Steering for Enhanced Emoti 7.0分 前50% 57. Task Vector in TTS: Toward Emotionally Expressive Dialectal 7.0分 前50% 58. Quantifying Speaker Embedding Phonological Rule Interactions 7.0分 前25% 59. PFluxTTS: Hybrid Flow-Matching TTS with Robust Cross-Lingual 7.0分 前50% 60. LP-CFM: Perceptual Invariance-Aware Conditional Flow Matchin 7.0分 前25% 61. SFM-TTS: Lightweight and Rapid Speech Synthesis with Flexibl 7.0分 前25% 62. MELA-TTS: Joint Transformer-Diffusion Model with Representat 7.0分 前25% 63. Combining Multi-Order Attention and Multi-Resolution Discrim 6.5分 前50% 📋 论文详情 🥇 T-Cache: Fast Inference For Masked Generative Transformer-Based TTS Via Prompt-Aware Feature Caching 🔥 9.0/10 | 前25% | #语音合成 | #实时处理 | #零样本 #语音大模型 ...

2026-04-29

ICASSP 2026 - 语音增强 #对抗防御 论文列表

ICASSP 2026 - 语音增强 #对抗防御 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Adversarial Defense via Generative Speech Enhancement Module 7.5分 前25% 📋 论文详情 🥇 Adversarial Defense via Generative Speech Enhancement Module ✅ 7.5/10 | 前25% | #语音增强 #对抗防御 | #语音增强 #数据增强 | #语音增强 #对抗防御 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Chi-Tao Chen(国立中央大学资讯工程学系),Chun-Shien Lu(中央研究院资讯科技研究所),Jia-Ching Wang(国立中央大学资讯工程学系) 💡 毒舌点评 本文巧妙地将对抗防御问题转化为语音增强任务,使用一个轻量级(2M参数)且高效的生成模型(MP-SENet)实现了在多个数据集和攻击类型下的出色防御效果,推理速度远超基于扩散模型的竞品。然而,其核心防御机制(高斯噪声注入+增强)在理论上可能不够“坚固”,面对精心设计的自适应攻击时(如论文表5),性能仍有显著下降,且在SC09这一基准上并未超越最强的对比方法AudioPure。 🔗 开源详情 代码:提供了官方GitHub仓库链接:apoman123/SpeechEnhancementDefense。 模型权重:论文中提及使用了在DNS Challenge上预训练的MP-SENet模型,但未明确是否公开其微调后的防御专用权重。 数据集:使用了公开数据集:SC09(Google Speech Commands子集), VCTK, QKWS, DNS-Challenge。 Demo:未提及。 复现材料:给出了关键的训练数据增强细节(噪声dBFS范围及最优值)、损失函数公式与权重、攻击参数设置。但优化器、学习率等训练配置未说明。 引用的开源项目:依赖了公开模型MP-SENet,并引用了多个基线方法和攻击方法的开源实现(如DefenseGAN, AudioPure, PGD攻击代码等)。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 语音增强 论文列表

ICASSP 2026 - 语音增强 共 75 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A Lightweight Fourier-Based Network for Binaural Speech Enha 8.5分 前25% 🥈 DiTSE: High-Fidelity Generative Speech Enhancement via Laten 8.5分 前10% 🥉 Towards Lightweight Adaptation of Speech Enhancement Models 8.5分 前25% 4. FastEnhancer: Speed-Optimized Streaming Neural Speech Enhanc 8.5分 前25% 5. DisContSE: Single-Step Diffusion Speech Enhancement based on 8.5分 前10% 6. Sidon: Fast and Robust Open-Source Multilingual Speech Resto 8.5分 前25% 7. Spike-Driven Low-Power Speech Bandwidth Extension 8.0分 前25% 8. MAGE: A Coarse-to-Fine Speech Enhancer with Masked Generativ 8.0分 前25% 9. Deep Learning-Based Joint Optimization of Adaptive Feedback 8.0分 前25% 10. HyFlowSE: Hybrid End-To-End Flow-Matching Speech Enhancement 8.0分 前25% 11. HCGAN: Harmonic-Coupled Generative Adversarial Network for S 8.0分 前50% 12. Exploring Resolution-Wise Shared Attention in Hybrid Mamba-U 8.0分 前25% 13. Mixture To Beamformed Mixture: Leveraging Beamformed Mixture 8.0分 前25% 14. Modeling Strategies For Speech Enhancement in The Latent Spa 8.0分 前50% 15. LAFUFU: Latent Acoustic Features For Ultra-Fast Utterance Re 8.0分 前25% 16. Influence of Clean Speech Characteristics on Speech Enhancem 8.0分 前25% 17. LipsAM: Lipschitz-Continuous Amplitude Modifier for Audio Si 7.5分 前25% 18. MSANET: Multi-Scale Semantic Aggregation Network for Brain-A 7.5分 前25% 19. Bone-Conduction Guided Multimodal Speech Enhancement with Co 7.5分 前25% 20. The 3rd Clarity Prediction Challenge: A Machine Learning Cha 7.5分 前25% 21. Two-Stage Language Model Framework for Acoustic Echo Cancell 7.5分 前25% 22. E2E-AEC: Implementing An End-To-End Neural Network Learning 7.5分 前25% 23. SpatialNet-Echo: Real-Time Acoustic Echo Cancellation via In 7.5分 前25% 24. A Stabilized Hybrid Active Noise Control Algorithm of GFANC 7.5分 前25% 25. Enhancing Speech Intelligibility Prediction for Hearing Aids 7.5分 前25% 26. H-nnPBFDAF: Hierarchical Neural Network Partitioned Block Fr 7.5分 前25% 27. Joint Deep Secondary Path Estimation and Adaptive Control fo 7.5分 前25% 28. Enhancing Noise Robustness for Neural Speech Codecs Through 7.5分 前25% 29. Low-Bandwidth High-Fidelity Speech Transmission with Generat 7.5分 前25% 30. From Diet to Free Lunch: Estimating Auxiliary Signal Propert 7.5分 前25% 31. Beamforming Using Virtual Microphones for Hearing Aid Applic 7.5分 前50% 32. I-DCCRN-VAE: An Improved Deep Representation Learning Framew 7.5分 前25% 33. Do We Need EMA for Diffusion-Based Speech Enhancement? Towar 7.5分 前50% 34. Hair Noise Analysis and Mitigation for Smart Glasses Audio C 7.5分 前25% 35. Are Modern Speech Enhancement Systems Vulnerable to Adversar 7.5分 前25% 36. UJCodec: An End-to-end Unet-Style Codec for Joint Speech Com 7.5分 前25% 37. Spatial Covariance Matrix Reconstruction for Speech Enhancem 7.5分 前25% 38. Training-Free Inference-Time Scaling for Audio Source Separa 7.5分 前25% 39. Forward Convolutive Prediction for Frame Online Monaural Spe 7.5分 前50% 40. MeanFlowSE: One-Step Generative Speech Enhancement via Condi 7.5分 前10% 41. FlowSE-GRPO: Training Flow Matching Speech Enhancement via O 7.5分 前25% 42. Aligning Generative Speech Enhancement with Perceptual Feedb 7.5分 前25% 43. PG-SE: Predictive Acceleration and Correction for Generative 7.5分 前25% 44. Dynamically Slimmable Speech Enhancement Network with Metric 7.5分 前25% 45. Lightweight Phoneme-Conditioned Bandwidth Extension for Body 7.5分 前25% 46. Fast-ULCNet: A Fast and Ultra Low Complexity Network for Sin 7.5分 前25% 47. ParaGSE: Parallel Generative Speech Enhancement with Group-V 7.5分 前25% 48. High-Fidelity Speech Enhancement Via Discrete Audio Tokens 7.5分 前25% 49. DISSR: Disentangling Speech Representation for Degradation-P 7.5分 前25% 50. Ranking The Impact of Contextual Specialization in Neural Sp 7.5分 前25% 51. BSMP-SENet:Band-Split Magnitude-Phase Network for Speech Enh 7.0分 前25% 52. DECAF: Dynamic Envelope Context-Aware Fusion for Speech-Enve 7.0分 前25% 53. DAT-CFTNet: Speech Enhancement for Cochlear Implant Recipien 7.0分 前50% 54. Acoustic Teleportation Via Disentangled Neural Audio Codec R 7.0分 前25% 55. Reference Microphone Selection for Guided Source Separation 7.0分 前50% 56. Low-Latency Audio Front-End Region-of-Interest Beamforming f 7.0分 前25% 57. AmbiDrop: Array-Agnostic Speech Enhancement Using Ambisonics 7.0分 前50% 58. Joint Multichannel Acoustic Feedback Cancellation and Speake 7.0分 前25% 59. Gdiffuse: Diffusion-Based Speech Enhancement with Noise Mode 7.0分 前25% 60. An Efficient Neural Network for Modeling Human Auditory Neur 7.0分 前25% 61. Shortcut Flow Matching for Speech Enhancement: Step-Invarian 7.0分 前25% 62. Generalizability of Predictive and Generative Speech Enhance 7.0分 前50% 63. Mambaformer: State-Space Augmented Self-Attention with Downu 7.0分 前25% 64. Auditory-Inspired Transformer for Binaural Speech Enhancemen 7.0分 前25% 65. A State-Dependent Markov Diffusion Process for Generative Sp 6.5分 前25% 66. Confidence-Based Filtering for Speech Dataset Curation with 6.5分 前50% 67. Sampling-Rate-Agnostic Speech Super-Resolution Based on Gaus 6.5分 前25% 68. Low-Frequency Harmonic Control for Speech Intelligibility in 6.5分 前50% 69. What the student learns in knowledge distillation: A subspac 6.5分 前50% 70. MeanSE: Efficient Generative Speech Enhancement with Mean Fl 6.5分 前25% 71. On The Design of Efficient Neural Methods for Geometry-Agnos 6.5分 前50% 72. Position-Invariant Fine-Tuning Of Speech Enhancement Models 6.5分 前50% 73. Stereophonic Acoustic Echo Cancellation Using an Improved Af 6.0分 前50% 74. Towards Real-Time Generative Speech Restoration with Flow-Ma 6.0分 前50% 75. Is Phase Really Needed for Weakly-Supervised Dereverberation 6.0分 前50% 📋 论文详情 🥇 A Lightweight Fourier-Based Network for Binaural Speech Enhancement with Spatial Cue Preservation 🔥 8.5/10 | 前25% | #语音增强 | #深度学习 | #轻量级模型 #空间音频 ...

2026-04-29

ICASSP 2026 - 语音大模型 论文列表

ICASSP 2026 - 语音大模型 共 3 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Cross-Lingual Interleaving for Speech Language Models 7.5分 前25% 🥈 Cross-Modal Knowledge Distillation for Speech Large Language 7.0分 前25% 🥉 SpeechMapper: Speech-To-Text Embedding Projector for LLMs 7.0分 前25% 📋 论文详情 🥇 Cross-Lingual Interleaving for Speech Language Models ✅ 7.5/10 | 前25% | #语音大模型 | #预训练 #多语言 | #预训练 #多语言 👥 作者与机构 第一作者:Adel Moumen(Department of Engineering, University of Cambridge, UK) 通讯作者:未说明 作者列表:Adel Moumen(Department of Engineering, University of Cambridge, UK)、Guangzhi Sun(Department of Engineering, University of Cambridge, UK)、Philip C. Woodland(Department of Engineering, University of Cambridge, UK) 💡 毒舌点评 ...

2026-04-29