ICASSP 2026 - 语音识别 论文列表

ICASSP 2026 - 语音识别 共 102 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Towards Robust Dysarthric Speech Recognition: LLM-Agent Post 9.0分 前25% 🥈 Target-Speaker LLM-ASR with Speaker-Aware Speech Encoder 8.8分 前10% 🥉 SE-DiCoW: Self-Enrolled Diarization-Conditioned Whisper 8.5分 前25% 4. Scaling Multi-Talker ASR with Speaker-Agnostic Activity Stre 8.5分 前25% 5. Improving Contextual Asr Via Multi-Grained Fusion With Large 8.5分 前25% 6. OMNI-AVSR: Towards Unified Multimodal Speech Recognition Wit 8.5分 前10% 7. AISHELL6-Whisper: A Chinese Mandarin Audio-Visual Whisper Sp 8.3分 前25% 8. Polynomial Mixing for Efficient Self-Supervised Speech Encod 8.0分 前25% 9. GLoRIA: Gated Low-Rank Interpretable Adaptation for Dialecta 8.0分 前25% 10. Voting-Based Pitch Estimation with Temporal and Frequential 8.0分 前25% 11. Identifying the Minimal and Maximal Phonetic Subspace of Spe 8.0分 前25% 12. Lattice-Guided Consistency Regularization of Dual-Mode Trans 8.0分 前25% 13. BiRQ: Bi-Level Self-Labeling Random Quantization for Self-Su 8.0分 前25% 14. Synthetic Data Domain Adaptation for ASR via LLM-Based Text 8.0分 前25% 15. STACodec: Semantic Token Assignment for Balancing Acoustic F 8.0分 前25% 16. Language-Infused Retrieval-Augmented CTC with Adaptive Soft- 8.0分 前25% 17. Relative Time Intervals Representation For Word-Level Timest 8.0分 前25% 18. RLBR: Reinforcement Learning with Biasing Rewards for Contex 8.0分 前25% 19. Grey-Box Prompt Tuning With Graph Alignment for Speech-Langu 8.0分 前25% 20. Frontend Token Enhancement for Token-Based Speech Recognitio 8.0分 前25% 21. Noise-Robust AV-ASR Using Visual Features both in the Whispe 8.0分 前25% 22. Synthesized Data Selection via Score Distribution Matching f 8.0分 前25% 23. Bayesian Low-Rank Factorization for Robust Model Adaptation 8.0分 前25% 24. nGPT as a Scalable Architecture for Speech Recognition and T 7.5分 前25% 25. Input-Adaptive Differentiable Filterbanks via Hypernetworks 7.5分 前25% 26. A Study of Data Selection Strategies for Pre-Training Self-S 7.5分 前25% 27. K-Function: Joint Pronunciation Transcription and Feedback f 7.5分 前25% 28. Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning f 7.5分 前25% 29. Adversarial Fine-Tuning on Speech Foundation Model with Vuln 7.5分 前25% 30. WAV2LEV: Predicting Levenshtein Edit Operation Sequences For 7.5分 前25% 31. LOTUSDIS: A Thai Far-Field Meeting Corpus for Robust Convers 7.5分 前25% 32. Whisper-FEST: Single-Channel Far-Field Enhanced Speech-to-te 7.5分 前50% 33. Production-Scale Dynamic Vocabulary ASR Biasing with Word-Le 7.5分 前25% 34. Do we really need self-attention for streaming automatic spe 7.5分 前25% 35. Advancing LLM-Based Multi-Channel Multi-Speaker Speech Recog 7.5分 前25% 36. Adapting Diarization-Conditioned Whisper for End-to-End Mult 7.5分 前25% 37. CALM: Joint Contextual Acoustic-Linguistic Modeling for Pers 7.5分 前25% 38. TTA: Transcribe, Translate and Alignment for Cross-Lingual S 7.5分 前25% 39. Emilia-NV: A Non-Verbal Speech Dataset with Word-Level Annot 7.5分 前25% 40. LLM-Based Post-ASR Error Correction for Disordered Speech 7.5分 前50% 41. Content-Preserving Speech Representation Learning Via Adapti 7.5分 前25% 42. Exploring SSL Discrete Tokens for Multilingual Automatic Spe 7.5分 前25% 43. TICL: Text-Embedding KNN for Speech in-Context Learning Unlo 7.5分 前25% 44. Purification Before Fusion: Toward Mask-Free Speech Enhancem 7.5分 前25% 45. Cross-Modal Bottleneck Fusion for Noise Robust Audio-Visual 7.5分 前25% 46. Inverse-Hessian Regularization for Continual Learning in ASR 7.5分 前25% 47. BEST-RQ-based Self-Supervised Learning for Whisper Domain Ad 7.5分 前25% 48. CCST: Cross-Modal and Consistency-Aware Self-Training for So 7.5分 前25% 49. Chunk-Wise Attention Transducers for Fast and Accurate Strea 7.5分 前25% 50. Chunkwise Aligners for Streaming Speech Recognition 7.5分 前25% 51. FinHuBERT: Hierarchical Feature Imitating Networks for Low-R 7.5分 前25% 52. UMA-SPLIT: Unimodal Aggregation for Both English and Mandari 7.5分 前25% 53. MNV-17: A High-Quality Performative Mandarin Dataset for Non 7.5分 前25% 54. Listen, But Don’t Leak: Sensitive Data Protection for Privac 7.5分 前25% 55. Confidence-Guided Error Correction for Disordered Speech Rec 7.5分 前25% 56. Advancing Semi-Supervised Child Speech Recognition with Omni 7.5分 前25% 57. Variational Low-Rank Adaptation for Personalized Impaired Sp 7.5分 前50% 58. Decoder-Only Conformer with Modality-Aware Sparse Mixtures o 7.5分 前25% 59. Cross-Cultural Bias in Mel-Scale Representations: Evidence a 7.0分 前25% 60. Bridging the Front-End and Back-End for Robust ASR via Cross 7.0分 前25% 61. TASU: Text-only Alignment for Speech Understanding 7.0分 前25% 62. Streaming Speech Recognition with Decoder-Only Large Languag 7.0分 前25% 63. Reducing Prompt Sensitivity in LLM-Based Speech Recognition 7.0分 前25% 64. PAC: Pronunciation-Aware Contextualized Large Language Model 7.0分 前25% 65. Investigating The Effect Of Sentence-Level Syntactic Structu 7.0分 前50% 66. SSVD-O: Parameter-Efficient Fine-Tuning with Structured SVD 7.0分 前25% 67. Three Seconds is Sufficient: A Multi-Pronged Framework for M 7.0分 前50% 68. In-Sync: Adaptation of Speech Aware Large Language Models fo 7.0分 前50% 69. AccLID: Accent-aware Language Identification for Robust Mult 7.0分 前25% 70. BBPE16: UTF-16-Based Byte-Level Byte-Pair Encoding for Impro 7.0分 前50% 71. Mixtures of Lightweight Articulatory Experts for Multilingua 7.0分 前25% 72. Towards Orthographically-Informed Evaluation of Speech Recog 7.0分 前25% 73. Contextual Biasing for ASR in Speech LLM with Common Word Cu 7.0分 前25% 74. Peeking Into the Future for Contextual Biasing 7.0分 前50% 75. SLM-TTA: A Framework for Test-Time Adaptation of Generative 7.0分 前50% 76. Tokenchain: A Discrete Speech Chain via Semantic Token Model 7.0分 前25% 77. Advanced modeling of interlanguage speech intelligibility be 7.0分 前25% 78. Leveraging Segment-Level Speech Representations for LLM-Base 7.0分 前50% 79. Mitigating Attention Sinks and Massive Activations in Audio- 7.0分 前25% 80. Teaching the Teachers: Boosting Unsupervised Domain Adaptati 7.0分 前25% 81. Attention2Probability: Attention-Driven Terminology Probabil 7.0分 前25% 82. Whisper-MLA: Reducing GPU Memory Consumption of ASR Models B 7.0分 前25% 83. Mind the Shift: Using Delta SSL Embeddings to Enhance Child 7.0分 前25% 84. PhoenixDSR: Phoneme-Guided and LLM-Enhanced Dysarthric Speec 7.0分 前50% 85. Audio-Conditioned Diffusion LLMs for ASR and Deliberation Pr 7.0分 前50% 86. Sequence-Level Unsupervised Training in Speech Recognition: 6.5分 前50% 87. Ara-BEST-RQ: Multi Dialectal Arabic SSL 6.5分 前50% 88. Medical ASR Enhancement by Domain-Specific Reinforcement Fin 6.5分 前25% 89. CTC-DID: CTC-Based Arabic Dialect Identification for Streami 6.5分 前50% 90. Towards Fair ASR for Second Language Speakers using Fairness 6.5分 前50% 91. Towards Building Speech Large Language Models for Multitask 6.5分 前25% 92. Whisper: Courtside Edition - Enhancing ASR Performance throu 6.5分 前50% 93. SED: Structural Entropy Based Speech Discretization for Disc 6.5分 前50% 94. Multilingual Supervised Pretraining with Lm-Assisted Decodin 6.5分 前50% 95. Improving Automatic Speech Recognition by Mitigating Distort 6.5分 前25% 96. Windowed SummaryMixing: An Efficient Fine-Tuning of Self-Sup 6.5分 前50% 97. Proficiency-Aware Adaptation and Data Augmentation for Robus 6.5分 前25% 98. Domain-Aware Scheduling for ASR Fine-Tuning 6.5分 前50% 99. Online Register For Dual-Mode Self-Supervised Speech Models: 6.5分 前50% 100. Learning to Align with Unbalanced Optimal Transport in Lingu 6.5分 前50% 101. How Far Do SSL Speech Models Listen for Tone? Temporal Focus 6.5分 前50% 102. Leveraging Audio-Visual Data to Reduce the Multilingual Gap 6.0分 前50% 📋 论文详情 🥇 Towards Robust Dysarthric Speech Recognition: LLM-Agent Post-ASR Correction Beyond WER 🔥 9.0/10 | 前25% | #语音识别 | #大语言模型 | #鲁棒性 #数据集 ...

2026-04-29 · 更新于 2026-05-22 · 55 min · 11705 words

ICASSP 2026 - 语音质量评估 论文列表

ICASSP 2026 - 语音质量评估 共 8 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Bridging the Semantic Gap: Cross-Attentive Fusion for Joint 8.5分 前25% 🥈 Unseen but Not Unknown: Using Dataset Concealment to Robustl 8.3分 前25% 🥉 Time vs. Layer: Locating Predictive Cues for Dysarthric Spee 7.5分 前50% 4. Multi-Task Learning For Speech Quality Assessment Using ASR- 7.5分 前25% 5. Quality Assessment of Noisy and Enhanced Speech with Limited 7.0分 前25% 6. SA-SSL-MOS: Self-Supervised Learning MOS Prediction with Spe 7.0分 前50% 7. Speech Quality-Based Localization of Low-Quality Speech and 7.0分 前25% 8. A Generalization Strategy for Speech Quality Prediction: Fro 6.5分 前25% 📋 论文详情 🥇 Bridging the Semantic Gap: Cross-Attentive Fusion for Joint Acoustic-Semantic Speech Quality Assessment 🔥 8.5/10 | 前25% | #语音质量评估 | #对比学习 | #预训练 #交叉注意力 ...

2026-04-29 · 更新于 2026-05-22 · 6 min · 1238 words

ICASSP 2026 - 语音转换 #语音增强 论文列表

ICASSP 2026 - 语音转换 #语音增强 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 VChangeCodec: An Ultra Low-Complexity Neural Speech Codec wi 8.0分 前25% 📋 论文详情 🥇 VChangeCodec: An Ultra Low-Complexity Neural Speech Codec with Built-In Voice Changer for Customized Real-Time Communication 🔥 8.0/10 | 前25% | #语音转换 #语音增强 | #端到端 | #语音转换 #语音增强 👥 作者与机构 第一作者:Xusheng Yang (⋆†) (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) 通讯作者:Yuexian Zou (⋆†B) (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) 作者列表: Xusheng Yang (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) Wei Xiao (⋄) (腾讯天籁音频实验室) Bang Yang (‡) (鹏城实验室) Shidong Shang (⋄) (腾讯天籁音频实验室) Yuexian Zou (⋆†B) (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) 💡 毒舌点评 ...

2026-04-29 · 更新于 2026-05-22 · 1 min · 144 words

ICASSP 2026 - 语音转换 论文列表

ICASSP 2026 - 语音转换 共 9 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversio 8.0分 前25% 🥈 Conditional Diffusion Models for Mental Health-Preserving Vo 8.0分 前25% 🥉 CosyAccent: Duration-Controllable Accent Normalization using 7.8分 前25% 4. QE-XVC: Zero-Shot Cross-Lingual Voice Conversion via Query-E 7.5分 前25% 5. MeanVC: Lightweight and Streaming Zero-Shot Voice Conversion 7.5分 前25% 6. Expressive Voice Conversion with Controllable Emotional Inte 7.5分 前25% 7. Lightweight and Perceptually-Guided Voice Conversion for Ele 7.5分 前25% 8. MeanVoiceFlow: One-Step Nonparallel Voice Conversion with Me 7.0分 前25% 9. MaskVCT: Masked Voice Codec Transformer for Zero-Shot Voice 6.5分 前50% 📋 论文详情 🥇 FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversion with Factorized Speech Codec 🔥 8.0/10 | 前25% | #语音转换 | #扩散模型 | #零样本 #语音编解码器 ...

2026-04-29 · 更新于 2026-05-22 · 5 min · 962 words

ICASSP 2026 - 语音问答 论文列表

ICASSP 2026 - 语音问答 共 3 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 TextlessRAG: End-to-End Visual Document RAG by Speech withou 8.5分 前25% 🥈 Understanding Textual Capability Degradation in Speech LLMS 7.5分 前25% 🥉 Advancing Speech Understanding in Speech-Aware Language Mode 7.0分 前25% 📋 论文详情 🥇 TextlessRAG: End-to-End Visual Document RAG by Speech without Text 🔥 8.5/10 | 前25% | #语音问答 | #端到端 | #基准测试 #跨模态 ...

2026-04-29 · 更新于 2026-05-22 · 2 min · 311 words

ICASSP 2026 - 语音驱动动作生成 论文列表

ICASSP 2026 - 语音驱动动作生成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Style-Disentangled Diffusion for Controllable and Identity-G 7.0分 前25% 📋 论文详情 🥇 Style-Disentangled Diffusion for Controllable and Identity-Generalized Speech-Driven Body Motion Generation ✅ 7.0/10 | 前25% | #语音驱动动作生成 | #扩散模型 | #对比学习 #解耦学习 👥 作者与机构 第一作者:Zixiang Lu(西安电子科技大学计算机科学与技术学院) 通讯作者:Zhitong He, Qiguang Miao(西安电子科技大学计算机科学与技术学院) 作者列表:Zixiang Lu(西安电子科技大学计算机科学与技术学院)、Zhitong He(西安电子科技大学计算机科学与技术学院)、Zixuan Wang(未说明)、Yunan Li(未说明)、Qiguang Miao(西安电子科技大学计算机科学与技术学院) 💡 毒舌点评 亮点:风格解耦模块的设计很巧妙,通过对比学习拉近同一说话人风格码的距离,并用梯度反转从内容特征中剥离身份信息,理论上提升了可控性和可解释性。短板:论文声称的“Identity-Generalized”能力仅在单一数据集(BEATX)的同一说话人测试集上进行定量评估,缺乏跨数据集或对未知说话人的严格泛化验证,说服力稍显不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开的BEATX数据集,论文中未说明是否提供其他自定义数据。 Demo:未提及在线演示。 复现材料:论文给出了损失函数的权重配置,但缺少训练超参数、模型架构细节等关键复现信息。 论文中引用的开源项目:未在正文中明确引用特定开源项目。方法部分参考了Syntalker [11]的分割策略,数据集使用了BEATX [12]。 论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29 · 更新于 2026-05-22 · 1 min · 130 words

ICASSP 2026 - 说话人分离 论文列表

ICASSP 2026 - 说话人分离 共 9 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Train Short, Infer Long: Speech-LLM Enables Zero-Shot Stream 9.0分 前10% 🥈 VBx for End-to-End Neural and Clustering-Based Diarization 8.5分 前25% 🥉 Spatially Aware Self-Supervised Models for Multi-Channel Neu 8.0分 前25% 4. Dual-Strategy-Enhanced Conbimamba for Neural Speaker Diariza 8.0分 前25% 5. Attention-Based Encoder-Decoder Target-Speaker Voice Activit 8.0分 前25% 6. β-AVSDNET: A Novel End-To-End Neural Network Architecture Fo 7.5分 前25% 7. Automatic Estimation of Speaker Diarization Error Rate Based 7.5分 前25% 8. Single-Microphone Audio Point Source Discriminative Localiza 7.0分 前25% 9. Integrating Speaker Embeddings and LLM-Derived Semantic Repr 6.5分 前25% 📋 论文详情 🥇 Train Short, Infer Long: Speech-LLM Enables Zero-Shot Streamable Joint ASR and Diarization on Long Audio 🔥 9.0/10 | 前10% | #说话人分离 | #语音大模型 | #语音识别 #端到端 ...

2026-04-29 · 更新于 2026-05-22 · 6 min · 1217 words

ICASSP 2026 - 说话人合成 论文列表

ICASSP 2026 - 说话人合成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 PSTalker: Realistic 3D Talking Head Synthesis via a Semantic 7.5分 前25% 📋 论文详情 🥇 PSTalker: Realistic 3D Talking Head Synthesis via a Semantic-Aware Audio-Driven Point-Based Shape ✅ 7.5/10 | 前25% | #说话人合成 | #3D音频 | #语音合成 #音视频 👥 作者与机构 第一作者:Zhongyuan Zhao(北京大学电子与计算机工程学院,鹏城实验室) 通讯作者:Kanglin Liu(鹏城实验室) 作者列表:Zhongyuan Zhao(北京大学电子与计算机工程学院,鹏城实验室)、Qing Li(鹏城实验室)、Kanglin Liu(鹏城实验室) 💡 毒舌点评 论文巧妙地将语义先验融入点基形状表示,有效解决了头颈接合处的“断裂”伪影,这是当前3DGS方法的一个显著痛点,体现了其工程洞察力。然而,其对非刚性形变(如头发细节)的建模能力、以及在多人种、复杂表情下的泛化能力验证略显不足,且“高保真”渲染的细节处理(如动态光照、微表情)仍有提升空间。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:论文中提及使用的数据来源于之前的公开工作(ER-NeRF, TalkingGaussian, GaussianTalker),但并未明确声明自己收集的数据集是否开源或如何获取。 Demo:未提及在线演示。 复现材料:论文提供了一些训练细节,如两阶段训练、损失函数组成、使用HuBERT提取特征、以及大致的优化器类型(SparseAdam, AdamW)和推理硬件(RTX 3090),但缺少学习率、批次大小、训练轮次等关键超参数。 引用的开源项目:论文依赖并引用��多个开源工作,包括FLAME模型、3D Gaussian Splatting、HuBERT(用于音频特征提取)等。 总结:论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29 · 更新于 2026-05-22 · 1 min · 96 words

ICASSP 2026 - 说话人日志 #语音分离 论文列表

ICASSP 2026 - 说话人日志 #语音分离 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Loose Coupling of Spectral and Spatial Models for Multi-Chan 7.2分 前25% 📋 论文详情 🥇 Loose Coupling of Spectral and Spatial Models for Multi-Channel Diarization and Enhancement of Meetings in Dynamic Environments ✅ 7.2/10 | 前25% | #说话人日志 #语音分离 | #麦克风阵列 #波束成形 | #说话人日志 #语音分离 👥 作者与机构 第一作者:Adrian Meise (Paderborn University, Germany), Tobias Cord-Landwehr (Paderborn University, Germany) (论文标注“*Authors contributed equally”,为共同第一作者) 通讯作者:未说明 作者列表:Adrian Meise (Paderborn University), Tobias Cord-Landwehr (Paderborn University), Christoph Boeddeker (Paderborn University), Marc Delcroix (NTT, Inc., Japan), Tomohiro Nakatani (NTT, Inc., Japan), Reinhold Haeb-Umbach (Paderborn University) 💡 毒舌点评 ...

2026-04-29 · 更新于 2026-05-22 · 1 min · 202 words

ICASSP 2026 - 说话人日志 论文列表

ICASSP 2026 - 说话人日志 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A Framework for Controlled Multi-Speaker Audio Synthesis for 7.5分 前25% 🥈 Mitigating Intra-Speaker Variability in Diarization with Sty 7.0分 前25% 📋 论文详情 🥇 A Framework for Controlled Multi-Speaker Audio Synthesis for Robustness Evaluation of Speaker Diarisation Systems ✅ 7.5/10 | 前25% | #说话人日志 | #数据增强 | #说话人分离 #基准测试 👥 作者与机构 第一作者:Shreyas Ramoji(谢菲尔德大学计算机学院,SpandH Group) 通讯作者:未说明 作者列表:Shreyas Ramoji(谢菲尔德大学计算机学院,SpandH Group)、Vivek Kumar Thoppe Ravindranath(谢菲尔德大学计算机学院,SpandH Group)、Thomas Hain(谢菲尔德大学计算机学院,SpandH Group) 💡 毒舌点评 ...

2026-04-29 · 更新于 2026-05-22 · 2 min · 278 words