Icassp-2026

ICASSP 2026 - 语音生成论文列表

ICASSP 2026 - 语音生成共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Why Do Speech Language Models Fail to Generate Semantically 7.0分前25% 📋 论文详情 🥇 Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective ✅ 7.0/10 | 前25% | #语音生成 | #模型评估 | #语音大模型 #零样本 👥 作者与机构第一作者：Hankun Wang（X-LANCE Lab，上海交通大学计算机科学与技术学院）通讯作者：Kai Yu（X-LANCE Lab，上海交通大学计算机科学与技术学院）作者列表：Hankun Wang（X-LANCE Lab，上海交通大学）， Haoran Wang（X-LANCE Lab，上海交通大学）， Yiwei Guo（X-LANCE Lab，上海交通大学）， Zhihan Li（X-LANCE Lab，上海交通大学）， Chenpeng Du（X-LANCE Lab，上海交通大学）， Kai Yu（X-LANCE Lab，上海交通大学） 💡 毒舌点评 ...

ICASSP 2026 - 语音生物标志物论文列表

ICASSP 2026 - 语音生物标志物共 24 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Interval-Aware Retrieval Framework For Speech-Based Automati 8.5分前25% 🥈 Low-Resource Speech-Based Early Alzheimers Detection via Cro 7.5分前25% 🥉 Reliable AI via Age-Balanced Validation: Fair Model Selectio 7.5分前25% 4. Efficient Depression Detection from Speech via Language-Inde 7.5分前25% 5. Multi-View Hierarchical Hypergraph Neural Network for Automa 7.5分前25% 6. Evaluating Pretrained Speech Embedding Systems for Dysarthri 7.5分前50% 7. Optimizing Domain-Adaptive Self-Supervised Learning for Clin 7.0分前25% 8. Does the Pre-Training of an Embedding Influence its Encoding 7.0分前50% 9. An Anomaly-Aware and Audio-Enhanced Dual-Pathway Framework f 7.0分前25% 10. Leveraging Text-to-Speech and Voice Conversion as Data Augme 7.0分前50% 11. DPT-Net: Dual-Path Transformer Network with Hierarchical Fus 7.0分前25% 12. CMSA-Mamba: Hierarchical State Space Modeling for Audio-Base 7.0分前25% 13. Dual Contrastive Learning for Semi-Supervised Domain Adaptat 7.0分前25% 14. An Unsupervised Alignment Feature Fusion System for Spoken L 7.0分前25% 15. Modeling Inter-Segment Relationships in Speech for Dementia 7.0分前25% 16. When Children Talk and Machines Listen: Toward an Interpreta 7.0分前50% 17. Graph-Biased EEG Transformers for Silent Speech Decoding 6.5分前25% 18. A Consistent Learning Depression Detection Framework Integra 6.5分前50% 19. Obstructive Sleep Apnea Endotype Prediction During Wakefulne 6.5分前50% 20. Cross-Lingual Alzheimer’s Disease Detection with Multimodal 6.5分前25% 21. Multimodal LLMs as Expert Speech Annotators: Acoustic Macro- 6.5分前50% 22. Probing Whisper for Dysarthric Speech in Detection and Asses 6.5分前25% 23. Mixture of Experts for Recognizing Depression from Interview 6.0分前50% 24. Estimating Hand-Related Features from Speech Using Machine L 5.0分前50% 📋 论文详情 🥇 Interval-Aware Retrieval Framework For Speech-Based Automatic Alzheimer’s Detection 🔥 8.5/10 | 前25% | #语音生物标志物 | #检索增强生成 | #多模态模型 #迁移学习 ...

ICASSP 2026 - 语音编码论文列表

ICASSP 2026 - 语音编码共 5 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Lisa: Lightweight Yet Superb Neural Speech Coding 8.5分前25% 🥈 FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via C 8.0分前25% 🥉 CodecSlime: Temporal Redundancy Compression of Neural Speech 7.5分前10% 4. Speaking Clearly: A Simplified Whisper-Based Codec for Low-B 7.5分前25% 5. IBPCodec : A Low-Bitrate Lightweight Speech Codec With Inter 7.0分前25% 📋 论文详情 🥇 Lisa: Lightweight Yet Superb Neural Speech Coding 🔥 8.5/10 | 前25% | #语音编码 | #信号处理 | #向量量化 #实时处理 ...

ICASSP 2026 - 语音编码器论文列表

ICASSP 2026 - 语音编码器共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Auden-Voice: General-Purpose Voice Encoder for Speech and La 7.5分前25% 📋 论文详情 🥇 Auden-Voice: General-Purpose Voice Encoder for Speech and Language Understanding ✅ 7.5/10 | 前25% | #语音编码器 | #多任务学习 | #说话人识别 #副语言理解 👥 作者与机构第一作者：Mingyue Huo（University of Illinois Urbana-Champaign）通讯作者：未说明（论文作者列表为三位，未明确标注通讯作者）作者列表：Mingyue Huo（University of Illinois Urbana-Champaign）、Wei-Cheng Tseng（University of Texas at Austin）、Yiwen Shao（Tencent AI Lab, USA）、Hao Zhang（Tencent AI Lab, USA）、Dong Yu（Tencent AI Lab, USA） 💡 毒舌点评 ...

ICASSP 2026 - 语音翻译论文列表

ICASSP 2026 - 语音翻译共 8 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 MTP-S2UT: Enhancing Speech-to-Speech Translation Quality wit 8.5分前25% 🥈 ATOM: Adaptive Token-Level Optimal Transport Mixup for Speec 8.0分前25% 🥉 SEP-ST: Incorporating Speech Entity Prompt Into Large Langua 7.5分前25% 4. Phrased: Phrase Dictionary Biasing for Speech Translation 7.5分前25% 5. Direct Transfer of Prosody in Speech-to-speech Translation u 7.5分前25% 6. PROST-LLM: Progressively Enhancing the Speech-to-Speech Tran 7.5分前25% 7. Revisiting Direct Speech-to-Text Translation with Speech LLM 7.5分前50% 8. Direct Simultaneous Translation Activation for Large Audio-L 6.0分前25% 📋 论文详情 🥇 MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-Token Prediction 🔥 8.5/10 | 前25% | #语音翻译 | #多任务学习 | #语音大模型 #多语言 ...

ICASSP 2026 - 语音表示学习论文列表

ICASSP 2026 - 语音表示学习共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Phonological Tokenizer: Prosody-Aware Phonetic Token Via Mul 8.0分前25% 📋 论文详情 🥇 Phonological Tokenizer: Prosody-Aware Phonetic Token Via Multi-Objective Fine-Tuning with Differentiable K-Means 🔥 8.0/10 | 前25% | #语音表示学习 | #离散token | #多任务学习 #自监督学习 👥 作者与机构第一作者：Kentaro Onda（东京大学，索尼集团）通讯作者：未说明作者列表：Kentaro Onda（东京大学，索尼集团）、Hayato Futami（索尼集团）、Yosuke Kashiwagi（索尼集团）、Emiru Tsunoo（索尼集团）、Shinji Watanabe（卡内基梅隆大学） 💡 毒舌点评这篇论文的亮点在于其巧妙地利用多目标优化和可微分k-means，在理论上“纯净”的语音学token和“丰富”的声学token之间找到了一个实用且性能优异的平衡点，尤其在情感识别和语音转换等韵律敏感任务上取得了显著提升。然而，其短板在于对“不同iable k-means”这一核心工具的离散化本质在端到端训练中可能带来的优化挑战（如梯度估计方差）探讨不足，且虽然声码器使用了预训练说话人编码器进行条件化以“剥离”说话人信息，但这种剥离是否彻底以及对下游任务的潜在影响分析不够深入。 🔗 开源详情代码：论文中未提及代码仓库链接。方法基于ESPnet工具包实现。模型权重：未提及是否公开微调后的模型权重。数据集：使用了VCTK， LibriSpeech， RAVDESS， VoxCeleb， LJSpeech， TIMIT， Expresso， LibriLight等公开数据集，获取方式见各自官网。 Demo：提供了在线演示网站：https://ondatk68.github.io/onda-demo/projects/phonological-tokenizer。复现材料：给出了部分训练细节（如两阶段训练、学习率、epoch数、α值），但未提供完整的配置文件、检查点或详细的超参数列表。论文中引用的开源项目：ESPnet， HiFi-GAN（ParallelWaveGAN）， ECAPA-TDNN（SpeechBrain）， WavLM， Qwen2.5， Llama-3.2等。 📌 核心摘要 ...

ICASSP 2026 - 语音解码论文列表

ICASSP 2026 - 语音解码共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 A Robust Multi-Scale Framework with Test-Time Adaptation for 7.5分前25% 📋 论文详情 🥇 A Robust Multi-Scale Framework with Test-Time Adaptation for sEEG-Based Speech Decoding ✅ 7.5/10 | 前25% | #语音解码 | #领域适应 | #脑机接口 #多尺度特征学习 👥 作者与机构第一作者：Yang-yang Li（南京理工大学计算机科学与工程学院；香港中文大学（深圳）数据科学学院、人工智能学院）通讯作者：Siqi Cai（哈尔滨工业大学（深圳）智能科学与工程学院、人工智能学院）作者列表：Yang-yang Li（南京理工大学计算机科学与工程学院；香港中文大学（深圳）数据科学学院、人工智能学院）、Suli Wang（达姆施塔特工业大学计算机科学系；香港中文大学（深圳）数据科学学院、人工智能学院）、Siqi Cai（哈尔滨工业大学（深圳）智能科学与工程学院、人工智能学院）、Haizhou Li（香港中文大学（深圳）数据科学学院、人工智能学院） 💡 毒舌点评这篇论文的亮点在于直面sEEG信号解码的核心痛点——非平稳性导致的域偏移，并提出了一个逻辑清晰、组件有效的“先强化表示，再在线适应”的两阶段解决方案，在公开数据集上确实取得了显著的性能提升。其短板在于实验仅在一个数据集（DU-IN）上验证，且模型大小（5.964M）在BCI植入式应用场景下可能偏大，论文对模型轻量化和实时推理的考量不足，临床转化的可行性论证略显单薄。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/lyyi599/MDM-Tent。但未说明代码是否已发布，或仅为占位页面。模型权重：论文中未提及是否提供预训练模型权重。数据集：实验使用了公开的DU-IN数据集，论文中未提供其具体获取方式，但暗示读者可参考原始研究。 Demo：论文中未提及在线演示。复现材料：论文中部分训练细节（如优化器、学习率、batch size）未说明。消融实验的完整结果可在提供的GitHub链接中获取。论文中引用的开源项目：论文引用了多个基线模型的开源实现或相关工作，如DU-IN、EEGNet、Tent等。 📌 核心摘要 ...

ICASSP 2026 - 语音评估论文列表

ICASSP 2026 - 语音评估共 5 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Mispronunciation Detection and Diagnosis Without Model Train 8.0分前25% 🥈 Matrix-Structured Hierarchical Convolutional Modeling for Pr 8.0分前25% 🥉 Reference-Aware SFM Layers for Intrusive Intelligibility Pre 7.5分前10% 4. Session-Level Spoken Language Assessment with A Multimodal F 7.5分前25% 5. Fine-Tuning Large Multimodal Models for Automatic Pronunciat 7.0分前50% 📋 论文详情 🥇 Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Based Approach 🔥 8.0/10 | 前25% | #语音评估 | #检索增强 | #预训练 #零样本 ...

ICASSP 2026 - 语音识别 #语音合成论文列表

ICASSP 2026 - 语音识别 #语音合成共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 TAGARELA - A Portuguese Speech Dataset from Podcasts 7.0分前25% 📋 论文详情 🥇 TAGARELA - A Portuguese Speech Dataset from Podcasts ✅ 7.0/10 | 前25% | #语音识别 #语音合成 | #预训练 | #语音识别 #语音合成 👥 作者与机构第一作者：Frederico Santos de Oliveira（Federal University of Mato Grosso (UFMT)）通讯作者：未说明作者列表：Frederico Santos de Oliveira (UFMT), Lucas Rafael Stefanel Gris (UFG), Alef Iury Siqueira Ferreira (UFG), Augusto Seben da Rosa (UNESP), Alexandre Costa Ferro Filho (UFG), Edresson Casanova (NVIDIA), Christopher Dane Shulby (Elsa Speak), Rafael Teixeira Sousa (UFMT), Diogo Fernandes Costa Silva (UFG), Anderson da Silva Soares (UFG), Arlindo Rodrigues Galvão Filho (UFG) 💡 毒舌点评 ...

ICASSP 2026 - 语音识别 #语音翻译论文列表

ICASSP 2026 - 语音识别 #语音翻译共 3 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 LESS: Large Language Model Enhanced Semi-Supervised Learning 7.5分前25% 🥈 Equipping Large Language Model with Directional Speech Under 7.0分前50% 🥉 Joint Autoregressive Modeling of Multi-Talker Overlapped Spe 7.0分前25% 📋 论文详情 🥇 LESS: Large Language Model Enhanced Semi-Supervised Learning for Speech Foundational Models Using in-the-wild Data ✅ 7.5/10 | 前25% | #语音识别 #语音翻译 | #半监督学习 #大语言模型 | #语音识别 #语音翻译 ...