ICASSP 2026 - 语音摘要 论文列表

ICASSP 2026 - 语音摘要 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Semantic Anchor Transfer from Short to Long Speech in a Dist 7.5分 前25% 📋 论文详情 🥇 Semantic Anchor Transfer from Short to Long Speech in a Distillation-Based Summarization Framework ✅ 7.5/10 | 前25% | #语音摘要 | #知识蒸馏 | #端到端 #迁移学习 👥 作者与机构 第一作者:Xiang He (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心) 通讯作者:Liang He (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心;新疆大学智能科学与技术学院;清华大学电子工程系) 作者列表:Xiang He (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心)、Xuejian Zhao (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心)、Longwei Li (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心)、Liang He (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心;新疆大学智能科学与技术学院;清华大学电子工程系) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 语音活动检测 论文列表

ICASSP 2026 - 语音活动检测 共 5 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Lingometer: On-Device Personal Speech Word Counting System 8.0分 前25% 🥈 EEND-SAA: Enrollment-Less Main Speaker Voice Activity Detect 7.5分 前25% 🥉 Dual Data Scaling for Robust Two-Stage User-Defined Keyword 7.5分 前25% 4. EdgeSpot: Efficient and High-Performance Few-Shot Model for 7.5分 前25% 5. TVP-UNet: Threshold Variance Penalty U-Net for Voice Activit 7.0分 前25% 📋 论文详情 🥇 Lingometer: On-Device Personal Speech Word Counting System 🔥 8.0/10 | 前25% | #语音活动检测 | #端到端 | #低资源 #数据增强 ...

2026-04-29

ICASSP 2026 - 语音理解 论文列表

ICASSP 2026 - 语音理解 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Exploring Fine-Tuning Of Large Audio Language Models For Spo 8.0分 前25% 🥈 Scaling Spoken Language Models with Syllabic Speech Tokeniza 7.0分 前25% 📋 论文详情 🥇 Exploring Fine-Tuning Of Large Audio Language Models For Spoken Language Understanding Under Limited Speech Data 🔥 8.0/10 | 前25% | #语音理解 | #迁移学习 | #低资源 #多语言 👥 作者与机构 第一作者:Youngwon Choi (MAUM AI Inc., Republic of Korea) 通讯作者:Huu-Kim Nguyen (∗ 作者列表中标注星号,现单位为 Atmanity Inc., USA) 作者列表: Youngwon Choi (MAUM AI Inc., Republic of Korea) Jaeyoon Jung (MAUM AI Inc., Republic of Korea & Soongsil University, Republic of Korea) Hyeonyu Kim (MAUM AI Inc., Republic of Korea) Huu-Kim Nguyen (MAUM AI Inc., Republic of Korea → 现 Atmanity Inc., USA) Hwayeon Kim (MAUM AI Inc., Republic of Korea) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 语音生成 论文列表

ICASSP 2026 - 语音生成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Why Do Speech Language Models Fail to Generate Semantically 7.0分 前25% 📋 论文详情 🥇 Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective ✅ 7.0/10 | 前25% | #语音生成 | #模型评估 | #语音大模型 #零样本 👥 作者与机构 第一作者:Hankun Wang(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 通讯作者:Kai Yu(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 作者列表:Hankun Wang(X-LANCE Lab, 上海交通大学), Haoran Wang(X-LANCE Lab, 上海交通大学), Yiwei Guo(X-LANCE Lab, 上海交通大学), Zhihan Li(X-LANCE Lab, 上海交通大学), Chenpeng Du(X-LANCE Lab, 上海交通大学), Kai Yu(X-LANCE Lab, 上海交通大学) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 语音生物标志物 论文列表

ICASSP 2026 - 语音生物标志物 共 24 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Interval-Aware Retrieval Framework For Speech-Based Automati 8.5分 前25% 🥈 Low-Resource Speech-Based Early Alzheimers Detection via Cro 7.5分 前25% 🥉 Reliable AI via Age-Balanced Validation: Fair Model Selectio 7.5分 前25% 4. Efficient Depression Detection from Speech via Language-Inde 7.5分 前25% 5. Multi-View Hierarchical Hypergraph Neural Network for Automa 7.5分 前25% 6. Evaluating Pretrained Speech Embedding Systems for Dysarthri 7.5分 前50% 7. Optimizing Domain-Adaptive Self-Supervised Learning for Clin 7.0分 前25% 8. Does the Pre-Training of an Embedding Influence its Encoding 7.0分 前50% 9. An Anomaly-Aware and Audio-Enhanced Dual-Pathway Framework f 7.0分 前25% 10. Leveraging Text-to-Speech and Voice Conversion as Data Augme 7.0分 前50% 11. DPT-Net: Dual-Path Transformer Network with Hierarchical Fus 7.0分 前25% 12. CMSA-Mamba: Hierarchical State Space Modeling for Audio-Base 7.0分 前25% 13. Dual Contrastive Learning for Semi-Supervised Domain Adaptat 7.0分 前25% 14. An Unsupervised Alignment Feature Fusion System for Spoken L 7.0分 前25% 15. Modeling Inter-Segment Relationships in Speech for Dementia 7.0分 前25% 16. When Children Talk and Machines Listen: Toward an Interpreta 7.0分 前50% 17. Graph-Biased EEG Transformers for Silent Speech Decoding 6.5分 前25% 18. A Consistent Learning Depression Detection Framework Integra 6.5分 前50% 19. Obstructive Sleep Apnea Endotype Prediction During Wakefulne 6.5分 前50% 20. Cross-Lingual Alzheimer’s Disease Detection with Multimodal 6.5分 前25% 21. Multimodal LLMs as Expert Speech Annotators: Acoustic Macro- 6.5分 前50% 22. Probing Whisper for Dysarthric Speech in Detection and Asses 6.5分 前25% 23. Mixture of Experts for Recognizing Depression from Interview 6.0分 前50% 24. Estimating Hand-Related Features from Speech Using Machine L 5.0分 前50% 📋 论文详情 🥇 Interval-Aware Retrieval Framework For Speech-Based Automatic Alzheimer’s Detection 🔥 8.5/10 | 前25% | #语音生物标志物 | #检索增强生成 | #多模态模型 #迁移学习 ...

2026-04-29

ICASSP 2026 - 语音编码 论文列表

ICASSP 2026 - 语音编码 共 5 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Lisa: Lightweight Yet Superb Neural Speech Coding 8.5分 前25% 🥈 FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via C 8.0分 前25% 🥉 CodecSlime: Temporal Redundancy Compression of Neural Speech 7.5分 前10% 4. Speaking Clearly: A Simplified Whisper-Based Codec for Low-B 7.5分 前25% 5. IBPCodec : A Low-Bitrate Lightweight Speech Codec With Inter 7.0分 前25% 📋 论文详情 🥇 Lisa: Lightweight Yet Superb Neural Speech Coding 🔥 8.5/10 | 前25% | #语音编码 | #信号处理 | #向量量化 #实时处理 ...

2026-04-29

ICASSP 2026 - 语音编码器 论文列表

ICASSP 2026 - 语音编码器 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Auden-Voice: General-Purpose Voice Encoder for Speech and La 7.5分 前25% 📋 论文详情 🥇 Auden-Voice: General-Purpose Voice Encoder for Speech and Language Understanding ✅ 7.5/10 | 前25% | #语音编码器 | #多任务学习 | #说话人识别 #副语言理解 👥 作者与机构 第一作者:Mingyue Huo(University of Illinois Urbana-Champaign) 通讯作者:未说明(论文作者列表为三位,未明确标注通讯作者) 作者列表:Mingyue Huo(University of Illinois Urbana-Champaign)、Wei-Cheng Tseng(University of Texas at Austin)、Yiwen Shao(Tencent AI Lab, USA)、Hao Zhang(Tencent AI Lab, USA)、Dong Yu(Tencent AI Lab, USA) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 语音翻译 论文列表

ICASSP 2026 - 语音翻译 共 8 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 MTP-S2UT: Enhancing Speech-to-Speech Translation Quality wit 8.5分 前25% 🥈 ATOM: Adaptive Token-Level Optimal Transport Mixup for Speec 8.0分 前25% 🥉 SEP-ST: Incorporating Speech Entity Prompt Into Large Langua 7.5分 前25% 4. Phrased: Phrase Dictionary Biasing for Speech Translation 7.5分 前25% 5. Direct Transfer of Prosody in Speech-to-speech Translation u 7.5分 前25% 6. PROST-LLM: Progressively Enhancing the Speech-to-Speech Tran 7.5分 前25% 7. Revisiting Direct Speech-to-Text Translation with Speech LLM 7.5分 前50% 8. Direct Simultaneous Translation Activation for Large Audio-L 6.0分 前25% 📋 论文详情 🥇 MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-Token Prediction 🔥 8.5/10 | 前25% | #语音翻译 | #多任务学习 | #语音大模型 #多语言 ...

2026-04-29

ICASSP 2026 - 语音表示学习 论文列表

ICASSP 2026 - 语音表示学习 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Phonological Tokenizer: Prosody-Aware Phonetic Token Via Mul 8.0分 前25% 📋 论文详情 🥇 Phonological Tokenizer: Prosody-Aware Phonetic Token Via Multi-Objective Fine-Tuning with Differentiable K-Means 🔥 8.0/10 | 前25% | #语音表示学习 | #离散token | #多任务学习 #自监督学习 👥 作者与机构 第一作者:Kentaro Onda(东京大学, 索尼集团) 通讯作者:未说明 作者列表:Kentaro Onda(东京大学, 索尼集团)、Hayato Futami(索尼集团)、Yosuke Kashiwagi(索尼集团)、Emiru Tsunoo(索尼集团)、Shinji Watanabe(卡内基梅隆大学) 💡 毒舌点评 这篇论文的亮点在于其巧妙地利用多目标优化和可微分k-means,在理论上“纯净”的语音学token和“丰富”的声学token之间找到了一个实用且性能优异的平衡点,尤其在情感识别和语音转换等韵律敏感任务上取得了显著提升。然而,其短板在于对“不同iable k-means”这一核心工具的离散化本质在端到端训练中可能带来的优化挑战(如梯度估计方差)探讨不足,且虽然声码器使用了预训练说话人编码器进行条件化以“剥离”说话人信息,但这种剥离是否彻底以及对下游任务的潜在影响分析不够深入。 🔗 开源详情 代码:论文中未提及代码仓库链接。方法基于ESPnet工具包实现。 模型权重:未提及是否公开微调后的模型权重。 数据集:使用了VCTK, LibriSpeech, RAVDESS, VoxCeleb, LJSpeech, TIMIT, Expresso, LibriLight等公开数据集,获取方式见各自官网。 Demo:提供了在线演示网站:https://ondatk68.github.io/onda-demo/projects/phonological-tokenizer。 复现材料:给出了部分训练细节(如两阶段训练、学习率、epoch数、α值),但未提供完整的配置文件、检查点或详细的超参数列表。 论文中引用的开源项目:ESPnet, HiFi-GAN(ParallelWaveGAN), ECAPA-TDNN(SpeechBrain), WavLM, Qwen2.5, Llama-3.2等。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 语音解码 论文列表

ICASSP 2026 - 语音解码 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A Robust Multi-Scale Framework with Test-Time Adaptation for 7.5分 前25% 📋 论文详情 🥇 A Robust Multi-Scale Framework with Test-Time Adaptation for sEEG-Based Speech Decoding ✅ 7.5/10 | 前25% | #语音解码 | #领域适应 | #脑机接口 #多尺度特征学习 👥 作者与机构 第一作者:Yang-yang Li(南京理工大学计算机科学与工程学院;香港中文大学(深圳)数据科学学院、人工智能学院) 通讯作者:Siqi Cai(哈尔滨工业大学(深圳)智能科学与工程学院、人工智能学院) 作者列表:Yang-yang Li(南京理工大学计算机科学与工程学院;香港中文大学(深圳)数据科学学院、人工智能学院)、Suli Wang(达姆施塔特工业大学计算机科学系;香港中文大学(深圳)数据科学学院、人工智能学院)、Siqi Cai(哈尔滨工业大学(深圳)智能科学与工程学院、人工智能学院)、Haizhou Li(香港中文大学(深圳)数据科学学院、人工智能学院) 💡 毒舌点评 这篇论文的亮点在于直面sEEG信号解码的核心痛点——非平稳性导致的域偏移,并提出了一个逻辑清晰、组件有效的“先强化表示,再在线适应”的两阶段解决方案,在公开数据集上确实取得了显著的性能提升。其短板在于实验仅在一个数据集(DU-IN)上验证,且模型大小(5.964M)在BCI植入式应用场景下可能偏大,论文对模型轻量化和实时推理的考量不足,临床转化的可行性论证略显单薄。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/lyyi599/MDM-Tent。但未说明代码是否已发布,或仅为占位页面。 模型权重:论文中未提及是否提供预训练模型权重。 数据集:实验使用了公开的DU-IN数据集,论文中未提供其具体获取方式,但暗示读者可参考原始研究。 Demo:论文中未提及在线演示。 复现材料:论文中部分训练细节(如优化器、学习率、batch size)未说明。消融实验的完整结果可在提供的GitHub链接中获取。 论文中引用的开源项目:论文引用了多个基线模型的开源实现或相关工作,如DU-IN、EEGNet、Tent等。 📌 核心摘要 ...

2026-04-29