ICASSP 2026 - 语音质量评估 论文列表

ICASSP 2026 - 语音质量评估 共 8 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Bridging the Semantic Gap: Cross-Attentive Fusion for Joint 8.5分 前25% 🥈 Unseen but Not Unknown: Using Dataset Concealment to Robustl 8.3分 前25% 🥉 Time vs. Layer: Locating Predictive Cues for Dysarthric Spee 7.5分 前50% 4. Multi-Task Learning For Speech Quality Assessment Using ASR- 7.5分 前25% 5. Quality Assessment of Noisy and Enhanced Speech with Limited 7.0分 前25% 6. SA-SSL-MOS: Self-Supervised Learning MOS Prediction with Spe 7.0分 前50% 7. Speech Quality-Based Localization of Low-Quality Speech and 7.0分 前25% 8. A Generalization Strategy for Speech Quality Prediction: Fro 6.5分 前25% 📋 论文详情 🥇 Bridging the Semantic Gap: Cross-Attentive Fusion for Joint Acoustic-Semantic Speech Quality Assessment 🔥 8.5/10 | 前25% | #语音质量评估 | #对比学习 | #预训练 #交叉注意力 ...

2026-04-29

ICASSP 2026 - 语音转换 #语音增强 论文列表

ICASSP 2026 - 语音转换 #语音增强 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 VChangeCodec: An Ultra Low-Complexity Neural Speech Codec wi 8.0分 前25% 📋 论文详情 🥇 VChangeCodec: An Ultra Low-Complexity Neural Speech Codec with Built-In Voice Changer for Customized Real-Time Communication 🔥 8.0/10 | 前25% | #语音转换 #语音增强 | #端到端 | #语音转换 #语音增强 👥 作者与机构 第一作者:Xusheng Yang (⋆†) (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) 通讯作者:Yuexian Zou (⋆†B) (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) 作者列表: Xusheng Yang (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) Wei Xiao (⋄) (腾讯天籁音频实验室) Bang Yang (‡) (鹏城实验室) Shidong Shang (⋄) (腾讯天籁音频实验室) Yuexian Zou (⋆†B) (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 语音转换 论文列表

ICASSP 2026 - 语音转换 共 9 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversio 8.0分 前25% 🥈 Conditional Diffusion Models for Mental Health-Preserving Vo 8.0分 前25% 🥉 CosyAccent: Duration-Controllable Accent Normalization using 7.8分 前25% 4. QE-XVC: Zero-Shot Cross-Lingual Voice Conversion via Query-E 7.5分 前25% 5. MeanVC: Lightweight and Streaming Zero-Shot Voice Conversion 7.5分 前25% 6. Expressive Voice Conversion with Controllable Emotional Inte 7.5分 前25% 7. Lightweight and Perceptually-Guided Voice Conversion for Ele 7.5分 前25% 8. MeanVoiceFlow: One-Step Nonparallel Voice Conversion with Me 7.0分 前25% 9. MaskVCT: Masked Voice Codec Transformer for Zero-Shot Voice 6.5分 前50% 📋 论文详情 🥇 FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversion with Factorized Speech Codec 🔥 8.0/10 | 前25% | #语音转换 | #扩散模型 | #零样本 #语音编解码器 ...

2026-04-29

ICASSP 2026 - 语音问答 论文列表

ICASSP 2026 - 语音问答 共 3 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 TextlessRAG: End-to-End Visual Document RAG by Speech withou 8.5分 前25% 🥈 Understanding Textual Capability Degradation in Speech LLMS 7.5分 前25% 🥉 Advancing Speech Understanding in Speech-Aware Language Mode 7.0分 前25% 📋 论文详情 🥇 TextlessRAG: End-to-End Visual Document RAG by Speech without Text 🔥 8.5/10 | 前25% | #语音问答 | #端到端 | #基准测试 #跨模态 ...

2026-04-29

ICASSP 2026 - 语音驱动动作生成 论文列表

ICASSP 2026 - 语音驱动动作生成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Style-Disentangled Diffusion for Controllable and Identity-G 7.0分 前25% 📋 论文详情 🥇 Style-Disentangled Diffusion for Controllable and Identity-Generalized Speech-Driven Body Motion Generation ✅ 7.0/10 | 前25% | #语音驱动动作生成 | #扩散模型 | #对比学习 #解耦学习 👥 作者与机构 第一作者:Zixiang Lu(西安电子科技大学计算机科学与技术学院) 通讯作者:Zhitong He, Qiguang Miao(西安电子科技大学计算机科学与技术学院) 作者列表:Zixiang Lu(西安电子科技大学计算机科学与技术学院)、Zhitong He(西安电子科技大学计算机科学与技术学院)、Zixuan Wang(未说明)、Yunan Li(未说明)、Qiguang Miao(西安电子科技大学计算机科学与技术学院) 💡 毒舌点评 亮点:风格解耦模块的设计很巧妙,通过对比学习拉近同一说话人风格码的距离,并用梯度反转从内容特征中剥离身份信息,理论上提升了可控性和可解释性。短板:论文声称的“Identity-Generalized”能力仅在单一数据集(BEATX)的同一说话人测试集上进行定量评估,缺乏跨数据集或对未知说话人的严格泛化验证,说服力稍显不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开的BEATX数据集,论文中未说明是否提供其他自定义数据。 Demo:未提及在线演示。 复现材料:论文给出了损失函数的权重配置,但缺少训练超参数、模型架构细节等关键复现信息。 论文中引用的开源项目:未在正文中明确引用特定开源项目。方法部分参考了Syntalker [11]的分割策略,数据集使用了BEATX [12]。 论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 说话人分离 论文列表

ICASSP 2026 - 说话人分离 共 9 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Train Short, Infer Long: Speech-LLM Enables Zero-Shot Stream 9.0分 前10% 🥈 VBx for End-to-End Neural and Clustering-Based Diarization 8.5分 前25% 🥉 Spatially Aware Self-Supervised Models for Multi-Channel Neu 8.0分 前25% 4. Dual-Strategy-Enhanced Conbimamba for Neural Speaker Diariza 8.0分 前25% 5. Attention-Based Encoder-Decoder Target-Speaker Voice Activit 8.0分 前25% 6. β-AVSDNET: A Novel End-To-End Neural Network Architecture Fo 7.5分 前25% 7. Automatic Estimation of Speaker Diarization Error Rate Based 7.5分 前25% 8. Single-Microphone Audio Point Source Discriminative Localiza 7.0分 前25% 9. Integrating Speaker Embeddings and LLM-Derived Semantic Repr 6.5分 前25% 📋 论文详情 🥇 Train Short, Infer Long: Speech-LLM Enables Zero-Shot Streamable Joint ASR and Diarization on Long Audio 🔥 9.0/10 | 前10% | #说话人分离 | #语音大模型 | #语音识别 #端到端 ...

2026-04-29

ICASSP 2026 - 说话人合成 论文列表

ICASSP 2026 - 说话人合成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 PSTalker: Realistic 3D Talking Head Synthesis via a Semantic 7.5分 前25% 📋 论文详情 🥇 PSTalker: Realistic 3D Talking Head Synthesis via a Semantic-Aware Audio-Driven Point-Based Shape ✅ 7.5/10 | 前25% | #说话人合成 | #3D音频 | #语音合成 #音视频 👥 作者与机构 第一作者:Zhongyuan Zhao(北京大学电子与计算机工程学院,鹏城实验室) 通讯作者:Kanglin Liu(鹏城实验室) 作者列表:Zhongyuan Zhao(北京大学电子与计算机工程学院,鹏城实验室)、Qing Li(鹏城实验室)、Kanglin Liu(鹏城实验室) 💡 毒舌点评 论文巧妙地将语义先验融入点基形状表示,有效解决了头颈接合处的“断裂”伪影,这是当前3DGS方法的一个显著痛点,体现了其工程洞察力。然而,其对非刚性形变(如头发细节)的建模能力、以及在多人种、复杂表情下的泛化能力验证略显不足,且“高保真”渲染的细节处理(如动态光照、微表情)仍有提升空间。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:论文中提及使用的数据来源于之前的公开工作(ER-NeRF, TalkingGaussian, GaussianTalker),但并未明确声明自己收集的数据集是否开源或如何获取。 Demo:未提及在线演示。 复现材料:论文提供了一些训练细节,如两阶段训练、损失函数组成、使用HuBERT提取特征、以及大致的优化器类型(SparseAdam, AdamW)和推理硬件(RTX 3090),但缺少学习率、批次大小、训练轮次等关键超参数。 引用的开源项目:论文依赖并引用��多个开源工作,包括FLAME模型、3D Gaussian Splatting、HuBERT(用于音频特征提取)等。 总结:论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 说话人日志 #语音分离 论文列表

ICASSP 2026 - 说话人日志 #语音分离 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Loose Coupling of Spectral and Spatial Models for Multi-Chan 7.2分 前25% 📋 论文详情 🥇 Loose Coupling of Spectral and Spatial Models for Multi-Channel Diarization and Enhancement of Meetings in Dynamic Environments ✅ 7.2/10 | 前25% | #说话人日志 #语音分离 | #麦克风阵列 #波束成形 | #说话人日志 #语音分离 👥 作者与机构 第一作者:Adrian Meise (Paderborn University, Germany), Tobias Cord-Landwehr (Paderborn University, Germany) (论文标注“*Authors contributed equally”,为共同第一作者) 通讯作者:未说明 作者列表:Adrian Meise (Paderborn University), Tobias Cord-Landwehr (Paderborn University), Christoph Boeddeker (Paderborn University), Marc Delcroix (NTT, Inc., Japan), Tomohiro Nakatani (NTT, Inc., Japan), Reinhold Haeb-Umbach (Paderborn University) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 说话人日志 论文列表

ICASSP 2026 - 说话人日志 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A Framework for Controlled Multi-Speaker Audio Synthesis for 7.5分 前25% 🥈 Mitigating Intra-Speaker Variability in Diarization with Sty 7.0分 前25% 📋 论文详情 🥇 A Framework for Controlled Multi-Speaker Audio Synthesis for Robustness Evaluation of Speaker Diarisation Systems ✅ 7.5/10 | 前25% | #说话人日志 | #数据增强 | #说话人分离 #基准测试 👥 作者与机构 第一作者:Shreyas Ramoji(谢菲尔德大学计算机学院,SpandH Group) 通讯作者:未说明 作者列表:Shreyas Ramoji(谢菲尔德大学计算机学院,SpandH Group)、Vivek Kumar Thoppe Ravindranath(谢菲尔德大学计算机学院,SpandH Group)、Thomas Hain(谢菲尔德大学计算机学院,SpandH Group) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 说话人检测 论文列表

ICASSP 2026 - 说话人检测 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Audio-Guided Multimodal Approach for Fine-Grained Alignment 7.5分 前25% 📋 论文详情 🥇 Audio-Guided Multimodal Approach for Fine-Grained Alignment and Boundary Modeling in Active Speaker Detection ✅ 7.5/10 | 前25% | #说话人检测 | #多模态模型 | #对比学习 #预训练 👥 作者与机构 第一作者:Yongkang Yin(北京大学深圳研究生院,广东省超高沉浸感媒体技术重点实验室;ADSPLAB,北京大学电子与计算机工程学院) 通讯作者:Yuexian Zou(北京大学深圳研究生院,广东省超高沉浸感媒体技术重点实验室;ADSPLAB,北京大学电子与计算机工程学院) 作者列表:Yongkang Yin(同上),Yukun Zhuang(同上),Zeyu Xie(同上;腾讯AI Lab),Chenxing Li(腾讯AI Lab),Le Xu(腾讯AI Lab),Yuexian Zou(同上) 💡 毒舌点评 ...

2026-04-29