ICASSP 2026 - 语音生成 论文列表

ICASSP 2026 - 语音生成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Why Do Speech Language Models Fail to Generate Semantically 7.0分 前25% 📋 论文详情 🥇 Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective ✅ 7.0/10 | 前25% | #语音生成 | #模型评估 | #语音大模型 #零样本 👥 作者与机构 第一作者:Hankun Wang(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 通讯作者:Kai Yu(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 作者列表:Hankun Wang(X-LANCE Lab, 上海交通大学), Haoran Wang(X-LANCE Lab, 上海交通大学), Yiwei Guo(X-LANCE Lab, 上海交通大学), Zhihan Li(X-LANCE Lab, 上海交通大学), Chenpeng Du(X-LANCE Lab, 上海交通大学), Kai Yu(X-LANCE Lab, 上海交通大学) 💡 毒舌点评 ...

2026-04-29

ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer

📄 ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer #语音生成 #动作生成 #音频生成 #Transformer #生成模型 ✅ 7.0/10 | 前25% | #音频生成 | #Transformer | #语音生成 #动作生成 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yong Xie(南京理工大学) (注:论文标注为* equal contribution) 通讯作者:Yunlian Sun(南京理工大学) (注:论文标注为† corresponding author) 作者列表:Yong Xie(南京理工大学)、Yunlian Sun(南京理工大学)、Hongwen Zhang(北京师范大学)、Yebin Liu(清华大学)、Jinhui Tang(南京林业大学) 💡 毒舌点评 本文的亮点在于将ViT架构巧妙适配于动作序列生成,并通过引入“动态嵌入正则化(DER)”和“迭代重建推理(IRI)”等策略,显著提升了生成动作的流畅度和真实感(FGD降低86.7%),实验设计也较为周全。但其短板也明显:核心创新更多是有效的工程优化组合而非底层理论突破,且严重的开源缺失(无代码、无模型、细节模糊)极大限制了工作的可复现性和后续影响力,让“SOTA”声明的说服力打了折扣。 📌 核心摘要 问题:现有语音驱动手势生成方法存在生成动作保真度不足(如抖动、动作僵硬、穿模)以及跨领域泛化能力弱的问题,影响用户体验。 方法核心:提出ReCoM框架,其核心是Recurrent Embedded Transformer (RET) 模块。RET在Vision Transformer (ViT)基础上,通过通道式(Channel-wise)处理 将身体和手部动作视为特征图的两个通道,从而实现对语音-动作时空依赖性的联合建模。 创新点:(1) RET模块设计,适配ViT处理动作序列;(2) 训练时引入动态嵌入正则化(DER),即在嵌入层后应用Dropout以增强鲁棒性和泛化性;(3) 提出迭代重建推理(IRI) 策略,通过循环预测并筛选置信度高的动作索引,以缓解自回归推理的误差累积问题。 实验结果:在SHOW数据集上,ReCoM的Fr´echet Gesture Distance (FGD) 从基线ProbTalk的18.70降至2.48(如表3),提升了86.7%,表明动作真实性大幅提高。在域外BEAT2数据集测试(无微调)中,其FGD(96.78)也优于ProbTalk(100.07)和TalkSHOW(98.32),显示了更好的泛化性(如表4)。消融实验(表2)证实了CFG、IRI、DER、EMA和Masking等各策略的有效性。 实际意义:为虚拟数字人、智能交互机器人等提供更自然、更真实的手势动画生成方案。 主要局限性:(1) 模型架构本身并非全新提出,是对现有ViT的改进应用;(2) 仅在SHOW和BEAT2两个数据集上进行评估,广泛性待验证;(3) 缺乏开源代码和模型,阻碍复现与公平比较。 🏗️ 模型架构 ReCoM采用两阶段流程(如图1、图2): ...

2026-04-29

Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective

📄 Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective #语音生成 #语音大模型 #模型评估 #零样本 #基准测试 ✅ 7.0/10 | 前25% | #语音生成 | #模型评估 | #语音大模型 #零样本 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Hankun Wang(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 通讯作者:Kai Yu(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 作者列表:Hankun Wang(X-LANCE Lab, 上海交通大学), Haoran Wang(X-LANCE Lab, 上海交通大学), Yiwei Guo(X-LANCE Lab, 上海交通大学), Zhihan Li(X-LANCE Lab, 上海交通大学), Chenpeng Du(X-LANCE Lab, 上海交通大学), Kai Yu(X-LANCE Lab, 上海交通大学) 💡 毒舌点评 本文像一份详尽的“体检报告”,精准诊断出端到端语音大模型“语义表达不畅”的三大病根:音素编码不语义、序列太长、口音情绪太杂乱,并证明后两者影响远大于第一个。然而,光有诊断没有药方,论文止步于“未来可从短序列和强监督入手”的开放式建议,对于急需突破的社区而言,这记重拳打在了空气里。 ...

2026-04-29