WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling

📄 WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling #语音生成 #自监督学习 #统一音频模型 #语音合成 #零样本 ✅ 7.5/10 | 前25% | #语音生成 | #自监督学习 | #统一音频模型 #语音合成 | arxiv 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Guanrou Yang(上海交通大学,上海创新研究院) 通讯作者:Xie Chen(上海交通大学,上海创新研究院) 作者列表(按原文顺序): Guanrou Yang (1, 2) Tian Tan (1) Qian Chen (4) Zhikang Niu (1, 2) Yakun Song (1, 2) Ziyang Ma (1, 2) Yushen Chen (1, 2) Zeyu Xie (5) Tianrui Wang (6) Yifan Yang (1) Wenxi Chen (1, 2) Qi Chen (1, 2) Wenrui Liu (7) Shan Yang (3) Xie Chen (1, 2) 机构映射: Shanghai Jiao Tong University Shanghai Innovation Institute Tencent Independent Researcher Peking University Tianjin University Zhejiang University 💡 毒舌点评 这篇论文的亮点在于其系统性的诊断思维和工程实现。它没有盲目追逐“统一”的口号,而是清晰指出了当前SSL特征(如WavLM)直接用于生成模型的两大“硬伤”:一是高维特征空间的冗余性让扩散模型难以建模,二是SSL判别性训练导致的声学细节缺失。提出的“压缩-富集”两阶段训练范式逻辑自洽,设计精巧:第一阶段用自编码器压缩维度,第二阶段端到端微调注入声学信息,并用“语义锚定”防止语义漂移。实验设计全面,覆盖了理解、重建、生成(特别是零样本TTS和SUPERB-SG)多个维度,结果有说服力,尤其是消融实验清晰地证明了各设计模块的必要性。 ...

2026-05-08 · 更新于 2026-05-19 · 4 min · 761 words

ICLR 2026 - 语音生成 论文列表

ICLR 2026 - 语音生成 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 TASTE: Text-Aligned Speech Tokenization and Embedding for Sp 7.0分 前25% 📋 论文详情 🥇 TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling ✅ 7.0/10 | 前25% | #语音生成 | #自回归模型 | #语音大模型 #预训练 👥 作者与机构 第一作者:Liang-Hsuan Tseng (台湾大学电信工程学研究所,MediaTek Research实习) 通讯作者:未明确说明,但Yi-Chang Chen和Hung-yi Lee提供了单位邮箱。 作者列表: Liang-Hsuan Tseng (台湾大学电信工程学研究所,MediaTek Research实习) Yi-Chang Chen (MediaTek Research) Kuan-Yi Lee (台湾大学电信工程学研究所,MediaTek Research实习) Da-Shan Shiu (MediaTek Research) Hung-yi Lee (台湾大学人工智能研究中心) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-19 · 1 min · 126 words

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling

📄 TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling #语音大模型 #语音生成 #预训练 #自回归模型 #少样本 ✅ 7.0/10 | 前25% | #语音生成 | #自回归模型 | #语音大模型 #预训练 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Liang-Hsuan Tseng (台湾大学电信工程学研究所,MediaTek Research实习) 通讯作者:未明确说明,但Yi-Chang Chen和Hung-yi Lee提供了单位邮箱。 作者列表: Liang-Hsuan Tseng (台湾大学电信工程学研究所,MediaTek Research实习) Yi-Chang Chen (MediaTek Research) Kuan-Yi Lee (台湾大学电信工程学研究所,MediaTek Research实习) Da-Shan Shiu (MediaTek Research) Hung-yi Lee (台湾大学人工智能研究中心) 💡 毒舌点评 论文提出了一个解决语音-文本联合建模中序列长度不匹配问题的优雅方案,即让语音token在分词阶段就与文本转录对齐,这确实简化了后续的语言模型训练。然而,该方法强依赖于一个准确的ASR前端(尽管论文进行了鲁棒性测试),且当前验证主要集中在语音续写等相对简单的任务上,对于更复杂的多轮对话、指令跟随等能力未做探讨,其作为“基础模型”的通用性仍有待证明。 🔗 开源详情 代码:论文中明确提及提供代码,地址为 https://mtkresearch.github.io/TASTE-SpokenLM.github.io(实际为项目主页,需跳转至代码仓库)。 模型权重:论文中明确提及提供模型,地址同上。 数据集:使用公开数据集 Emilia 和 LibriTTS,未提供独有数据集。 Demo:论文中明确提及提供在线演示,地址为上述网址。 复现材料:论文在附录中提供了非常详细的超参数、训练配置、评估细节和算法伪代码(如解决分词器不匹配的算法1),复现信息充分。 引用的开源项目:Whisper (编码器), S3 token/Vocoder (语音单元和声码器), LLaMA (基座LLM), DeepSpeed/Liger Kernel (训练加速), Montreal Forced Aligner (对齐工具), HiFi-GAN。 📌 核心摘要 要解决什么问题:现有语音语言模型(SLM)在联合文本和语音建模时,面临模态间隙和序列长度不匹配的挑战。传统语音分词(如EnCodec)产生的token序列远长于对应文本,需要复杂的对齐策略(如插入填充、交错生成)才能进行联合建模,增加了复杂性。 方法核心是什么:提出TASTE,一种文本对齐的语音分词与嵌入方法。它直接将语音分词过程与文本转录对齐:首先使用ASR获得文本转录,然后通过一个基于注意力的聚合器(以文本转录为查询,ASR编码器最后一层为键、浅层为值)将语音表示压缩并硬对齐到每个文本token上,最后通过RVQ量化。训练目标为语音重建。由此得到的语音token/嵌入在序列长度和位置上与文本token一一对应。 与已有方法相比新在哪里:不同于以往先独立分词再设法对齐的思路,TASTE在分词阶段就完成了文本-语音对齐,实现了一种“端到端”的联合分词。这使得在联合语言模型(TASLM)中,可以同时预测下一个文本token和对应的语音token/嵌入,无需额外对齐规则。其语音token专注于携带副语言信息(如韵律、音色),避免了冗余编码文本内容。 主要实验结果如何: 语音重建:在LibriSpeech上,TASTE以极低比特率(~150 bps,约3 tokens/秒)实现了与高比特率方法(如S3 token, 600 bps)可比的重建质量和相似度(表1)。 语音续写:在3秒语音提示后的续写任务上,基于1.3B参数LLaMA微调的TASLM在GPT-4o语义评分(3.16)和人工MOS(4.16)上显著优于其他7B级SLM(表2)。 似然基准:在SALMON(声学)和StoryCloze(语义)基准上表现与其它联合建模方法相当,在StoryCloze上达到最佳(76.5%/76.7%)。 少样本语音QA:TASLM是少数能在少样本场景下保持基座文本LLM性能的SLM(表3)。 实际意义是什么:TASTE提供了一种更简洁、高效的构建文本-语音联合模型的方式,降低了训练复杂度。其极低比特率的语音分词对带宽敏感的传输和存储场景有潜在价值。文本对齐的特性也自然支持了文本对齐的语音编辑(如图3),为精细的语音控制提供了新思路。 主要局限性是什么:论文明确提到,当前模型缺乏对话轮次管理和指令跟随能力;仅在英语上验证,多语言泛化性未知;分词器聚焦于清晰语音,未处理重叠语音、非语言事件(如笑声);系统延迟和流式性能未优化。 🏗️ 模型架构 TASTE的整体框架如图2所示,包含两个阶段:TASTE语音分词器训练(用于重建)和联合语言模型(TASLM)训练。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 379 words

ICASSP 2026 - 语音生成 论文列表

ICASSP 2026 - 语音生成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Why Do Speech Language Models Fail to Generate Semantically 7.0分 前25% 📋 论文详情 🥇 Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective ✅ 7.0/10 | 前25% | #语音生成 | #模型评估 | #语音大模型 #零样本 👥 作者与机构 第一作者:Hankun Wang(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 通讯作者:Kai Yu(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 作者列表:Hankun Wang(X-LANCE Lab, 上海交通大学), Haoran Wang(X-LANCE Lab, 上海交通大学), Yiwei Guo(X-LANCE Lab, 上海交通大学), Zhihan Li(X-LANCE Lab, 上海交通大学), Chenpeng Du(X-LANCE Lab, 上海交通大学), Kai Yu(X-LANCE Lab, 上海交通大学) 💡 毒舌点评 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 128 words

ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer

📄 ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer #语音生成 #动作生成 #音频生成 #Transformer #生成模型 ✅ 7.0/10 | 前25% | #音频生成 | #Transformer | #语音生成 #动作生成 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yong Xie(南京理工大学) (注:论文标注为* equal contribution) 通讯作者:Yunlian Sun(南京理工大学) (注:论文标注为† corresponding author) 作者列表:Yong Xie(南京理工大学)、Yunlian Sun(南京理工大学)、Hongwen Zhang(北京师范大学)、Yebin Liu(清华大学)、Jinhui Tang(南京林业大学) 💡 毒舌点评 本文的亮点在于将ViT架构巧妙适配于动作序列生成,并通过引入“动态嵌入正则化(DER)”和“迭代重建推理(IRI)”等策略,显著提升了生成动作的流畅度和真实感(FGD降低86.7%),实验设计也较为周全。但其短板也明显:核心创新更多是有效的工程优化组合而非底层理论突破,且严重的开源缺失(无代码、无模型、细节模糊)极大限制了工作的可复现性和后续影响力,让“SOTA”声明的说服力打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开数据集SHOW和BEAT2,但论文未说明具体获取或预处理方式。 Demo:未提供。 复现材料:给出了部分训练策略(CFG、EMA、Masking)和关键设计(DER, IRI)的描述,但缺少完整的超参数(学习率、批大小、优化器具体设置)、硬件配置和训练时间等关键细节。 论文中引用的开源项目:引用了VQ-VAE [24]、Wav2vec2.0(作为特征提取器)、FLAME [23](人脸模型)等基础开源工作。 总结:论文中未提及开源计划。 📌 核心摘要 问题:现有语音驱动手势生成方法存在生成动作保真度不足(如抖动、动作僵硬、穿模)以及跨领域泛化能力弱的问题,影响用户体验。 方法核心:提出ReCoM框架,其核心是Recurrent Embedded Transformer (RET) 模块。RET在Vision Transformer (ViT)基础上,通过通道式(Channel-wise)处理 将身体和手部动作视为特征图的两个通道,从而实现对语音-动作时空依赖性的联合建模。 创新点:(1) RET模块设计,适配ViT处理动作序列;(2) 训练时引入动态嵌入正则化(DER),即在嵌入层后应用Dropout以增强鲁棒性和泛化性;(3) 提出迭代重建推理(IRI) 策略,通过循环预测并筛选置信度高的动作索引,以缓解自回归推理的误差累积问题。 实验结果:在SHOW数据集上,ReCoM的Fr´echet Gesture Distance (FGD) 从基线ProbTalk的18.70降至2.48(如表3),提升了86.7%,表明动作真实性大幅提高。在域外BEAT2数据集测试(无微调)中,其FGD(96.78)也优于ProbTalk(100.07)和TalkSHOW(98.32),显示了更好的泛化性(如表4)。消融实验(表2)证实了CFG、IRI、DER、EMA和Masking等各策略的有效性。 实际意义:为虚拟数字人、智能交互机器人等提供更自然、更真实的手势动画生成方案。 主要局限性:(1) 模型架构本身并非全新提出,是对现有ViT的改进应用;(2) 仅在SHOW和BEAT2两个数据集上进行评估,广泛性待验证;(3) 缺乏开源代码和模型,阻碍复现与公平比较。 🏗️ 模型架构 ReCoM采用两阶段流程(如图1、图2): ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 362 words

Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective

📄 Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective #语音生成 #语音大模型 #模型评估 #零样本 #基准测试 ✅ 7.0/10 | 前25% | #语音生成 | #模型评估 | #语音大模型 #零样本 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Hankun Wang(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 通讯作者:Kai Yu(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 作者列表:Hankun Wang(X-LANCE Lab, 上海交通大学), Haoran Wang(X-LANCE Lab, 上海交通大学), Yiwei Guo(X-LANCE Lab, 上海交通大学), Zhihan Li(X-LANCE Lab, 上海交通大学), Chenpeng Du(X-LANCE Lab, 上海交通大学), Kai Yu(X-LANCE Lab, 上海交通大学) 💡 毒舌点评 本文像一份详尽的“体检报告”,精准诊断出端到端语音大模型“语义表达不畅”的三大病根:音素编码不语义、序列太长、口音情绪太杂乱,并证明后两者影响远大于第一个。然而,光有诊断没有药方,论文止步于“未来可从短序列和强监督入手”的开放式建议,对于急需突破的社区而言,这记重拳打在了空气里。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 258 words