TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling

📄 TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling #语音大模型 #语音生成 #预训练 #自回归模型 #少样本 ✅ 7.0/10 | 前25% | #语音生成 | #自回归模型 | #语音大模型 #预训练 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Liang-Hsuan Tseng (台湾大学电信工程学研究所,MediaTek Research实习) 通讯作者:未明确说明,但Yi-Chang Chen和Hung-yi Lee提供了单位邮箱。 作者列表: Liang-Hsuan Tseng (台湾大学电信工程学研究所,MediaTek Research实习) Yi-Chang Chen (MediaTek Research) Kuan-Yi Lee (台湾大学电信工程学研究所,MediaTek Research实习) Da-Shan Shiu (MediaTek Research) Hung-yi Lee (台湾大学人工智能研究中心) 💡 毒舌点评 论文提出了一个解决语音-文本联合建模中序列长度不匹配问题的优雅方案,即让语音token在分词阶段就与文本转录对齐,这确实简化了后续的语言模型训练。然而,该方法强依赖于一个准确的ASR前端(尽管论文进行了鲁棒性测试),且当前验证主要集中在语音续写等相对简单的任务上,对于更复杂的多轮对话、指令跟随等能力未做探讨,其作为“基础模型”的通用性仍有待证明。 🔗 开源详情 代码:论文中明确提及提供代码,地址为 https://mtkresearch.github.io/TASTE-SpokenLM.github.io(实际为项目主页,需跳转至代码仓库)。 模型权重:论文中明确提及提供模型,地址同上。 数据集:使用公开数据集 Emilia 和 LibriTTS,未提供独有数据集。 Demo:论文中明确提及提供在线演示,地址为上述网址。 复现材料:论文在附录中提供了非常详细的超参数、训练配置、评估细节和算法伪代码(如解决分词器不匹配的算法1),复现信息充分。 引用的开源项目:Whisper (编码器), S3 token/Vocoder (语音单元和声码器), LLaMA (基座LLM), DeepSpeed/Liger Kernel (训练加速), Montreal Forced Aligner (对齐工具), HiFi-GAN。 📌 核心摘要 要解决什么问题:现有语音语言模型(SLM)在联合文本和语音建模时,面临模态间隙和序列长度不匹配的挑战。传统语音分词(如EnCodec)产生的token序列远长于对应文本,需要复杂的对齐策略(如插入填充、交错生成)才能进行联合建模,增加了复杂性。 方法核心是什么:提出TASTE,一种文本对齐的语音分词与嵌入方法。它直接将语音分词过程与文本转录对齐:首先使用ASR获得文本转录,然后通过一个基于注意力的聚合器(以文本转录为查询,ASR编码器最后一层为键、浅层为值)将语音表示压缩并硬对齐到每个文本token上,最后通过RVQ量化。训练目标为语音重建。由此得到的语音token/嵌入在序列长度和位置上与文本token一一对应。 与已有方法相比新在哪里:不同于以往先独立分词再设法对齐的思路,TASTE在分词阶段就完成了文本-语音对齐,实现了一种“端到端”的联合分词。这使得在联合语言模型(TASLM)中,可以同时预测下一个文本token和对应的语音token/嵌入,无需额外对齐规则。其语音token专注于携带副语言信息(如韵律、音色),避免了冗余编码文本内容。 主要实验结果如何: 语音重建:在LibriSpeech上,TASTE以极低比特率(~150 bps,约3 tokens/秒)实现了与高比特率方法(如S3 token, 600 bps)可比的重建质量和相似度(表1)。 语音续写:在3秒语音提示后的续写任务上,基于1.3B参数LLaMA微调的TASLM在GPT-4o语义评分(3.16)和人工MOS(4.16)上显著优于其他7B级SLM(表2)。 似然基准:在SALMON(声学)和StoryCloze(语义)基准上表现与其它联合建模方法相当,在StoryCloze上达到最佳(76.5%/76.7%)。 少样本语音QA:TASLM是少数能在少样本场景下保持基座文本LLM性能的SLM(表3)。 实际意义是什么:TASTE提供了一种更简洁、高效的构建文本-语音联合模型的方式,降低了训练复杂度。其极低比特率的语音分词对带宽敏感的传输和存储场景有潜在价值。文本对齐的特性也自然支持了文本对齐的语音编辑(如图3),为精细的语音控制提供了新思路。 主要局限性是什么:论文明确提到,当前模型缺乏对话轮次管理和指令跟随能力;仅在英语上验证,多语言泛化性未知;分词器聚焦于清晰语音,未处理重叠语音、非语言事件(如笑声);系统延迟和流式性能未优化。 🏗️ 模型架构 TASTE的整体框架如图2所示,包含两个阶段:TASTE语音分词器训练(用于重建)和联合语言模型(TASLM)训练。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 379 words

ICASSP 2026 - 语音生成 论文列表

ICASSP 2026 - 语音生成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Why Do Speech Language Models Fail to Generate Semantically 7.0分 前25% 📋 论文详情 🥇 Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective ✅ 7.0/10 | 前25% | #语音生成 | #模型评估 | #语音大模型 #零样本 👥 作者与机构 第一作者:Hankun Wang(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 通讯作者:Kai Yu(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 作者列表:Hankun Wang(X-LANCE Lab, 上海交通大学), Haoran Wang(X-LANCE Lab, 上海交通大学), Yiwei Guo(X-LANCE Lab, 上海交通大学), Zhihan Li(X-LANCE Lab, 上海交通大学), Chenpeng Du(X-LANCE Lab, 上海交通大学), Kai Yu(X-LANCE Lab, 上海交通大学) 💡 毒舌点评 ...

2026-04-29 · 更新于 2026-06-12 · 1 min · 128 words

ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer

📄 ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer #语音生成 #动作生成 #音频生成 #Transformer #生成模型 ✅ 7.0/10 | 前25% | #音频生成 | #Transformer | #语音生成 #动作生成 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yong Xie(南京理工大学) (注:论文标注为* equal contribution) 通讯作者:Yunlian Sun(南京理工大学) (注:论文标注为† corresponding author) 作者列表:Yong Xie(南京理工大学)、Yunlian Sun(南京理工大学)、Hongwen Zhang(北京师范大学)、Yebin Liu(清华大学)、Jinhui Tang(南京林业大学) 💡 毒舌点评 本文的亮点在于将ViT架构巧妙适配于动作序列生成,并通过引入“动态嵌入正则化(DER)”和“迭代重建推理(IRI)”等策略,显著提升了生成动作的流畅度和真实感(FGD降低86.7%),实验设计也较为周全。但其短板也明显:核心创新更多是有效的工程优化组合而非底层理论突破,且严重的开源缺失(无代码、无模型、细节模糊)极大限制了工作的可复现性和后续影响力,让“SOTA”声明的说服力打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开数据集SHOW和BEAT2,但论文未说明具体获取或预处理方式。 Demo:未提供。 复现材料:给出了部分训练策略(CFG、EMA、Masking)和关键设计(DER, IRI)的描述,但缺少完整的超参数(学习率、批大小、优化器具体设置)、硬件配置和训练时间等关键细节。 论文中引用的开源项目:引用了VQ-VAE [24]、Wav2vec2.0(作为特征提取器)、FLAME [23](人脸模型)等基础开源工作。 总结:论文中未提及开源计划。 📌 核心摘要 问题:现有语音驱动手势生成方法存在生成动作保真度不足(如抖动、动作僵硬、穿模)以及跨领域泛化能力弱的问题,影响用户体验。 方法核心:提出ReCoM框架,其核心是Recurrent Embedded Transformer (RET) 模块。RET在Vision Transformer (ViT)基础上,通过通道式(Channel-wise)处理 将身体和手部动作视为特征图的两个通道,从而实现对语音-动作时空依赖性的联合建模。 创新点:(1) RET模块设计,适配ViT处理动作序列;(2) 训练时引入动态嵌入正则化(DER),即在嵌入层后应用Dropout以增强鲁棒性和泛化性;(3) 提出迭代重建推理(IRI) 策略,通过循环预测并筛选置信度高的动作索引,以缓解自回归推理的误差累积问题。 实验结果:在SHOW数据集上,ReCoM的Fr´echet Gesture Distance (FGD) 从基线ProbTalk的18.70降至2.48(如表3),提升了86.7%,表明动作真实性大幅提高。在域外BEAT2数据集测试(无微调)中,其FGD(96.78)也优于ProbTalk(100.07)和TalkSHOW(98.32),显示了更好的泛化性(如表4)。消融实验(表2)证实了CFG、IRI、DER、EMA和Masking等各策略的有效性。 实际意义:为虚拟数字人、智能交互机器人等提供更自然、更真实的手势动画生成方案。 主要局限性:(1) 模型架构本身并非全新提出,是对现有ViT的改进应用;(2) 仅在SHOW和BEAT2两个数据集上进行评估,广泛性待验证;(3) 缺乏开源代码和模型,阻碍复现与公平比较。 🏗️ 模型架构 ReCoM采用两阶段流程(如图1、图2): ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 362 words

Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective

📄 Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective #语音生成 #语音大模型 #模型评估 #零样本 #基准测试 ✅ 7.0/10 | 前25% | #语音生成 | #模型评估 | #语音大模型 #零样本 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Hankun Wang(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 通讯作者:Kai Yu(X-LANCE Lab, 上海交通大学计算机科学与技术学院) 作者列表:Hankun Wang(X-LANCE Lab, 上海交通大学), Haoran Wang(X-LANCE Lab, 上海交通大学), Yiwei Guo(X-LANCE Lab, 上海交通大学), Zhihan Li(X-LANCE Lab, 上海交通大学), Chenpeng Du(X-LANCE Lab, 上海交通大学), Kai Yu(X-LANCE Lab, 上海交通大学) 💡 毒舌点评 本文像一份详尽的“体检报告”,精准诊断出端到端语音大模型“语义表达不畅”的三大病根:音素编码不语义、序列太长、口音情绪太杂乱,并证明后两者影响远大于第一个。然而,光有诊断没有药方,论文止步于“未来可从短序列和强监督入手”的开放式建议,对于急需突破的社区而言,这记重拳打在了空气里。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 258 words