Rethinking Entropy Minimization in Test-Time Adaptation for Autoregressive Models

📄 Rethinking Entropy Minimization in Test-Time Adaptation for Autoregressive Models #语音识别 #领域适应 #自回归模型 #多语言 ✅ 6.0/10 | 前40% | #语音识别 | #领域适应 | #自回归模型 #多语言 | arxiv 学术质量 6.0/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Wei-Ping Huang(台湾大学电信工程学研究所) 通讯作者:Hung-yi Lee(台湾大学电信工程学研究所) 作者列表:Wei-Ping Huang(台湾大学电信工程学研究所)、Chee-En Yu(台湾大学电信工程学研究所)、Guan-Ting Lin(台湾大学电信工程学研究所)、Hung-yi Lee(台湾大学电信工程学研究所) 💡 毒舌点评 亮点:理论推导严谨扎实,成功为自回归模型的熵最小化测试时自适应(TTA)提供了第一个统一的数学框架,将先前碎片化的teacher-forcing和RL方法整合到一起,理论贡献清晰且有价值。 短板:理论的普适性声称与实验的验证范围存在显著落差。论文提出了一个声称适用于“任何自回归模型”的通用框架,但所有实验仅在Whisper ASR模型和语音识别任务上进行验证。这使得其“统一”和“通用”的说服力打了折扣,更像是一项针对特定场景的优秀理论分析,而非一个经受了广泛考验的通用解决方案。 📌 核心摘要 要解决的问题:在自回归模型的测试时自适应(TTA)中,熵最小化(EM)方法缺乏统一的数学基础。现有方法要么基于teacher-forcing启发式(直接最小化token熵),要么基于强化学习策略梯度,二者理论不完整且关系不清,导致实现方式碎片化。 方法核心:论文从第一性原理出发,严格推导了适用于自回归模型的EM正确梯度表达式。核心理论贡献在于证明:最小化期望熵的完整目标,可以自然分解为两个可优化的损失分量:token级策略梯度损失和token级熵损失。先前仅优化其中一个分量的启发式方法(如teacher-forcing对应token熵损失,RL对应策略梯度损失)被证明只是这一统一目标的部分实现。论文还通过定理1严格证明了token级熵估计器的无偏性。 与已有方法相比新在哪里:提供了首个严谨推导的、适用于自回归模型的完整EM梯度公式,并从理论上统一了先前看似矛盾的teacher-forcing和RL范式。将该理论应用于Whisper ASR,在超过20个多样化域上系统地验证了完整目标相对于简化启发式方法的有效性。 主要实验结果:在Whisper-base模型上,所提出的EM-tok和EM-tok-b(使用波束搜索)方法在Corrupted LibriSpeech、L2-Arctic和MLS数据集上,平均WER均显著优于源模型和主要基线Greedy-EM(仅使用token熵损失)。例如,在Corrupted LibriSpeech上,源模型平均WER为22.53%,Greedy-EM为21.91%,EM-tok-b降低至19.15%,相对提升约15%。在L2-Arctic上,EM-tok-b将平均WER从19.35%降至16.21%,相对提升约16%。 实际意义:为基于熵最小化的自回归模型TTA提供了正确的理论指导,揭示了现有启发式方法的理论不足(即梯度不完整)。通过在Whisper ASR上的大规模实验证明,使用完整梯度表达式能带来一致且显著的性能提升,为该领域后续研究奠定了基础。 主要局限性:计算开销大,需要多次采样(G=16)和多步适应(T=10),实时性差;实验验证仅限于Whisper ASR模型,未在其他自回归架构(如LLM)上验证方法的普适性;与近期其他先进的语音TTA方法缺乏直接性能对比。 🔗 开源详情 代码:论文中未提及任何代码开源计划或链接。 模型权重:论文使用的基础模型为 Whisper-base,并提供了其官方HuggingFace链接:https://huggingface.co/openai/whisper-base。未提供微调或适应后的模型权重。 数据集: Corrupted Librispeech (LS-C):论文中提及该数据集是在 Librispeech test-other 集上添加 MS-SNSD 噪声构建而成,但未提供数据集的直接下载链接。 L2Arctic:论文中提及这是一个非母语英语语音语料库,但未提供数据集的直接下载链接。 Multilingual LibriSpeech (MLS):论文中提及这是一个包含 7 种语言的多语言语音语料库,并提供了数据集链接:https://github.com/facebookresearch/mls-datasets。 Demo:论文中未提及。 多样性:论文中提到在 Whisper ASR 上验证了方法,涵盖了超过 20 个不同领域,包括声学噪声、口音和多语言设置。 复现材料:论文中未提及完整的复现代码、检查点或详细配置文件。但提供了一些实现细节,如使用 AdamW 优化器(学习率 1e-3),在单个 NVIDIA RTX 3090 GPU 上进行实验。 论文中引用的开源项目: TENT:计算机视觉领域EM-TTA的开创性工作。 CoTTA:计算机视觉领域扩展EM-TTA的工作。 SAR:计算机视觉领域扩展EM-TTA的工作。 SUTA:语音处理领域首次将TTA引入非自回归ASR模型(wav2vec 2.0-CTC)的工作。 Whisper:论文所用的基础ASR模型,链接:https://huggingface.co/openai/whisper-base。 SGEM:采用teacher-forcing启发式进行语音TTA的工作。 CEA:采用teacher-forcing启发式进行语音TTA的工作。 SLM-TTA:将类似启发方法应用于生成式语音语言模型的工作。 EM-FT / EM-RL-token / EM-RL-sequence:来自文献 [agarwal2025unreasonable] 的对比基线方法。 CommonVoice (cv):用于超参数调整的语料库,链接:https://commonvoice.mozilla.org/。 DAPO:论文借鉴了其token-level归一化策略的工作。 REINFORCE:论文使用的基础RL算法。 RLOO:论文使用的leave-one-out baseline方差缩减技术。 🏗️ 方法概述和架构 整体流程概述:本文提出了一种用于自回归模型测试时自适应(TTA)的统一熵最小化(EM)框架。对于每个测试语音样本,该方法在推理前进行多步适应:首先,利用当前模型参数通过多次采样或波束搜索生成多个候选输出序列;然后,基于这些序列计算序列级和token级的熵估计值;接着,根据推导出的完整梯度表达式构造损失函数,仅对模型的LayerNorm参数进行若干步梯度更新;最后,使用更新后的模型进行一次贪心解码得到最终输出,然后参数重置。 ...

2026-05-12 · 更新于 2026-06-12 · 3 min · 521 words

MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model

📄 MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model #语音对话系统 #自回归模型 #端到端 #多语言 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #自回归模型 | #端到端 #多语言 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jingyao Gong (Independent Researcher) 通讯作者:Jingyao Gong (gongjy.cs@foxmail.com) 作者列表:Jingyao Gong (Independent Researcher) 💡 毒舌点评 亮点: 这篇论文堪称“开源全模态”的典范级实践,从模型架构、训练数据、到中间层状态桥接等每一个“工程细节”都被清晰设计并完整开源,为研究社区提供了一个可真正拆解和复现的语音原生全模态研究基座。短板: 然而,在0.1B这个参数规模下,模型在中长英文语音生成上的“音素漂移”和“漏词”问题暴露了其表达能力的上限,且评估侧重于内部一致性而非端到端的任务性能或用户感知,使其更像是一个优雅的技术验证原型,而非一个能直接解决实际问题的强劲方案。 📌 核心摘要 要解决什么问题: 旨在探索并证明在极小参数规模(0.1B)下,构建一个完整的、可复现的语音原生全模态(文本/语音/图像输入 -> 文本/流式语音输出)交互循环的可行性。 方法核心是什么: 采用分离的Thinker(负责语义推理)和Talker(负责语音生成)架构。核心创新在于:a) 使用Thinker的中间层隐状态(而非最终层)作为语义桥梁注入Talker,以提供更纯净的声学条件;b) 对Mimi八码本的嵌入和输出头采用低秩适配器参数化,实现参数高效接口;c) 设计并公开了完整的多模态序列格式和训练数据集。 与已有方法相比新在哪里: 不同于追求大规模和高性能的前沿全模态模型,本文专注于在小规模、全开源、可严格复现的约束下,系统研究并量化影响全模态循环的关键设计选择(如桥接层位置、Talker宽度、码本接口等)。同时,模型通过上下文提示(参考码本流+说话人嵌入)实现灵活的声音克隆,而非依赖独立的TTS模块。 主要实验结果如何: 论文报告了两个关键评估结果: 一致性(CER): 在Thinker-Talker一致性评估中,Dense和MoE变体的平均CER分别为0.0897和0.0900。消融实验表明,768维的Talker宽度是稳定工作的必要条件。 语音克隆(CAM++相似度): 整体声音克隆相似度分别为0.5995(Dense)和0.5937(MoE),相比仅使用参考码本的基线有提升。 在与Mini-Omni2等更大模型的跨模型英文T2A对比中,minimind-3o在短句(≤15词)上CER/WER接近,但在中长句(16-30词)上差距显著(如minimind-3o CER: 0.1327 vs. Mini-Omni2 CER: 0.0062)。 实际意义是什么: 为语音大模型/全模态模型的研究提供了一个完全透明、可修改、可在消费级GPU(4x RTX 3090)上复现的小规模研究平台。它证明了在资源受限下,通过精心设计桥接层、参数高效接口和开放数据,也能构建并训练一个功能完整的语音原生循环。 主要局限性是什么: a) 性能天花板低:在语音自然度和长文本稳定性上远落后于大型模型;b) 视觉通路弱:使用冻结的SigLIP2和简单MLP投影器,更接近简化的图像描述而非强大的视觉理解;c) 评估窄:主要评估输出文本一致性(CER/WER),缺乏自然度、延迟、鲁棒性等更全面的评估。 🔗 开源详情 代码:https://github.com/jingyaogong/minimind-o 模型权重: HuggingFace:https://huggingface.co/collections/jingyaogong/minimind-o ModelScope:https://modelscope.cn/collections/gongjy/minimind-o 数据集:论文中提及了公开发布的训练数据集,用于复现模型。具体数据集(sft_t2a, sft_i2t, sft_a2a)的Parquet格式文件及获取方式,应通过上述代码仓库或模型集合页面获取。论文未提及单独的、独立的数据集存储库链接。 Demo:论文中未提及独立的在线演示链接。但附录B指出,代码发布中包含了一个HTML演示页面,其中包含可播放的音频示例。 复现材料: 训练配置:论文详细说明了训练流程(train_sft_omni.py)、数据模式(sft_t2a, sft_i2t, sft_a2a)、训练超参数(如学习率、批大小)、硬件要求(4张NVIDIA RTX 3090 GPU)和各阶段训练时间。 检查点:模型权重(检查点)已发布在HuggingFace和ModelScope上。 附录:提供了详细的模块配置、参��计数和评估结果表格。 论文中引用的开源项目: MiniMind (基础语言模型):https://github.com/jingyaogong/minimind SenseVoice-Small (音频编码器):论文中引用其来源为 An and others, 2024,但未提供直接链接。通常可通过其官方仓库获取,例如:https://github.com/FunAudioLLM/SenseVoice SigLIP2 (视觉编码器):论文中引用其来源为 Tschannen et al., 2025,未提供直接链接。 Mimi (音频编解码器):论文中引用其来源为 Défossez et al., 2024,未提供直接链接。这是Moshi模型的一部分。 CAM++ (说话人嵌入):论文中引用其来源为 Wang et al., 2023b,未提供直接链接。 Qwen3-ASR-Flash (用于评估的ASR):论文中引用但未提供链接。 Qwen-VL-Plus (用于视觉评估的参考生成):论文中引用但未提供链接。 🏗️ 模型架构 Figure 1: MiniMind-O 架构总览。音频和图像由冻结的编码器处理,通过MLP投影器注入到Thinker对应模态的占位符位置。一个中间层的Thinker状态与Mimi码本历史被独立的Talker融合,以预测八个码本层的流式语音。 ...

2026-05-07 · 更新于 2026-06-12 · 3 min · 523 words

Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation

📄 Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation #音乐生成 #自回归模型 #音频大模型 #预训练 #模型评估 ✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #音频大模型 #预训练 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiafeng Liu (中央音乐学院) 通讯作者:Maosong Sun (清华大学) 作者列表:Jiafeng Liu (中央音乐学院), Yuanliang Dong (中央音乐学院), Hongjia Liu (中央音乐学院), Yuqing Cheng (中央音乐学院), Zhancheng Guo (中央音乐学院), Huijing Liang (中央音乐学院), Wenbo Zhan (中央音乐学院), Yuming Sun (中央音乐学院), Xiaobing Li (中央音乐学院), Feng Yu (中央音乐学院), Maosong Sun (清华大学) 💡 毒舌点评 亮点:大胆摒弃了音乐生成中常见的“语义token+声学解码器”或“扩散模型”的双阶段异构范式,提出并验证了在一个统一的64层RVQ声学token层次中完成从结构到高保真度生成的可能性,这种思路的简洁性和统一性本身就是一个重要的理论贡献。 短板:虽然人类评估结果亮眼,但论文避开了与当前最强开源模型(如MusicGen, Udio等)在标准客观指标(如FAD, CLAP score)上的直接对比,使得“开源最强”的宣称在客观比较维度上显得不够硬核;其核心发现“文本对齐可在纯声学模型中涌现”极度依赖精巧的训练技巧(Task 0),这暗示了纯声学路径的脆弱性,并未真正消解对显式语义建模的需求。 ...

2026-05-05 · 更新于 2026-06-12 · 2 min · 403 words

Can Speech LLMs Think while Listening?

📄 Can Speech LLMs Think while Listening? #语音对话系统 #语音大模型 #微调 #自回归模型 #实时处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #微调 | #语音大模型 #自回归模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yi-Jen Shih(The University of Texas at Austin, Meta Superintelligence Labs) 通讯作者:Michael L. Seltzer(Meta Superintelligence Labs) 作者列表:Yi-Jen Shih(The University of Texas at Austin, Meta Superintelligence Labs)、Desh Raj(Meta Superintelligence Labs)、Chunyang Wu(Meta Superintelligence Labs)、Wei Zhou(Meta Superintelligence Labs)、SK Bong(Meta Superintelligence Labs)、Yashesh Gaur(Meta Superintelligence Labs)、Jay Mahadeokar(Meta Superintelligence Labs)、Ozlem Kalinli(Meta Superintelligence Labs)、Michael L. Seltzer(Meta Superintelligence Labs) 💡 毒舌点评 这篇论文最大的亮点在于将“边听边想”从一个人机交互概念落实为一套可训练、可控制的技术方案,尤其是提出的“问题完整度”指标,巧妙地将语义完备性与生成时机联系起来。然而,一个显眼的短板是,其核心指标“问题完整度”的计算严重依赖于外部LLM(如Llama-3-8B-Chat)的预测概率,这在部署时可能带来额外的计算开销和延迟,且该指标的泛化能力(是否对不同LLM稳定)并未充分验证。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 347 words

Continuous Audio Language Models

📄 Continuous Audio Language Models #语音合成 #音乐生成 #自回归模型 #一致性模型 #流匹配 ✅ 7.0/10 | 前25% | #语音合成 | #自回归模型 | #音乐生成 #一致性模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Simon Rouard(Kyutai; UMR STMS, IRCAM-CNRS, Sorbonne Univ.) 通讯作者:未明确说明(Alexandre Défossez 提供了邮箱,且为资深作者,通常为通讯作者) 作者列表: Simon Rouard(Kyutai; UMR STMS, IRCAM-CNRS, Sorbonne Univ.) Manu Orsini(Kyutai) Axel Roebel(UMR STMS, IRCAM-CNRS, Sorbonne Univ.) Neil Zeghidour(Kyutai) Alexandre Défossez(Kyutai) 💡 毒舌点评 论文核心亮点在于其精巧的“双头”架构设计——用带噪声的长上下文Transformer保证生成稳定性,用干净的短上下文Transformer保留细节,并用高效的一致性模型头取代传统的RQ-Transformer,在多个任务上实现了质量与速度的双赢。然而,其宣称的“超越SOTA”在音乐生成等任务上部分依赖于使用自家训练的数据集重新训练的基线模型,且最关键的音乐数据集未开源,这使得最令人兴奋的实验结果难以被独立社区完全验证和比较,削弱了其作为通用方法的说服力。 🔗 开源详情 代码:论文提及了Pocket TTS的代码仓库:github.com/kyutai-labs/pocket-tts。对于CALM主框架的开源情况未在主文明确说明。 模型权重:Pocket TTS模型权重计划通过上述GitHub仓库开源。 数据集:论文使用的主要音乐数据集(LAION-Disco-12M子集)未公开。语音和TTS数据集部分来源公开,但完整混合数据集的获取方式未详细说明。 Demo:提供了示例页面:iclr-continuous-audio-language-models.github.io。 复现材料:提供了详细的超参数设置(表14, 15)、损失函数公式、架构描述和技术报告(kyutai.org/pocket-tts-technical-report)。 论文中引用的开源项目:依赖的开源项目包括:Mimi (Défossez et al., 2024b), Helium-1 (Kyutai, 2025), SentencePiece, Whisper, WavLM, Mistral 7B, CLAP, fairseq等。 📌 核心摘要 问题:当前主流的音频语言模型(ALM)依赖离散化的音频token(如RVQ),这造成了音频质量与计算成本之间的权衡。提高质量需要增加token数量(更高码率),从而导致模型计算负担加重,难以在边缘设备上实现实时高质量生成。 方法:提出连续音频语言模型(CALM),在VAE的连续隐空间中直接建模,避免了量化损失。其架构由三部分组成:1)一个因果Transformer骨干网络,处理长程依赖,并在训练时对输入施加噪声以抑制推理时的误差累积;2)一个轻量级短上下文Transformer,提供局部、干净的细节信息;3)一个基于一致性模型的小型MLP头部,用于快速生成下一个连续帧。 创新:相比先前基于扩散的MAR方法,CALM引入了噪声注入的长上下文与干净短上下文结合的双Transformer设计,并用一致性模型(Consistency Model)取代了扩散头,实现了1步快速采样。此外,还提出了高斯温度采样、潜在分类器自由引导(Latent CFG)和潜在蒸馏等技巧,进一步提升质量和效率。 结果:在语音续写、文本转语音(TTS)和音乐续写三个任务上进行了评估。实验表明,CALM在多个指标上优于强基线。例如,在语音续写中,1步一致性模型在声学质量MOS(3.45)和意义性Elo(2023)上优于8-RVQ的RQ-Transformer基线(2.75,1870),且采样头速度快12.3倍。在音乐续写中,1步一致性模型FAD(0.83)优于32-RVQ基线(1.06),整体速度快2.2倍。最终,通过蒸馏得到的100M参数Pocket TTS模型可在笔记本CPU上实时运行。 意义:为高质量、高效率的音频生成提供了新的范式,摆脱了对离散token的依赖。特别是Pocket TTS证明了在资源受限设备上实现高性能TTS的可行性,具有广泛的应用前景。 局限:论文中的部分最先进对比(如TTS任务中的F5-TTS, DiTAR)并非在同一数据集上复现的结果;音乐生成所用的核心数据集未公开;论文主要关注生成质量与效率,对于模型的可控性、编辑能力等探讨较少。 🏗️ 模型架构 CALM的整体架构如图1所示,主要包含三个核心组件,数据流如下:输入音频序列被预训练的VAE编码器转换为连续隐向量序列。在训练阶段,骨干Transformer处理的是被噪声污染的隐向量历史序列,以增强鲁棒性。短上下文Transformer则处理最近的几个干净隐向量。两者的输出相加,形成条件信号。这个条件信号被送入一致性模型头部,该头部是一个小型MLP网络,负责在给定当前噪声样本和条件信号的情况下,预测下一个干净的隐向量。在推理时,头部仅需一步即可从随机噪声生成下一个隐向量,最后由VAE解码器重建音频。 ...

2026-05-04 · 更新于 2026-06-12 · 3 min · 525 words

DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations

📄 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations #语音对话系统 #自回归模型 #多模态模型 #语音合成 #语音识别 🔥 9.5/10 | 前10% | #语音对话系统 | #自回归模型 | #多模态模型 #语音合成 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Chao-Hong Tan (Tongyi Fun Team, Alibaba Group) 通讯作者:未明确说明,根据邮箱推测为团队负责人(如tanchaohong.ch@alibaba-inc.com) 作者列表:Chao-Hong Tan, Qian Chen, Wen Wang, Chong Deng, Qinglin Zhang, Luyao Cheng, Hai Yu, Xin Zhang, Xiang Lv, Tianyu Zhao, Chong Zhang, Yukun Ma, Yafeng Chen, Hui Wang, Jiaqing Liu, Xiangang Li, Jieping Ye (所属机构均为 Tongyi Fun Team, Alibaba Group) 💡 毒舌点评 亮点:DrVoice的“双分辨率”设计堪称点睛之笔,通过一个简洁的分组/解分组机制,巧妙平衡了语音处理的计算效率(输入降至5Hz)与生成保真度(SRH在25Hz下精细化生成),在降低近半训练开销的同时性能不降反升,工程落地潜力巨大。 短板:论文专注于单向语音生成的对话模式,但真实的人机语音交互需要全双工能力(即能边听边说),作者在局限性中也承认了这一点。目前模型更像一个强大的“单口相声”演员,而非能自然打断和回应的真正对话伙伴。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 381 words

Fast Text-to-Audio Generation with One-Step Sampling via Energy-Scoring and Auxiliary Contextual Representation Distillation

📄 Fast Text-to-Audio Generation with One-Step Sampling via Energy-Scoring and Auxiliary Contextual Representation Distillation #音频生成 #自回归模型 #扩散模型 #知识蒸馏 #一步生成 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #自回归模型 #知识蒸馏 | arxiv 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kuan-Po Huang (未明确说明所属机构) 通讯作者:未明确说明 作者列表:Kuan-Po Huang (未说明), Bo-Ru Lu (未说明), Byeonggeun Kim (未说明), Mihee Lee (未说明), Zalan Fabian (未说明), Renard Korzeniowski (未说明), Qingming Tang (未说明), Greg Ver Steeg (未说明), Hung-yi Lee (未说明), Chieh-Chi Kao (未说明), Chao Wang (未说明)。论文中未提供任何作者的具体机构信息。 💡 毒舌点评 亮点:论文巧妙地将能量距离这一分布匹配目标引入文本到音频生成,实现了真正意义上的“一步”潜变量合成,同时通过从强大的多步扩散模型(IMPACT)中进行表示蒸馏,有效弥补了单步生成的质量损失,是一次“既要速度又要质量”的成功工程实践。 短板:尽管在AudioCaps基准上表现优异,但研究完全局限于该数据集,缺乏在更大规模、更多样化音频(如音乐、长时叙事音频)或真实用户场景下的验证,其泛化能力和实际应用鲁棒性存疑;更关键的是,未开源代码与模型,大大削弱了其可复现性和社区影响力。 ...

2026-05-04 · 更新于 2026-06-12 · 4 min · 669 words

Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation

📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #语音编解码 #流匹配 #自回归模型 #语音大模型 ✅ 7.5/10 | 前25% | #语音合成 | #语音编解码 | #流匹配 #自回归模型 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Weidong Chen (The Chinese University of Hong Kong) 通讯作者:Xixin Wu (The Chinese University of Hong Kong) 作者列表:Weidong Chen(The Chinese University of Hong Kong)、Helen M. Meng(The Chinese University of Hong Kong)、Xixin Wu(The Chinese University of Hong Kong) 💡 毒舌点评 这篇工作最大的亮点在于将“组”作为语音量化的基本单元,并系统性地设计了粗细有序的token序列,这确实比传统逐帧量化更适合后续的语言模型建模,逻辑自洽且实验支撑有力。然而,其核心的token分配器虽然有效,但训练方法(GRPO)的引入略显“重”,对于一个动态分配离散资源的简单策略问题,是否有更轻量优雅的解法值得商榷,且论文最终未能开源代码,让这套精心设计的系统停留在了“可望”的层面。 ...

2026-05-04 · 更新于 2026-06-12 · 3 min · 461 words

Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis

📄 Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis #语音合成 #自回归模型 #流匹配 #预训练 #端到端 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #流匹配 #预训练 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yixuan Zhou(清华大学深圳国际研究生院) 通讯作者:Zhiyong Wu(清华大学深圳国际研究生院) 作者列表:Yixuan Zhou(清华大学深圳国际研究生院),Guoyang Zeng(ModelBest Inc),Xin Liu(ModelBest Inc),Xiang Li(清华大学深圳国际研究生院),Renjie Yu(清华大学深圳国际研究生院),Ziyang Wang(ModelBest Inc),Runchuan Ye(清华大学深圳国际研究生院),Weiyue Sun(ModelBest Inc),Jiancheng Gui(ModelBest Inc),Kehan Li(清华大学深圳国际研究生院),Zhiyong Wu(清华大学深圳国际研究生院),Zhiyuan Liu(清华大学计算机科学与技术系) 💡 毒舌点评 亮点:论文提出的“半离散残差表示”框架设计精巧,通过一个可微的量化瓶颈在单一端到端模型中优雅地实现了语义和声学的隐式解耦,有效规避了传统连续模型的误差累积和离散模型的信息损失,堪称“鱼与熊掌兼得”的架构设计典范。短板:模型的高性能(VoxCPM)严重依赖海量内部数据(1百万小时),而公开验证(VoxCPM-Emilia)的性能与SOTA仍有差距,这使得其宣称的“架构优越性”在多大程度上可迁移到受限数据场景存疑,也削弱了其作为普适解决方案的说服力。 📌 核心摘要 解决的问题:现有端到端语音合成模型面临一个根本权衡:离散token方法稳定但会丢失声学细节(量化天花板),而连续表示方法保留了丰富声学信息但容易在长序列上因语义和声学任务纠缠而产生误差累积,影响稳定性。 方法核心:提出VoxCPM,一个端到端的层次化语义-声学建模框架。其核心是一个可微的有限标量量化(FSQ)瓶颈,它自然诱导出两个专门化模块:文本-语义语言模型(TSLM) 负责生成稳定的语义韵律骨架,残差声学语言模型(RALM) 负责恢复FSQ量化后丢失的精细声学细节。最终,由层次化表示共同引导一个局部扩散Transformer解码器(LocDiT) 生成高保真语音隐变量。 新意:与依赖外部离散语音token化器的多阶段管道不同,该框架将量化作为正则化机制内置于连续数据流中,实现了在单一端到端训练框架内的功能分离,消除了对外部预训练token化器的依赖,并缓解了连续模型中的任务纠缠。 主要结果:在超过1百万小时的双语数据上训练的0.5B参数VoxCPM,在SEED-TTS-EVAL基准上取得了开源系统中的最优性能,英语WER为1.85%,中文CER为0.93%,说话人相似度SIM分别为72.9%和77.2%。关键消融实验证明,去除FSQ瓶颈(w/o FSQ)会导致在困难测试集上性能急剧恶化(中文CER从18.19%升至24.92%),验证了其核心作用。 实际意义:该工作为构建表达力强、稳定性高的端到端语音合成系统提供了新的架构范式,有望推动更自然、更具情感的语音交互技术发展。 主要局限性:SOTA性能严重依赖大规模内部训练数据,在较小公开数据集上的验证(VoxCPM-Emilia)表现虽具竞争力但非顶尖,表明其对数据规模可能较为敏感。此外,框架的整体复杂度(包含LM、RALM、扩散解码器)对部署资源有一定要求。 详细分析 VoxCPM是一个层次化、端到端的自回归语音生成模型,其核心设计是通过内部半离散瓶颈实现语义和声学建模的解耦。 ...

2026-05-04 · 更新于 2026-06-12 · 4 min · 776 words

Latent Speech-Text Transformer

📄 Latent Speech-Text Transformer #语音识别 #语音合成 #语音大模型 #预训练 #自回归模型 ✅ 7.0/10 | 前25% | #语音识别 #语音合成 | #预训练 | #语音识别 #语音合成 学术质量 7.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Yen-Ju Lu ( Johns Hopkins University, Center for Language and Speech Processing ),工作于 Meta 期间完成。 通讯作者:Srinivasan Iyer, Duc Le ( Meta Superintelligence Labs ) 作者列表: Yen-Ju Lu ( Johns Hopkins University, CLSP ) Yashesh Gaur ( Meta Superintelligence Labs ) Wei Zhou ( Meta Superintelligence Labs ),工作于 Meta 期间完成。 Benjamin Muller ( Meta Superintelligence Labs ) Jesus Villalba ( Johns Hopkins University, CLSP ) Najim Dehak ( Johns Hopkins University, CLSP ) Luke Zettlemoyer ( Meta Superintelligence Labs ) Gargi Ghosh ( Meta Superintelligence Labs ) Mike Lewis ( Meta Superintelligence Labs ) Srinivasan Iyer ( Meta Superintelligence Labs ) Duc Le ( Meta Superintelligence Labs ) 💡 毒舌点评 亮点在于精准识别了语音-文本模型因序列长度悬殊导致的“计算不公平”问题,并借鉴了文本领域的字节级Transformer思想,设计出一套从静态、对齐到课程学习的渐进式语音分块方案,有效提升了模型效率和跨模态性能。短板是部分最有效方案(如对齐分块)在推理时仍依赖外部对齐模型(Wav2Vec2+CTC),课程学习虽缓解了此问题,但完全无对齐依赖的端到端训练方案更具吸引力;此外,论文聚焦于预训练和补全任务,对更复杂的生成、理解或实时对话任务的探索尚待深入。 ...

2026-05-04 · 更新于 2026-06-12 · 3 min · 485 words