自回归模型

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

📄 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation #数据集 #自回归模型 #音视频 #音频生成 #数据集 🔥 8.5/10 | 前25% | #数据集 | #自回归模型 | #音视频 #音频生成学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.9 | 置信度高 👥 作者与机构第一作者：Youliang Zhang（清华大学、StepFun）通讯作者：Xiu Li（清华大学深圳国际研究生院）作者列表： Youliang Zhang（清华大学、StepFun） Zhaoyang Li（StepFun） Duomin Wang（StepFun，共同第一作者/责任作者†） Jiahe Zhang（未说明具体机构） Deyu Zhou（香港科技大学（广州）、StepFun） Zixin Yin（香港科技大学、StepFun） Xili Dai（StepFun） Gang Yu（StepFun） Xiu Li（清华大学深圳国际研究生院‡） 💡 毒舌点评亮点：论文构建数据集的工程严谨性堪称典范，从多源数据收集到基于多种信号（SyncNet、ArcFace、3D-Speaker）的交叉验证，再到涵盖画面质量、运动模糊、音频清晰度的多层级过滤，流程完整且考虑周全，为社区贡献了一个定义明确、质量可控的“交钥匙”式基准数据集。短板：基线模型虽然设计完整，但模型体量（0.8B）与当前主流的视频生成模型（动辄数十亿甚至百亿参数）差距明显，其在视频生成核心指标（FID、FVD）上虽自身消融提升显著，但与更大更强的级联模型（如HalLo3）相比仍处下风，一定程度上削弱了其作为“标准答案”的说服力，更像一个“可行性验证”。 🔗 开源详情代码：论文明确承诺将公开数据处理代码和基线模型代码，但未提供具体的代码仓库链接（如GitHub地址）。论文中写有“Both the dataset and the data processing code will be publicly released.”和“We will open-source the entire dataset, including the raw data, annotations, and data processing pipeline”。因此，判定为有开源承诺，但具体链接未在文中给出。模型权重：论文中未提及公开预训练或微调后的基线模型权重。数据集：论文明确承诺完全开源数据集，并说明发布形式为YouTube视频ID/URL列表、时间戳和生成的标注，不托管原始视频/音频。开源方式清晰。 Demo：未提及在线演示。复现材料：提供了极其充分的复现材料，包括：详尽的数据收集、预处理、标注和过滤流程（第3节）；基线模型的架构细节、训练策略（三阶段）、超参数、硬件配置（附录A.7, A.8）；VidChatBench的构建方法和评估指标详细说明（第6.1节）；数据标注文件的具体格式和使用指南（附录A.11）；以及多处提示会开源代码。论文中引用的开源项目：数据处理工具：SceneDetect, 3D-Speaker, YOLO, SyncNet, ArcFace, Qwen2.5-VL, Qwen-3, Whisper, DWpose, PaddleOCR。模型/架构组件：Qwen2.5-Omni（理解模块）, CosyVoice2（音频分词器与声码器）, 3D-VAE（视频编解码）, NOVA（空间Transformer）。评估工具：DOVER（视频质量评估）, Deep3DFaceRecon（表情特征提取）, CLIP（文本相似度计算）。 📌 核心摘要问题：当前数字人研究正从单向驱动的“肖像生成”向双向交互的“虚拟人对话”迈进，但学术界严重缺乏为此类任务设计的大规模、高质量公开数据集。方法：论文提出SpeakerVid-5M数据集，从YouTube收集视频，通过场景分割、说话人分离、人脸检测、唇音同步、身份矫正等步骤预处理，并利用多模态大模型（Qwen2.5-VL）和多种模型进行丰富标注（文本、骨骼、模糊度等），最后进行严格的质量过滤。同时，提供了一个基于自回归（AR）框架的音视频联合生成基线模型。创新：① 首个针对“音频-视觉双人交互”任务的大规模数据集（5.2M片段，8.7K小时，其中双人对话770K对）。② 构建了多维度、分层级的数据质量控制与组织流程��对话分支、单人分支、聆听分支、多轮分支；预训练子集与SFT子集）。③ 定义并发布了VidChatBench评测基准。实验：基线模型在VidChatBench上进行评测。消融实验表明，联合音视频生成、空间Transformer优化和训练噪声注入对提升视频质量（FVD从55.06降至28.82）、唇音同步（SyncNet得分从-升至2.698）和情感一致性（FIDEmotion从3.45降至3.22）有显著效果。与级联方案（Qwen+CosyVoice+Sonic/Hallo3）对比，本方法在情感和手势质量上占优，推理速度快一个数量级（3.17s/帧 vs 31-45s/帧）。实际意义：该数据集填补了交互式虚拟人研究的数据空白，其丰富的标注也适用于人体动画、多模态对话等任务，将加速该领域的基础模型研究。局限性：数据集来源存在人口统计偏差（偏英语、西方、男性）。基线模型规模较小，视频生成保真度与顶级扩散模型仍有差距，其主要价值在于验证数据集和AR框架的可行性。 🏗️ 模型架构论文提出的基线方法是一个面向音视频双人交互生成的端到端自回归（AR）系统。整体架构分为两个主要部分：多模态理解与AR音视频生成器、视觉优化模块。 ...

Steering Autoregressive Music Generation with Recursive Feature Machines

📄 Steering Autoregressive Music Generation with Recursive Feature Machines #音乐生成 #自回归模型 #激活干预 #音频大模型 #可控生成 🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 #激活干预 | #自回归模型 #激活干预学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Daniel Zhao（University of California, San Diego）通讯作者：未说明（从作者列表和邮箱格式推断，第一作者Daniel Zhao可能是主要联系人，但未明确标注）作者列表：Daniel Zhao（University of California, San Diego）、Daniel Beaglehole（University of California, San Diego）、Taylor Berg-Kirkpatrick（University of California, San Diego）、Julian McAuley（University of California, San Diego）、Zachary Novack（University of California, San Diego） 💡 毒舌点评这篇论文的亮点在于它成功地将RFM这一“老”概念嫁接到了音乐生成这个热门但控制困难的任务上，并通过精巧的层/时间调度设计实现了相当不错的控制效果，免去了训练或微调基础模型的巨大开销。不过，其控制能力严重依赖于在高度理想化的合成音乐数据集（SYNTHEORY）上训练的探针，当面对真实世界复杂多变的音乐纹理时，这些探针发现的“方向”是否依然稳健有效，论文并未给出足够有说服力的证据。 ...

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

📄 STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models #语音对话系统 #流式处理 #自回归模型 #语音大模型 #端到端 🔥 8.5/10 | 前25% | #语音对话系统 | #流式处理 | #自回归模型 #语音大模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Cheng-Han Chiang（National Taiwan University， Microsoft GenAI）通讯作者：Xiaofei Wang（Microsoft）作者列表：Cheng-Han Chiang（National Taiwan University, Microsoft）， Xiaofei Wang（Microsoft）， Linjie Li（Microsoft）， Chung-Ching Lin（Microsoft）， Kevin Lin（Microsoft）， Shujie Liu（Microsoft）， Zhendong Wang（Microsoft）， Zhengyuan Yang（Microsoft）， Hung-yi Lee（National Taiwan University）， Lijuan Wang（Microsoft） 💡 毒舌点评亮点在于将人类“边想边说”的模式形式化为一个可计算的交错生成框架，并在几乎不增加首包延迟的前提下显著提升了数学推理任务的准确率，堪称“偷时间”的艺术。短板在于对生成的“思考链”本身的质量和可靠性缺乏更深入的分析，且实验场景集中于英文数学题，对更复杂对话场景的泛化能力有待验证。 ...

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling

📄 TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling #语音大模型 #语音生成 #预训练 #自回归模型 #少样本 ✅ 7.0/10 | 前25% | #语音生成 | #自回归模型 | #语音大模型 #预训练学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Liang-Hsuan Tseng (台湾大学电信工程学研究所，MediaTek Research实习) 通讯作者：未明确说明，但Yi-Chang Chen和Hung-yi Lee提供了单位邮箱。作者列表： Liang-Hsuan Tseng (台湾大学电信工程学研究所，MediaTek Research实习) Yi-Chang Chen (MediaTek Research) Kuan-Yi Lee (台湾大学电信工程学研究所，MediaTek Research实习) Da-Shan Shiu (MediaTek Research) Hung-yi Lee (台湾大学人工智能研究中心) 💡 毒舌点评论文提出了一个解决语音-文本联合建模中序列长度不匹配问题的优雅方案，即让语音token在分词阶段就与文本转录对齐，这确实简化了后续的语言模型训练。然而，该方法强依赖于一个准确的ASR前端（尽管论文进行了鲁棒性测试），且当前验证主要集中在语音续写等相对简单的任务上，对于更复杂的多轮对话、指令跟随等能力未做探讨，其作为“基础模型”的通用性仍有待证明。 🔗 开源详情代码：论文中明确提及提供代码，地址为 https://mtkresearch.github.io/TASTE-SpokenLM.github.io（实际为项目主页，需跳转至代码仓库）。模型权重：论文中明确提及提供模型，地址同上。数据集：使用公开数据集 Emilia 和 LibriTTS，未提供独有数据集。 Demo：论文中明确提及提供在线演示，地址为上述网址。复现材料：论文在附录中提供了非常详细的超参数、训练配置、评估细节和算法伪代码（如解决分词器不匹配的算法1），复现信息充分。引用的开源项目：Whisper (编码器), S3 token/Vocoder (语音单元和声码器), LLaMA (基座LLM), DeepSpeed/Liger Kernel (训练加速), Montreal Forced Aligner (对齐工具), HiFi-GAN。 📌 核心摘要要解决什么问题：现有语音语言模型（SLM）在联合文本和语音建模时，面临模态间隙和序列长度不匹配的挑战。传统语音分词（如EnCodec）产生的token序列远长于对应文本，需要复杂的对齐策略（如插入填充、交错生成）才能进行联合建模，增加了复杂性。方法核心是什么：提出TASTE，一种文本对齐的语音分词与嵌入方法。它直接将语音分词过程与文本转录对齐：首先使用ASR获得文本转录，然后通过一个基于注意力的聚合器（以文本转录为查询，ASR编码器最后一层为键、浅层为值）将语音表示压缩并硬对齐到每个文本token上，最后通过RVQ量化。训练目标为语音重建。由此得到的语音token/嵌入在序列长度和位置上与文本token一一对应。与已有方法相比新在哪里：不同于以往先独立分词再设法对齐的思路，TASTE在分词阶段就完成了文本-语音对齐，实现了一种“端到端”的联合分词。这使得在联合语言模型（TASLM）中，可以同时预测下一个文本token和对应的语音token/嵌入，无需额外对齐规则。其语音token专注于携带副语言信息（如韵律、音色），避免了冗余编码文本内容。主要实验结果如何：语音重建：在LibriSpeech上，TASTE以极低比特率（~150 bps，约3 tokens/秒）实现了与高比特率方法（如S3 token, 600 bps）可比的重建质量和相似度（表1）。语音续写：在3秒语音提示后的续写任务上，基于1.3B参数LLaMA微调的TASLM在GPT-4o语义评分（3.16）和人工MOS（4.16）上显著优于其他7B级SLM（表2）。似然基准：在SALMON（声学）和StoryCloze（语义）基准上表现与其它联合建模方法相当，在StoryCloze上达到最佳（76.5%/76.7%）。少样本语音QA：TASLM是少数能在少样本场景下保持基座文本LLM性能的SLM（表3）。实际意义是什么：TASTE提供了一种更简洁、高效的构建文本-语音联合模型的方式，降低了训练复杂度。其极低比特率的语音分词对带宽敏感的传输和存储场景有潜在价值。文本对齐的特性也自然支持了文本对齐的语音编辑（如图3），为精细的语音控制提供了新思路。主要局限性是什么：论文明确提到，当前模型缺乏对话轮次管理和指令跟随能力；仅在英语上验证，多语言泛化性未知；分词器聚焦于清晰语音，未处理重叠语音、非语言事件（如笑声）；系统延迟和流式性能未优化。 🏗️ 模型架构 TASTE的整体框架如图2所示，包含两个阶段：TASTE语音分词器训练（用于重建）和联合语言模型（TASLM）训练。 ...

UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

📄 UALM: Unified Audio Language Model for Understanding, Generation and Reasoning #统一音频模型 #音频生成 #音频问答 #自回归模型 #多模态模型 🔥 8.5/10 | 前25% | #音频生成 | #自回归模型 | #统一音频模型 #音频问答学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jinchuan Tian（卡内基梅隆大学，NVIDIA）通讯作者：未明确标注，论文指出所有作者贡献相等（Equal Contribution）作者列表： Jinchuan Tian（卡内基梅隆大学，NVIDIA） Sang-gil Lee（NVIDIA） Zhifeng Kong（NVIDIA） Sreyan Ghosh（NVIDIA，马里兰大学） Arushi Goel（NVIDIA） Chao-Han Huck Yang（NVIDIA） Wenliang Dai（NVIDIA） Zihan Liu（NVIDIA） Hanrong Ye（NVIDIA） Shinji Watanabe（卡内基梅隆大学） Mohammad Shoeybi（NVIDIA） Bryan Catanzaro（NVIDIA） Rafael Valle（NVIDIA） Wei Ping（NVIDIA） 💡 毒舌点评亮点在于首次系统性地证明了一个基于自回归语言模型的音频模型，可以通过数据缩放和特定技巧（如CFG和DPO）在生成质量上追平甚至超越扩散模型，并进一步将其扩展为能进行文本-音频联合推理的统一模型，技术路线清晰且有效。短板则在于其宣称的“统一”模型，其核心的音频理解数据集（AF3）和大规模生成数据（30M）并未公开，这使得“统一训练”和“匹配专用模型性能”的结论在独立复现层面打了折扣，更像一个强大的NVIDIA内部能力展示。 ...

YuE: Scaling Open Foundation Models for Long-Form Music Generation

📄 YuE: Scaling Open Foundation Models for Long-Form Music Generation #音乐生成 #自回归模型 #歌唱语音合成 #多模态模型 #音频大模型 ✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #歌唱语音合成 #多模态模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.9 | 置信度高 👥 作者与机构第一作者：未说明（论文列出了大量作者，但未明确区分第一作者）通讯作者：未说明（论文提供了多位联系人邮箱，但未明确指定通讯作者）作者列表：Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xeron Du, Zhen Ye, Tianyu Zheng, Zhengxuan Jiang, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi LI, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, XiangzhouWang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo（主要隶属机构为：Multimodal Art Projection (MAP), 香港科技大学 (HKUST)；部分作者同时隶属Moonshot.ai, 上海交通大学 (SJTU), 清华大学, CMU, Queen Mary University of London等）。 💡 毒舌点评亮点：作为首个在质量上能与Suno、Udio等商业巨头掰手腕的开源歌词到歌曲生成模型，YuE的诞生本身就是对音乐AI民主化的巨大贡献，其系统性技术方案（双轨预测、结构化条件、音乐ICL重设计）为后续研究提供了清晰的蓝图。短板：尽管在“音乐性”和“人声敏捷度”上表现亮眼，但在音质保真度（VocalQual, AccompQual）上与顶级闭源系统仍有可感知的差距，这指向了其语义-声学融合编解码器的根本性局限；此外，对于训练数据版权合规性的说明仍显笼统，这在生成式AI伦理日益受关注的当下是一个隐患。 ...

Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task?

📄 Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task? #音乐生成 #自回归模型 #端到端 #多模态模型 #生成模型 🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 | #端到端 #多模态模型学术质量 8.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Zijian Zhao（The Hong Kong University of Science and Technology）通讯作者：Xiaoyu Zhang（City University of Hong Kong）作者列表：Zijian Zhao（The Hong Kong University of Science and Technology），Dian Jin（The Hong Kong Polytechnic University），Zijing Zhou（The University of Hong Kong），Xiaoyu Zhang（City University of Hong Kong） 💡 毒舌点评亮点：论文最具价值之处在于开创性地将“自动舞台灯光控制”从传统的分类-映射范式重新定义为端到端的生成任务，并提供了从数据集构建到模型设计、评估的完整解决方案，思路清晰，闭环完整。短板：模型架构的核心（Skip-BART）是对现有BART模型的适配与改进，而非全新架构设计；“生成”的概念虽新，但任务本身的复杂度和数据规模（699个样本）使其技术深度相较于文本或图像生成领域的突破性工作仍有距离。 ...

Continuous Audio Language Models

📄 Continuous Audio Language Models #音频生成 #音乐生成 #自回归模型 #流匹配 #语音合成 🔥 9.5/10 | 前10% | #音频生成 #音乐生成 | #自回归模型 #流匹配 | #音频生成 #音乐生成学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Simon Rouard（Kyutai；IRCAM-CNRS Sorbonne Univ.）通讯作者：未说明（论文未明确指定，通常对应邮箱作者为Simon Rouard和Alexandre Défossez）作者列表：Simon Rouard（Kyutai；IRCAM-CNRS Sorbonne Univ.），Manu Orsini（Kyutai），Axel Roebel（IRCAM-CNRS Sorbonne Univ.），Neil Zeghidour（Kyutai），Alexandre Défossez（Kyutai） 💡 毒舌点评这篇论文的亮点在于其系统性思维，它没有孤立地提出一个新模块，而是为“连续音频生成”这个目标设计了一整套涵盖编码、建模、采样和蒸馏的完整流水线（CALM），并通过“Pocket TTS”将学术想法落到了实处。然而，其短板在于音乐生成的实验数据集规模（400K歌曲）相比工业级模型仍显局促，这或许限制了其在最复杂音乐场景下潜力的完全展现，且论文未公开其训练数据集。 🔗 开源详情代码：论文中提及了代码仓库链接：github.com/kyutai-labs/pocket-tts (用于Pocket TTS)。主论文代码链接在摘要中提及为：iclr-continuous-audio-language-models.github.io。模型权重：明确提供了开源的“Pocket TTS”模型权重（100M参数），可在上述GitHub仓库获取。对于论文中的大型实验模型（如1.35B音乐模型），未提及是否开源。数据集：论文详述了训练所用的数据集名称（如Emilia, LAION-Disco-12M等）和规模，但未提供统一的下载链接，部分数据集可能是公共的，部分可能为内部或受限数据集。 Demo：摘要中提到了示例音频网站 iclr-continuous-audio-language-models.github.io。复现材料：提供了极其详尽的附录，包括：表14（VAE超参数）、表15（模型与训练超参数）、各任务的具体数据处理细节（附录D、F、G）、消融实验（表6，表10）、补充实验（表7，表8，表9，表11，表12，表13）、以及人类评估方法详细说明（附录H）。论文中引用的开源项目：论文主要基于并引用了以下开源项目/模型：Mimi (Défossez et al., 2024b), WavLM (Chen et al., 2021b), Helium-1 (Kyutai, 2025), Mistral 7B (Jiang et al., 2023), CLAP (Elizalde et al., 2023), SentencePiece (Kudo & Richardson, 2018), fairseq (Ott et al., 2019), Whisper (Radford et al., 2022)。 📌 核心摘要要解决什么问题：现有音频语言模型（ALM）依赖有损的离散音频令牌（如RVQ），导致生成高质量音频必须生成更多令牌，从而在保真度和计算成本之间存在根本矛盾。方法核心是什么：提出连续音频语言模型（CALM），在VAE的连续潜空间中进行自回归建模。核心是一个大型因果Transformer（长上下文）处理带噪声的历史潜变量，一个轻量Transformer（短上下文）处理干净的近期潜变量，两者结合后条件化一个小型一致性模型（MLP），以单步生成下一个干净的连续潜变量。与已有方法相比新在哪里：完全避免了有损量化，用一致性模型替代了离散模型的RQ-Transformer头或扩散模型的多步采样头，实现了质量与效率的同步提升。创新性地提出了“噪声长上下文+干净短上下文”的双Transformer设计、潜在分类器引导（Latent CFG）和潜在蒸馏（Latent Distillation）等技术。主要实验结果如何：在语音延续、文本到语音（TTS）和音乐延续任务上全面超越了最先进的离散模型基线。 TTS任务（表3）：CALM模型WER为1.81，优于F5-TTS的2.42和DSM的1.95，声学质量MUSHRA得分61.1。音乐延续任务（表4）：CALM一致性模型（4步）的FAD（0.71）优于32-RVQ RQ-Transformer基线（1.06），整体推理速度提升1.9倍，采样头速度提升5.4倍。语音延续任务（表2）：CALM在声学质量和有意义性上均超越8-RVQ RQ-Transformer。消融研究（表6）：证明短上下文Transformer和噪声增强是模型高性能的关键。实际意义是什么：使得在轻量级设备（如笔记本电脑CPU）上运行高质量的实时音频生成成为可能。开源的“Pocket TTS”（100M参数）模型实现了这一目标，具有极高的实际应用价值。主要局限性是什么：论文中音乐生成的训练数据集规模（约20K小时）相对有限；连续表示可能在某些细粒度控制上（如精确的音高、时长编辑）面临挑战；论文未提供其主训练数据集的下载链接。 🏗️ 模型架构 CALM的整体架构（图1）是一个端到端的连续自回归生成系统，由VAE编码器、双Transformer骨干和一致性模型头组成。 ...

DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations

📄 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations #语音对话系统 #大语言模型 #端到端 #自回归模型 #语音合成 🔥 8.5/10 | 前25% | #语音对话系统 | #大语言模型 | #端到端 #自回归模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chao-Hong Tan (未明确标注，但作者列表首名) 通讯作者：论文中未明确指定通讯作者。作者列表：Chao-Hong Tan, Qian Chen, Wen Wang, Chong Deng, Qinglin Zhang, Luyao Cheng, Hai Yu, Xin Zhang, Xiang Lv, Tianyu Zhao, Chong Zhang, Yukun Ma, Yafeng Chen, Hui Wang, Jiaqing Liu, Xiangang Li, Jieping Ye (Tongyi Fun Team, Alibaba Group) 💡 毒舌点评亮点：DrVoice 提出的双分辨率语音表示（DRSR）设计精巧，通过分组将输入帧率降至5Hz，大幅降低了计算成本（训练时间减少近50%），并成功缓解了语音与文本token的频率失配问题，在保持甚至超越SOTA性能的同时提升了效率。短板：模型在语音质量（UTMOS）上与最强基线（如Qwen2.5-Omni）持平，但在语音与文本对齐（ASR-WER）上仍有差距，说明其生成的语音在精确还原文本内容上还有提升空间，且全双工交互能力未实现。 ...

Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation

📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #流匹配 #自回归模型 #零样本 #语音大模型 🔥 8.5/10 | 前25% | #语音合成 | #流匹配 | #自回归模型 #零样本学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Weidong Chen (香港中文大学电子工程系) 通讯作者：Xixin Wu (香港中文大学电子工程系) 作者列表：Weidong Chen (香港中文大学电子工程系), Helen M. Meng (香港中文大学电子工程系), Xixin Wu (香港中文大学电子工程系) 💡 毒舌点评论文的亮点在于巧妙地将“组级量化”与“粒度排序”结合，从根源上解决了语音编解码器既要“高层抽象利于建模”又要“低层细节保证音质”的矛盾，设计思路清晰且优雅。但短板在于其框架组件繁多（编解码器、两阶段生成模型、额外训练的分配器），训练流程复杂，且token分配器的优化与主模型分离，可能并非全局最优，工程实现的门槛不低。 🔗 开源详情代码：论文中未提及官方代码仓库链接。模型权重：未提及公开预训练模型权重。数据集：训练使用Emilia（英文子集），评估使用LibriTTS和Seed-TTS，均为已有公开数据集。论文未提及提供新的数据集。 Demo：提供了在线演示链接：https://happycolor.github.io/gogo。复现材料：附录（A-M）提供了极其详细的实现细节、训练配置、评估设置、消融实验说明和可视化，复现信息非常充分。论文中引用的开源项目：Vocos (声码器), LLaMA-3.2-1B-Instruct (SLM基础模型), PyTorch等常见框架。对比实验中引用了EnCodec, DAC, SpeechTokenizer, Mimi, SNAC, WavTokenizer等众多开源编码器模型。 📌 核心摘要本文旨在解决当前语音语言模型中核心的语音编解码器面临的双重挑战：传统帧级量化难以捕获高层语义信息，以及固定比特率分配忽略了语音信号信息分布的不均匀性。为此，作者提出了Gogo编解码器，它创新性地将连续帧分组，并为每组生成从粗到细、粒度有序的令牌，粗令牌编码高层抽象，细令牌逐步恢复声学细节。基于此，设计了GogoSpeech两阶段语音生成模型：第一阶段以极低令牌率生成高层语音骨架，第二阶段再丰富细节。此外，引入了一个基于GRPO训练的令牌分配器，根据语音片段的复杂度自适应分配细粒度令牌的预算，以提升效率。实验表明，在47 Hz的令牌率下，Gogo在多项重建指标（如UT-MOS 4.19, DNS-MOS 3.99）上优于其他SOTA编解码器。在零样本语音合成任务中，GogoSpeech取得了最佳的说话人相似度（SIM 0.667）和综合质量评分（SMOS 4.381, CMOS +1.832），并证明了令牌分配器能在几乎不损质量的前提下将平均令牌率从47 Hz降至36 Hz。这项工作为高效、稳定的语音生成提供了新的范式。其局限性在于依赖固定的分组策略，且令牌分配器的训练与主生成模型解耦，可能存在优化不足。 ...