Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis

📄 Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis #语音合成 #自回归模型 #零样本 #扩散模型 #端到端 🔥 8.5/10 | 前25% | #语音合成 | #自回归模型 | #零样本 #扩散模型 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.6 | 置信度 高 👥 作者与机构 第一作者:Yixuan Zhou(清华大学深圳国际研究生院) 通讯作者:Zhiyong Wu(清华大学深圳国际研究生院) 作者列表:Yixuan Zhou(清华大学深圳国际研究生院)、Guoyang Zeng(ModelBest Inc.)、Xin Liu(ModelBest Inc.)、Xiang Li(清华大学深圳国际研究生院)、Renjie Yu(清华大学深圳国际研究生院)、Ziyang Wang(ModelBest Inc.)、Runchuan Ye(清华大学深圳国际研究生院)、Weiyue Sun(ModelBest Inc.)、Jiancheng Gui(ModelBest Inc.)、Kehan Li(清华大学深圳国际研究生院)、Zhiyong Wu(清华大学深圳国际研究生院,通讯作者)、Zhiyuan Liu(清华大学计算机科学与技术系) 💡 毒舌点评 论文巧妙地利用有限标量量化(FSQ)作为“强制分心”的瓶颈,逼着语言模型先管好内容和语调的大局,再把声学细节的脏活累活交给另一个模块,这种设计既有理论优雅性又有工程实用性;不过,尽管在客观指标和克隆相似度上表现亮眼,论文在主观自然度(N-MOS)上并未全面碾压IndexTTS2等强敌,暗示着“稳定”与“极致自然”之间可能还存在细微的权衡,尤其是在中文的韵律控制上可能还有提升空间。 🔗 开源详情 代码:论文明确表示“We will release code and models to support future research”,但未提供具体的代码仓库链接。附录中给出了推断代码的占位符 codes.zip。 模型权重:承诺发布,但未说明具体平台或链接。 数据集:使用了公开的Emilia数据集(9.5万小时),并提及了内部大规模双语数据集(超过100万小时,未公开)。 Demo:提供了在线演示页面链接:https://voxcpm.github.io/VoxCPM-demopage/。 复现材料:提供了非常充分的复现材料,包括:详细的模型架构参数表(附录表5)、训练阶段的学习率调度与批处理大小(附录表6)、所有消融实验的设置、硬件配置(GPU型号与数量)、以及多处关于训练技巧的说明(如WSD策略的重要性)。附录F部分包含了大量实验的细节和结果表格。 论文中引用的开源项目:主要引用了作为基线的其他TTS系统(如CosyVoice, F5-TTS等),以及预训练的语言模型MiniCPM-4。在实现上,使用了Megatron框架。 📌 核心摘要 要解决的问题:端到端语音合成中表达力(连续表示)与稳定性(离散表示)之间的根本性矛盾。离散化会损失细节,而连续建模则因任务纠缠(语义规划与声学渲染混杂)容易导致长序列上的误差累积和不稳定。 方法核心:提出一个统一的端到端框架,通过“层次化语义-声学建模”和“半离crete残差表示”来解决上述矛盾。核心是在文本语义语言模型(TSLM)和残差声学语言模型(RALM)之间插入一个可微分的有限标量量化(FSQ)瓶颈。该瓶颈自然诱导了任务分离:TSLM专注于生成稳定的语义-韵律“骨架”,RALM负责恢复被量化的细粒度声学细节。两者生成的条件信号共同指导一个基于扩散的局部Transformer解码器(LocDiT)生成最终语音。 与已有方法相比新在哪里: 新在统一框架:将显式的层次化设计(语义 vs. 声学)与残差学习结合在一个可端到端训练的统一框架内,避免了传统多阶段流水线的割裂和对外部预训练分词器的依赖。 新在瓶颈机制:不同于将量化作为预测目标,本工作将FSQ作为正则化瓶颈和归纳偏置,强制信息流进行分层,从而在保持可微性的同时实现了隐式的任务解耦。 新在训练范式:整个层次化模型(包括量化瓶颈)仅使用简单的扩散目标进行端到端训练,简化了流程并实现了协同优化。 主要实验结果: 主实验:在超过100万小时的双语数据上训练的0.5B参数模型VoxCPM,在开源模型中取得了最先进(SOTA)的零样本TTS性能。在SEED-TTS-EVAL基准上,英文WER为1.85%,中文CER为0.93%,说话人相似度(SIM)分别为72.9%(EN)和77.2%(ZH),优于CosyVoice2, IndexTTS2等模型。 关键对比数据: 模型 参数量 训练数据 英文WER↓ 英文SIM↑ 中文CER↓ 中文SIM↑ CosyVoice2 0.5B 170K hrs 3.09 65.9 1.38 75.7 IndexTTS 2 1.5B 55K hrs 2.23 70.6 1.03 76.5 VoxCPM 0.5B 1.8M hrs 1.85 72.9 0.93 77.2 消融实验:证实了FSQ瓶颈和残差声学模型(RALM)是性能关键。移除FSQ导致中文硬例句CER从18.19%飙升至24.92%;移除RALM(退化为单一连续模型)导致性能显著下降。FSQ维度选择也至关重要,256维是较优平衡点。 可视化分析:t-SNE可视化显示TSLM-FSQ输出形成与文本内容相关的语义结构,而RALM残差输出则聚类为说话人相关的声学特征,验证了隐式解耦。 实际意义:提供了一种新的、统一的端到端语音合成架构范式,证明了通过精心设计的瓶颈结构可以在连续空间中实现稳定且富有表达力的生成,无需外部离散编码器。这对于推动开源、高质量、可定制的语音合成技术具有重要意义。 主要局限性:论文中已提及和暗示的局限包括:在极致语音自然度(N-MOS)上并非所有场景都绝对领先(如中文部分测试落后于IndexTTS2);实时流式合成能力虽被提及(因果VAE、低延迟),但实验未深入展示其在长序列对话等复杂流式场景下的稳定性与表现;模型依赖大规模高质量数据(超过100万小时)以达最佳性能,其在低资源场景下的有效性未充分验证。 🏗️ 模型架构 VoxCPM是一个端到端的、自回归的层次化语音生成模型,其核心在于层次化的条件生成与半离散残差表示学习。整体架构如下图所示: ...

2026-05-02 · 更新于 2026-06-12 · 3 min · 457 words

JaiTTS: A Thai Voice Cloning Model

📄 JaiTTS: A Thai Voice Cloning Model #语音合成 #语音克隆 #自回归模型 #泰语 #语音大模型 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #语音克隆 #泰语 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jullajak Karnjanaekarin (Jasmine Technology Solution) 通讯作者:未明确说明(论文提供了团队邮箱 jts.ai.team@gmail.com) 作者列表: Jullajak Karnjanaekarin (Jasmine Technology Solution) Pontakorn Trakuekul (Jasmine Technology Solution) Narongkorn Panitsrisit (Jasmine Technology Solution) Sumana Sumanakul (Jasmine Technology Solution) Vichayuth Nitayasomboon (Jasmine Technology Solution) Nithid Guntasin (Sirindhorn International Institute of Technology, 实习于Jasmine Technology Solution) Thanavin Denkavin (Sirindhorn International Institute of Technology) Attapol T. Rutherford (Jasmine Technology Solution; Chulalongkorn University, Department of Linguistics) 💡 毒舌点评 亮点:论文在泰语语音克隆上实现了SOTA,CER甚至优于人类基准,并在400次盲测中以70%胜率击败商业巨头,展示了强大的工程落地和数据调优能力。短板:模型核心架构源自VoxCPM,原创性有限;更关键的是“代码、模型、数据”三无状态,使得其优异的实验结果暂时停留在“不可复现的宣称”阶段,大大削弱了学术贡献的可验证性和社区价值。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 425 words

Latent Speech-Text Transformer

📄 Latent Speech-Text Transformer #语音大模型 #预训练 #自回归模型 #语音识别 #语音合成 🔥 8.5/10 | 前10% | #语音大模型 | #预训练 | #自回归模型 #语音识别 学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Yen-Ju Lu (Center for Language and Speech Processing, Johns Hopkins University) 通讯作者:Srinivasan Iyer†, Duc Le† (†联合末位作者, Meta Superintelligence Labs) 作者列表: Yen-Ju Lu† (Center for Language and Speech Processing, Johns Hopkins University) Yashesh Gaur (Meta Superintelligence Labs) Wei Zhou† (Meta Superintelligence Labs) Benjamin Muller (Meta Superintelligence Labs) Jesus Villalba (Center for Language and Speech Processing, Johns Hopkins University) Najim Dehak (Center for Language and Speech Processing, Johns Hopkins University) Luke Zettlemoyer (Meta Superintelligence Labs) Gargi Ghosh (Meta Superintelligence Labs) Mike Lewis (Meta Superintelligence Labs) Srinivasan Iyer† (Meta Superintelligence Labs) Duc Le† (Meta Superintelligence Labs) 💡 毒舌点评 这篇论文的最大亮点在于精准诊断了语音-文本模型效率低下的“病因”(信息密度不匹配),并开出了一剂对症的“药方”(潜语音块),实验证明该药方不仅能提升语音任务表现,甚至对纯文本任务也有增益,思路清晰且效果显著。然而,其“药引子”——对齐补丁和课程学习策略——严重依赖外部对齐模型(Wav2Vec2+CTC),这为实际部署引入了额外的复杂性和潜在的误差传递,在追求“无对齐”的端到端理想模型道路上,这或许是一个迂回但务实的选择。 ...

2026-05-02 · 更新于 2026-06-12 · 3 min · 535 words

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition

📄 Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition #语音识别 #音视频 #自回归模型 #低资源 #预训练 🔥 8.5/10 | 前25% | #语音识别 | #自回归模型 | #音视频 #低资源 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Alexandros Haliassos(NatWest AI Research & Imperial College London) 通讯作者:未明确说明 作者列表:Alexandros Haliassos(NatWest AI Research & Imperial College London),Rodrigo Mira(NatWest AI Research),Stavros Petridis(NatWest AI Research & Imperial College London) 💡 毒舌点评 这篇论文把CTC这个“老实人”的稳健和注意力“艺术家”的表达力在伪标签阶段强行撮合,用“老师傅带路”的方式训练学生,既省了计算又抗了噪,想法相当机灵。但可惜的是,这种“撮合”在分布外场景下也暴露了局限性,当CTC预测本身出错时,错误的传导依然存在,且论文对更极端的分布偏移(如完全不同的语言或方言)验证不足。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 371 words

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

📄 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation #数据集 #自回归模型 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #数据集 | #自回归模型 | #音视频 #多模态模型 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Youliang Zhang(清华大学,邮箱:zhangyou24@mails.tsinghua.edu.cn) 通讯作者:Duomin Wang (wangduomin@gmail.com), Xiu Li (li.xiu@sz.tsinghua.edu.cn) (论文中标注了†和‡,通常表示通讯作者) 作者列表: Youliang Zhang(清华大学) Zhaoyang Li(StepFun) Duomin Wang†(StepFun) Jiahe Zhang(未说明) Deyu Zhou(StepFun;香港科技大学(广州)) Zixin Yin(StepFun;香港科技大学) Xili Dai(StepFun;香港科技大学) Gang Yu(StepFun) Xiu Li‡(清华大学(深圳)) 💡 毒舌点评 本文最大的亮点在于其填补了“音频-视觉双人交互虚拟人生成”这一关键任务的数据空白,以工业级的系统性和透明度构建了一个规模(520万片段)和质量(1080P+)俱佳的专用数据集,为后续研究铺平了道路。然而,其短板在于“新瓶装旧酒”感略强——基线模型采用的自回归+扩散架构并非全新,且在绝对视频生成质量上并未超越更庞大的级联扩散模型(如Hallo3),其主要优势更多体现在端到端带来的推理速度与情感保持上。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 387 words

Steering Autoregressive Music Generation with Recursive Feature Machines

📄 Steering Autoregressive Music Generation with Recursive Feature Machines #音乐生成 #可解释性 #自回归模型 #基准测试 #模型评估 🔥 8.0/10 | 前25% | #音乐生成 | #可解释性 | #自回归模型 #基准测试 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Daniel Zhao (University of California, San Diego) 通讯作者:未明确说明(论文列出了所有作者邮箱,无指定通讯作者) 作者列表:Daniel Zhao (University of California, San Diego)、Daniel Beaglehole (University of California, San Diego)、Taylor Berg-Kirkpatrick (University of California, San Diego)、Julian McAuley (University of California, San Diego)、Zachary Novack (University of California, San Diego) 💡 毒舌点评 亮点:该工作将“可解释性”与“可控生成”两个热门方向巧妙结合,通过激活空间干预提供了无需重训模型的细粒度控制方案,实验设计全面,既有严谨的量化指标,也有主观听感测试。 短板:对节奏、和弦进行等强时序依赖概念的控制效果仍较弱,其核心控制单元(均值池化的探针)本质上牺牲了时序动态信息,这在未来可能是需要突破的瓶颈。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 318 words

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

📄 STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models #语音大模型 #自回归模型 #语音对话系统 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #自回归模型 | #语音大模型 #流式处理 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Cheng-Han Chiang(台湾大学;微软) 通讯作者:Xiaofei Wang(微软) 作者列表: Cheng-Han Chiang (台湾大学, 微软), Xiaofei Wang (微软), Linjie Li (微软), Chung-Ching Lin (微软), Kevin Lin (微软), Shujie Liu (微软), Zhendong Wang (微软), Zhengyuan Yang (微软), Hung-yi Lee (台湾大学), Lijuan Wang (微软) 💡 毒舌点评 这篇论文巧妙地利用“音频播放时间”来“偷”时间进行内部推理,为语音大模型引入“边想边说”能力,解决了传统“先想后说”带来的延迟问题,思路很工程化且有效。但论文的“突破性”有限,核心是将文本CoT技术适配到特定语音模型架构(GLM-4-Voice)的生成流程上,并非提出全新的模型范式;同时,实验主要局限于英语数学问答,对多语言、复杂对话场景的验证有待加强。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 319 words

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling

📄 TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling #语音大模型 #端到端 #语音对话系统 #大语言模型 #自回归模型 🔥 8.0/10 | 前25% | #语音对话系统 | #端到端 | #语音大模型 #大语言模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Liang-Hsuan Tseng (刘亮轩) (台湾大学电机工程学系研究所;MediaTek Research实习) 通讯作者:未明确说明。作者列表中第二作者Yi-Chang Chen(联发科技研究中心)和第四作者Da-shan Shiu(联发科技研究中心)提供了邮箱,可能负责主要联络。 作者列表: Liang-Hsuan Tseng (台湾大学电机工程学系研究所, MediaTek Research实习) Yi-Chang Chen (MediaTek Research) Kuan-Yi Lee (台湾大学电机工程学系研究所, MediaTek Research实习) Da-shan Shiu (MediaTek Research) Hung-yi Lee (台湾大学人工智能研究卓越中心) 💡 毒舌点评 这篇论文的亮点在于它跳出了“先有语音token,再想办法与文本对齐”的常规思路,从源头设计了一种与文本一一对应的语音标记,巧妙解决了SLM建模中的长度不匹配痛点,使得联合建模变得“straightforward”,效果立竿见影。然而,其高度依赖ASR(Whisper)来获取文本锚点,这意味着模型性能上限可能受限于ASR的准确性和泛化能力,且对于非语言声音(如笑声、环境声)的处理存在明显短板,暴露了当前“文本中心主义”语音建模范式的局限性。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 318 words

UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice #语音翻译 #自回归模型 #大语言模型 #数据集 #预训练 ✅ 7.5/10 | 前25% | #语音翻译 | #自回归模型 | #大语言模型 #数据集 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Sitong Cheng(香港科技大学) 通讯作者:Yike Guo(香港科技大学),Wei Xue(香港科技大学) 作者列表:Sitong Cheng(香港科技大学)、Weizhen Bian(香港科技大学)、Xinsheng Wang(Soul AI Lab)、Ruibin Yuan(香港科技大学)、Jianyi Chen(香港科技大学)、Shunshun Yin(Soul AI Lab)、Yike Guo(香港科技大学,通讯作者)、Wei Xue(香港科技大学,通讯作者) 💡 毒舌点评 本文最大的亮点在于“化繁为简”,通过精巧的token设计和提示策略,将复杂的多模态语音翻译任务“降维”成了预训练大语言模型熟悉的序列生成问题,并取得了SOTA级的性能,证明了这条路径的可行性。短板在于其高度依赖特定的、非原创的语音tokenizer(BiCodec, GLM-4)和合成数据集(UniST),这虽然是一种聪明的工程集成,但也意味着其核心创新更多体现在系统集成与训练范式上,而非底层表示学习的突破。 🔗 开源详情 代码:论文中未提及代码开源计划或提供代码仓库链接。 模型权重:未提及是否公开预训练或微调后的UniSS模型权重。 数据集:论文明确贡献了UniST数据集(44.8k小时),并提供了项目主页链接(https://cmots.github.io/uniss-demo),其中可能包含数据获取或申请方式(论文未详细说明获取途径)。 Demo:提供了在线演示网站(https://cmots.github.io/uniss-demo/)。 复现材料:在附录B.1中提供了非常详细的训练配置(三阶段数据、超参数、硬件、优化器设置),并声称遵循可复现原则。引用了使用的开源框架(Megatron-LM)和基础模型(Qwen2.5)。 论文中引用的开源项目:Megatron-LM(训练框架),vLLM(推理部署),Transformers库(评估),webMUSHRA(主观评估)。 📌 核心摘要 要解决什么问题:现有语音到语音翻译(S2ST)系统存在架构复杂(级联或两阶段)、难以保留说话人音色/情感风格、以及未能充分利用大型语言模型(LLM)预训练翻译能力三大挑战。 方法核心是什么:提出UniSS,一个基于预训练LLM(Qwen2.5-1.5B)的单阶段统一S2ST框架。它采用三类离散语音token(说话人token、语言token、语义token)分别建模风格、内容和生成目标,并通过跨模态思维链(CoT)提示(Listen-Translate-Speak)将LLM的文本翻译能力迁移到语音领域。 与已有方法相比新在哪里:(1)架构更简单:采用单阶段自回归模型,无需级联或多模态转换器。(2)能力迁移更直接:通过设计的提示格式,显式激活并利用LLM内部的翻译知识,而非将其仅视为黑盒序列转换器。(3)性能更全面:在翻译质量、说话人相似度、情感保持和时长一致性上全面超越现有方法。 主要实验结果:在CVSS-T基准上,UniSS (Q) 的英文到中文和中文到英文的Speech-BLEU分别达到32.20和24.28,显著超过基线(如Seamless-Ex的24.45/15.84)。其说话人相似度MOS达4.42,情感相似度MOS达4.51,时长一致性(SLC 0.4)接近完美(0.99/0.97)。关键消融实验证明,去除跨模态CoT提示会导致翻译质量暴跌约15个BLEU点。 实际意义是什么:为构建下一代更简单、高效、高质量的语音翻译系统提供了新范式。其发布的UniST大规模数据集(44.8k小时)也极大缓解了该领域高质量平行数据稀缺的问题。 主要局限性是什么:(1)模型和方法目前仅验证了中英双向翻译。(2)核心语音tokenizer并非本文原创,词汇表扩展较大。(3)数据集依赖于合成语音,其上限受合成模型质量制约。 🏗️ 模型架构 UniSS是一个端到端的自回归语言模型,其整体架构可概括为“统一tokenization -> LLM自回归生成 -> detokenization合成”。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 338 words

YuE: Scaling Open Foundation Models for Long-Form Music Generation

📄 YuE: Scaling Open Foundation Models for Long-Form Music Generation #音乐生成 #预训练 #歌唱语音合成 #自回归模型 ✅ 7.5/10 | 前10% | #音乐生成 | #预训练 | #歌唱语音合成 #自回归模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Ruibin Yuan(香港科技大学,MAP) 通讯作者:未说明(论文列出了多位通讯作者,按字母排序:Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo) 作者列表:Ruibin Yuan(香港科技大学,MAP), Hanfeng Lin(香港科技大学,MAP), Shuyue Guo(MAP), Ge Zhang(MAP,密歇根大学), Jiahao Pan(香港科技大学,MAP), Yongyi Zang(独立), Haohe Liu(萨里大学,MAP), Yiming Liang(MAP), Wenye Ma(MBZUAI,MAP), Xingjian Du(罗切斯特大学,MAP), Xeron Du(MAP), Zhen Ye(香港科技大学), Tianyu Zheng(MAP), Zhengxuan Jiang(MAP), Yinghao Ma(MAP,伦敦玛丽女王大学), Minghao Liu(2077AI,MAP), Zeyue Tian(香港科技大学,MAP), Ziya Zhou(香港科技大学,MAP), Liumeng Xue(香港科技大学,MAP), Xingwei Qu(MAP), Yizhi Li(MAP,曼彻斯特大学), Shangda Wu(中央音乐学院,MAP), Tianhao Shen(MAP), Ziyang Ma(MAP,上海交通大学,南洋理工大学), Jun Zhan(复旦大学), Chunhui Wang(吉利汽车), Yatian Wang(香港科技大学), Xiaowei Chi(香港科技大学), Xinyue Zhang(香港科技大学), Zhenzhu Yang(香港科技大学), Xiangzhou Wang(MAP), Shansong Liu(美团), Lingrui Mei(美团), Peng Li(香港科技大学), Junjie Wang(清华大学), Jianwei Yu(月之暗面), Guojian Pang(MAP), Xu Li(小红书), Zihao Wang(浙江大学,卡内基梅隆大学), Xiaohuan Zhou(MAP), Lijun Yu(卡内基梅隆大学), Emmanouil Benetos(伦敦玛丽女王大学,MAP), Yong Chen(吉利汽车), Chenghua Lin(曼彻斯特大学,MAP), Xie Chen(上海交通大学), Gus Xia(MBZUAI,MAP), Zhaoxiang Zhang(中国科学院), Chao Zhang(清华大学), Wenhu Chen(滑铁卢大学,MAP), Xinyu Zhou(月之暗面), Xipeng Qiu(复旦大学), Roger Dannenberg(卡内基梅隆大学,MAP)。 (注:“MAP”指Multimodal Art Projection团队) 💡 毒舌点评 亮点:首个开源且能生成长达五分钟、歌词对齐的完整歌曲的基础模型系列,其双轨分离预测和结构化渐进条件等技术,为解决长时序、多信号音乐生成提供了坚实且可扩展的方案。短板:尽管在结构控制和音域广度上与商业模型持平甚至超越,但其主观音质评估(人声与伴奏质感)与Suno V4仍有清晰可见的差距,且论文中未提供其超大模型(7B)在完整训练集上所需的、惊人的计算资源细节。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 354 words