歌唱语音合成

SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation

📄 SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation #音乐生成 #扩散模型 #数据集 #歌唱语音合成 #可控生成 🔥 8.5/10 | 前25% | #音乐生成 | #扩散模型 | #数据集 #歌唱语音合成学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Sifei Li（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院）通讯作者：Weiming Dong（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院）作者列表： Sifei Li（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院） Yang Li（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院） Zizhou Wang（中国科学院自动化研究所） Yuxin Zhang（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院） Fuzhang Wu（中国科学院软件研究所ISRC） Oliver Deussen（康斯坦茨大学） Tong-Yee Lee（成功大学） Weiming Dong（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院） 💡 毒舌点评这篇论文精准地瞄准了“旋律保持”这一翻唱核心需求，并通过改进条件注入机制（IA-EiLM）和构建高质量数据集（Suno70k）给出了一个参数高效、效果显著的解决方案，理论与实验结合得相当扎实。不过，模型依然受限于底层基础模型（ACE-Step）对音色等细粒度控制的不足，且所用的AI生成数据集Suno70k在风格多样性、情感表达深度上可能与真实人类创作的音乐存在“域差距”，这或许会影响模型泛化到更复杂、更具表现力的真实翻唱场景。 🔗 开源详情代码：提供代码仓库链接：https://github.com/lsfhuihuiff/SongEcho_ICLR2026。 ��型权重：论文中提到“Code, dataset, and demos are available at…”，但未明确说明是否开源经过训练的完整SongEcho模型权重。基于常见实践，可能开源了新增的IA-EiLM模块和旋律编码器权重。数据集：Suno70k 数据集已公开，链接为 https://huggingface.co/datasets/nyuuzyou/suno。 Demo：提供在线演示页面：https://vvanonymousvv.github.io/SongEcho_updated/。复现材料：提供了详细的训练细节（第5.1节）、评估协议（第5.2节）、基线复现细节（附录C.1）和超参数设置，复现指导充分。论文中引用的开源项目：骨干模型：ACE-Step (Gong et al., 2025) 评估工具：mir_eval (Raffel et al., 2014), stable-audio-metrics, SongEval (Yao et al., 2025) 特征提取工具：RVMPE (Wei et al., 2023) 用于音高提取, Qwen2-audio (Chu et al., 2024) 用于标签生成, Whisper (Radford et al., 2023) + All-in-One (Kim & Nam, 2023) 用于歌词转录基线方法：ControlNet (Zhang et al., 2023a), LoRA (Hu et al., 2022), MuseControlLite (Tsai et al., 2025) 论文中未提及开源计划：未明确提及开源训练好的完整模型权重和大规模的预训练骨干（ACE-Step）权重（ACE-Step本身可能是开源的）。 📌 核心摘要要解决什么问题：在给定一段人声旋律和文本提示的条件下，生成同时包含新的人声演唱和和谐伴奏的完整歌曲（即翻唱歌曲），这要求模型在保持原旋律轮廓的同时进行风格重新诠释。方法核心是什么：提出SongEcho框架，核心是实例自适应元素级线性调制。它扩展了FiLM为元素级线性调制，以实现对隐藏状态在时序上的精确对齐调制；同时引入实例自适应条件精炼模块，使旋律条件能根据生成模型当前的隐藏状态进行动态调整，而非静态注入。与已有方法相比新在哪里：相比于使用交叉注意力（如MuseControlLite）或元素级相加（如ControlNet）的方法，EiLM提供了更灵活、时序对齐更直接的调制能力。IACR解决了传统条件编码与生成模型内部状态不兼容的问题，使条件融合更和谐。此外，论文开源了一个高质量的、带有丰富标注的AI歌曲数据集Suno70k。主要实验结果如何：在Suno70k测试集上，SongEcho的RPA（0.708）、RCA（0.734）和CLAP（0.324）等指标均显著优于基线方法，FD（42.06）和KL（0.112）等音质指标也远优于其他方法，且可训练参数量（49.1M）仅为ACE-Step+ControlNet（1.6B）的3.07%。主观听测（MOS）在旋律保真度、文本一致性、音频质量和整体偏好上均获最高分。实际意义是什么：推动了可控、高质量歌曲生成技术的发展，为音乐创作提供了新的AI辅助工具。所构建的开源数据集有助于解决歌曲AI研究中的数据稀缺和版权问题。主要局限性是什么：（1）音色控制能力有限，仅支持基于性别调整，无法进行更细粒度的音色模仿或合成。（2）生成的翻唱是全局风格迁移，未模拟人类音乐家在翻唱时可能进行的局部创造性改编（如颤音、滑音、音符时值变化）。（3）训练依赖于AI生成的音乐数据集，可能存在与真实人类音乐在情感、表达力上的差异。 🏗️ 模型架构 SongEcho整体架构基于一个预训练的文本到歌曲模型（ACE-Step），它是一个线性扩散Transformer（DiT）。核心是在每个Transformer块中插入一个IA-EiLM模块，该模块位于自注意力层之后、前馈网络层之前，用于注入旋律控制信号。 ...

YuE: Scaling Open Foundation Models for Long-Form Music Generation

📄 YuE: Scaling Open Foundation Models for Long-Form Music Generation #音乐生成 #自回归模型 #歌唱语音合成 #多模态模型 #音频大模型 ✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #歌唱语音合成 #多模态模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.9 | 置信度高 👥 作者与机构第一作者：未说明（论文列出了大量作者，但未明确区分第一作者）通讯作者：未说明（论文提供了多位联系人邮箱，但未明确指定通讯作者）作者列表：Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xeron Du, Zhen Ye, Tianyu Zheng, Zhengxuan Jiang, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi LI, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, XiangzhouWang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo（主要隶属机构为：Multimodal Art Projection (MAP), 香港科技大学 (HKUST)；部分作者同时隶属Moonshot.ai, 上海交通大学 (SJTU), 清华大学, CMU, Queen Mary University of London等）。 💡 毒舌点评亮点：作为首个在质量上能与Suno、Udio等商业巨头掰手腕的开源歌词到歌曲生成模型，YuE的诞生本身就是对音乐AI民主化的巨大贡献，其系统性技术方案（双轨预测、结构化条件、音乐ICL重设计）为后续研究提供了清晰的蓝图。短板：尽管在“音乐性”和“人声敏捷度”上表现亮眼，但在音质保真度（VocalQual, AccompQual）上与顶级闭源系统仍有可感知的差距，这指向了其语义-声学融合编解码器的根本性局限；此外，对于训练数据版权合规性的说明仍显笼统，这在生成式AI伦理日益受关注的当下是一个隐患。 ...

YuE: Scaling Open Foundation Models for Long-Form Music Generation

📄 YuE: Scaling Open Foundation Models for Long-Form Music Generation #音乐生成 #预训练 #歌唱语音合成 #自回归模型 ✅ 7.5/10 | 前10% | #音乐生成 | #预训练 | #歌唱语音合成 #自回归模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Ruibin Yuan（香港科技大学，MAP）通讯作者：未说明（论文列出了多位通讯作者，按字母排序：Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo）作者列表：Ruibin Yuan（香港科技大学，MAP）， Hanfeng Lin（香港科技大学，MAP）， Shuyue Guo（MAP）， Ge Zhang（MAP，密歇根大学）， Jiahao Pan（香港科技大学，MAP）， Yongyi Zang（独立）， Haohe Liu（萨里大学，MAP）， Yiming Liang（MAP）， Wenye Ma（MBZUAI，MAP）， Xingjian Du（罗切斯特大学，MAP）， Xeron Du（MAP）， Zhen Ye（香港科技大学）， Tianyu Zheng（MAP）， Zhengxuan Jiang（MAP）， Yinghao Ma（MAP，伦敦玛丽女王大学）， Minghao Liu（2077AI，MAP）， Zeyue Tian（香港科技大学，MAP）， Ziya Zhou（香港科技大学，MAP）， Liumeng Xue（香港科技大学，MAP）， Xingwei Qu（MAP）， Yizhi Li（MAP，曼彻斯特大学）， Shangda Wu（中央音乐学院，MAP）， Tianhao Shen（MAP）， Ziyang Ma（MAP，上海交通大学，南洋理工大学）， Jun Zhan（复旦大学）， Chunhui Wang（吉利汽车）， Yatian Wang（香港科技大学）， Xiaowei Chi（香港科技大学）， Xinyue Zhang（香港科技大学）， Zhenzhu Yang（香港科技大学）， Xiangzhou Wang（MAP）， Shansong Liu（美团）， Lingrui Mei（美团）， Peng Li（香港科技大学）， Junjie Wang（清华大学）， Jianwei Yu（月之暗面）， Guojian Pang（MAP）， Xu Li（小红书）， Zihao Wang（浙江大学，卡内基梅隆大学）， Xiaohuan Zhou（MAP）， Lijun Yu（卡内基梅隆大学）， Emmanouil Benetos（伦敦玛丽女王大学，MAP）， Yong Chen（吉利汽车）， Chenghua Lin（曼彻斯特大学，MAP）， Xie Chen（上海交通大学）， Gus Xia（MBZUAI，MAP）， Zhaoxiang Zhang（中国科学院）， Chao Zhang（清华大学）， Wenhu Chen（滑铁卢大学，MAP）， Xinyu Zhou（月之暗面）， Xipeng Qiu（复旦大学）， Roger Dannenberg（卡内基梅隆大学，MAP）。（注：“MAP”指Multimodal Art Projection团队） 💡 毒舌点评亮点：首个开源且能生成长达五分钟、歌词对齐的完整歌曲的基础模型系列，其双轨分离预测和结构化渐进条件等技术，为解决长时序、多信号音乐生成提供了坚实且可扩展的方案。短板：尽管在结构控制和音域广度上与商业模型持平甚至超越，但其主观音质评估（人声与伴奏质感）与Suno V4仍有清晰可见的差距，且论文中未提供其超大模型（7B）在完整训练集上所需的、惊人的计算资源细节。 ...

AnyAccomp: Generalizable Accompaniment Generation Via Quantized Melodic Bottleneck

📄 AnyAccomp: Generalizable Accompaniment Generation Via Quantized Melodic Bottleneck #音乐生成 #流匹配 #量化 #歌唱语音合成 #鲁棒性 🔥 8.0/10 | 前25% | #音乐生成 | #流匹配 #量化 | #流匹配 #量化学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Junan Zhang（香港中文大学深圳分校），Yunjia Zhang（香港中文大学深圳分校），两人贡献相等（Equal Contribution）。通讯作者：Zhizheng Wu（香港中文大学深圳分校；澳门城市大学；深圳湾区实验室；Amphion Technology Co., Ltd.）作者列表： Junan Zhang（香港中文大学深圳分校） Yunjia Zhang（香港中文大学深圳分校） Xueyao Zhang（香港中文大学深圳分校） Zhizheng Wu（香港中文大学深圳分校；澳门城市大学；深圳湾区实验室；Amphion Technology Co., Ltd.） 💡 毒舌点评亮点：该工作精准地抓住了歌唱伴奏生成模型“过拟合于分离伪影”这一关键痛点，并设计了“量化音高瓶颈”这一优雅的解决方案，通过剥离音色和瑕疵信息，显著提升了模型在干净人声和纯乐器上的泛化能力，思路清晰且效果立竿见影。短板：目前的评估主要依赖于AI美学评分（audiobox-aesthetics）和FAD等指标，虽然全面，但对于“伴奏质量”和“音乐性”的衡量，可能仍需更贴近人类感知的细粒度评测；此外，瓶颈表示选择固定的音高特征图，对于非主调音乐或复杂编曲的泛化能力尚待验证。 🔗 开源详情代码：提供，链接为 https://anyaccomp.github.io/。模型权重：论文中未明确提及是否公开预训练模型权重，仅在“Demo audio and code”部分提及。数据集：论文中使用的训练数据（基于SingNet流程）未公开，但引用了公开的MUSDB18和MoisesDB作为评估数据集。 Demo：提供在线演示网站：https://anyaccomp.github.io/。复现材料：提供了详细的模型架构参数、训练配置、损失函数设计等，复现材料较充分。引用的开源项目：Amphion, Vevo, MERT, pretty-midi, 以及数据集M4Singer, SingNet, YuE, MUSDB18, MoisesDB。 📌 核心摘要问题：现有的歌唱伴奏生成（SAG）模型在训练时使用了带有分离伪影的歌声，导致模型过拟合这些伪影，当输入为干净、真实的歌声时性能严重下降，存在严重的“训练-测试不匹配”问题。方法核心：提出ANYACCOMP框架，分为两阶段。第一阶段使用VQ-VAE将输入的音高特征图（Chromagram）量化为离散的、音色不变的旋律码本表示。第二阶段使用基于Flow Matching的Transformer，以这些离散码本为条件，生成伴奏的梅尔频谱，最后用声码器合成音频。创新点：与已有方法直接使用梅尔频谱或SSL特征不同，ANYACCOMP通过量化的音高瓶颈，主动解耦了旋律内容与源相关的音色及分离伪影，从而提供了鲁棒的生成条件。实验结果：在领域内数据集（YuE，分离歌声）上，ANYACCOMP表现与基线（FastSAG， FM-Mel）持平或略优（见Table 1）。在关键的泛化测试集上（MUSDB18干净歌声、MoisesDB乐器独奏），基线方法的APA（条件一致性）得分接近0，表明生成失败；而ANYACCOMP的APA分别达到0.710和0.203，且FAD和美学分数也远优于基线，证明了其强大的泛化能力。实际意义：该工作使得伴奏生成模型能够泛化到干净录音甚至纯乐器输入，首次实现了为纯乐器音轨自动生成伴奏，拓宽了AI音乐协作工具的应用范围。主要局限：瓶颈表示完全基于音高特征，可能对打击乐或非调性音乐效果有限；部分评估指标（如PC，内容复杂度）的解读需注意；未公开训练数据集本身。 🏗️ 模型架构 ANYACCOMP是一个两阶段的条件生成框架，整体架构如图1所示。 ...

DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment

📄 DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment #歌唱语音合成 #扩散模型 #数据增强 #隐式对齐 ✅ 7.0/10 | 前25% | #歌唱语音合成 | #扩散模型 | #数据增强 #隐式对齐学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Zongcai Du（咪咕音乐，中国移动通信集团公司）通讯作者：未说明作者列表：Zongcai Du（咪咕音乐，中国移动通信集团公司）、Guilin Deng（咪咕音乐，中国移动通信集团公司）、Xiaofeng Guo（咪咕音乐，中国移动通信集团公司）、Xin Gao（咪咕音乐，中国移动通信集团公司）、Linke Li（咪咕音乐，中国移动通信集团公司）、Kaichang Cheng（咪咕音乐，中国移动通信集团公司）、Fubo Han（咪咕音乐，中国移动通信集团公司）、Siyu Yang（咪咕音乐，中国移动通信集团公司）、Peng Liu（咪咕音乐，中国移动通信集团公司）、Pan Zhong（咪咕音乐，中国移动通信集团公司）、Qiang Fu（咪咕音乐，中国移动通信集团公司） 💡 毒舌点评亮点：论文提出了一套精巧的“PseudoSinger”数据构建流程，用“固定旋律+LLM生成歌词”的方式规模化生产高质量训练数据，从根源上缓解了SVS领域的数据饥渴问题。短板：作为核心模型的DiTSinger，其架构本质是DiT在音频领域的直给式应用，隐式对齐机制是主要的架构创新，但整体模型设计的“性感”程度和理论深度稍显不足，更像是一项扎实的工程优化而非范式突破。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文中构建了大规模数据集，但未提及是否公开或如何获取。 Demo：提供在线演示链接：https://nju-jet.github.io/DiTSinger/。复现材料：论文中给出了主要的训练设置（GPU型号、数量、优化器、学习率、batch size、训练步数、数据比例等），但模型具体配置（如各变体的确切层数、宽度表）和部分训练细节（如学习率调度、精确的推理步数）未完全公开。论文中引用的开源项目：DiffSinger、StyleSinger、TCSinger、M4Singer、HiFi-GAN、DPM-Solver。 📌 核心摘要这篇论文旨在解决歌唱语音合成（SVS）领域面临的训练数据稀缺和对齐标签依赖两大挑战。论文方法的核心包含两部分：1）提出一个两阶段的数据构建管道，通过固定旋律并利用大语言模型（LLM）生成多样歌词，先训练“PseudoSinger”模型，再用其合成大规模（500小时）数据，显著扩充了训练语料。2）设计了DiTSinger模型，一个基于扩散Transformer（DiT）的潜在扩散模型，并引入了一个隐式对齐机制，通过限制音素注意力范围来消除对显式音素时长标注的依赖。与已有方法相比，新在：a) 首次在SVS领域系统性地构建了用于模型训练的大规模合成数据管道；b) 将可扩展的DiT架构引入SVS，并验证了模型和数据的规模效应；c) 提出了一种不依赖显式时长标签的隐式对齐方法，提升了鲁棒性。主要实验结果显示，随着模型规模（从Small到Large）和训练数据量（从30h到530h）的增加，合成质量（以MCD衡量）持续提升（见图3）。最终的DiTSinger L2模型在MOS（4.02）上超过了DiffSinger（3.80）、StyleSinger（3.62）和TCSinger（3.89），同时在F0RMSE（11.18 Hz）等客观指标上也取得了最优结果（见表2）。该工作的实际意义在于提供了一条可扩展的、减少人工标注依赖的高质量歌唱数据合成与模型训练路径。其主要局限性在于：研究仅限于中文数据集，且模型忽略了如演唱技巧等更复杂的风格因素。 ...

ICASSP 2026 - 歌唱语音合成论文列表

ICASSP 2026 - 歌唱语音合成共 5 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 SingMOS-Pro: An Comprehensive Benchmark For Singing Quality 7.5分前25% 🥈 StylePitcher: Generating Style-Following and Expressive Pitc 7.5分前25% 🥉 DiTSinger: Scaling Singing Voice Synthesis with Diffusion Tr 7.0分前25% 4. Learning Vocal-Tract Area And Radiation With A Physics-Infor 7.0分前50% 5. PerformSinger: Multimodal Singing Voice Synthesis Leveraging 4.5分后50% 📋 论文详情 🥇 SingMOS-Pro: An Comprehensive Benchmark For Singing Quality Assessment ✅ 7.5/10 | 前25% | #歌唱语音合成 | #基准测试 | #数据集 #模型评估 ...

Learning Vocal-Tract Area And Radiation With A Physics-Informed Webster Model

📄 Learning Vocal-Tract Area And Radiation With A Physics-Informed Webster Model #歌唱语音合成 #物理信息神经网络 #信号处理 #语音合成 ✅ 7.0/10 | 前50% | #歌唱语音合成 | #信号处理 | #物理信息神经网络 #语音合成学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Minhui Lu（Queen Mary University of London, Centre for Digital Music）通讯作者：未说明（论文中未明确标注通讯作者，但根据常见惯例，第一作者或最后作者可能是。此处严格按论文内容判断，未明确提及。）作者列表：Minhui Lu（Queen Mary University of London, Centre for Digital Music）、Joshua D. Reiss（Queen Mary University of London, Centre for Digital Music） 💡 毒舌点评亮点：论文将经典的Webster声学方程与物理信息神经网络（PINN）结合，不仅学习了声道面积函数，还创新性地引入了可学习的端口辐射边界条件，为语音合成提供了高度可解释的物理控制参数。短板：然而，整个实验建立在合成的、高度理想化的稳态元音数据上，缺乏对真实歌唱语音的验证；其宣称的“物理可解释性”参数（如辐射系数ζ）在实际复杂声源和噪声环境下的鲁棒性与可区分性存疑。 ...

Melos: Sentence-To-Section Training with Multi-Task Learning for LLM-Driven Song Generation

📄 Melos: Sentence-To-Section Training with Multi-Task Learning for LLM-Driven Song Generation #音乐生成 #多任务学习 #自回归模型 #歌唱语音合成 ✅ 6.5/10 | 前50% | #音乐生成 | #多任务学习 | #自回归模型 #歌唱语音合成学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Dapeng Wu（清华大学深圳国际研究生院）通讯作者：Zhiyong Wu（清华大学深圳国际研究生院）作者列表：Dapeng Wu†（清华大学深圳国际研究生院），Jinhong Lu†（Wonderai, Beijing, China），Bin Su（Wonderai, Beijing, China），Shun Lei（清华大学深圳国际研究生院），Xiong Cai（Wonderai, Beijing, China），Zhiyong Wu*（清华大学深圳国际研究生院） †：共同第一作者；*：通讯作者。 💡 毒舌点评亮点：论文提出的“句子到段落”两阶段训练策略非常务实，有效缓解了长序列建模和数据稀缺问题，让一个0.5B的模型在0.5M数据上就能生成结构相对完整的歌曲，证明了该分治思路的有效性。短板：在音乐性（MUS）、记忆性（MEM）等主观评价维度上明显落后于Suno、Mureka等工业系统，且未开源代码和模型，其“高质量”结论难以被社区直接复现和验证，削弱了论文的说服力和实用价值。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：训练数据集为专有数据集，未提及公开。 Demo：提供了音频样本演示页面（https://thuhcsi.github.io/Melos/）。复现材料：论文给出了部分训练细节（如优化器、学习率、batch size、硬件），但缺乏完整的代码、配置、数据预处理脚本和模型检查点，复现难度大。论文中引用的开源项目： MuCodec：音频编解码器（引用[12]）。 CAM++：说话人编码器（引用[13]）。 Qwen2：作为骨干LLM（引用[14]）。 WavLM：用于评估SECS指标（引用[16]）。 FireRedASR：用于评估PER指标（引用[17]）。 CLAP：用于评估文本-音频对齐（引用[18]）。 Audiobox Aesthetics & SongEval：用于美学评估（引用[19], [20]）。 All-in-One：用于歌曲段落切分（脚注1）。总体开源情况：论文中未提及开源计划。 📌 核心摘要问题：当前基于大语言模型（LLM）的端到端歌曲生成面临长音频序列建模难、训练数据有限以及歌词与歌声对齐挑战等问题。方法核心：提出Melos框架，采用两阶段训练策略：首先在句子级别训练模型掌握基本的演唱能力；然后在段落（如主歌、副歌）级别训练以增强整体音乐性。同时，引入多任务学习，将歌词和声带（人声）信息作为辅助训练目标（放在序列末尾），以增强音色可控性和歌词准确性，且不增加推理开销。与已有方法相比新在哪里：不同于直接在段落级别训练（如YuE），本文的渐进式学习范式使模型先易后难。不同于生成思维链（CoT）会增加推理成本，本文将辅助信息作为后置的监督信号，实现了“训练时多任务，推理时单目标”。主要实验结果：在0.5M歌曲（约3万小时）上训练。在客观评估中，模型在音色相似性（SECS）和文本控制（CLAP）上表现优异（SECS 0.584, CLAP 0.270），但在FAD和PER上不及最佳基线。主观评估（MOS）显示，其整体质量（OQ 3.54）和歌词准确性（LA 4.21）与LeVo、Mureka等系统相当。消融实验证实了两阶段训练和辅助任务的有效性。实际意义：为资源受限场景下的高质量歌曲生成提供了一种高效、可扩展的训练范式，证明了通过精细的训练策略可以在小数据集上获得有竞争力的生成效果。主要局限性：1）未开源，限制了其影响力和可复现性；2）在音乐性、制作复杂度等核心主观指标上仍与领先的工业系统有差距；3）性能高度依赖音乐分离和说话人编码器的质量。 🏗️ 模型架构 Melos采用基于LLM的自回归生成范式，整体架构如图1所示。 ...

PerformSinger: Multimodal Singing Voice Synthesis Leveraging Synchronized Lip Cues from Singing Performance Videos

📄 PerformSinger: Multimodal Singing Voice Synthesis Leveraging Synchronized Lip Cues from Singing Performance Videos #歌唱语音合成 #多模态模型 #音视频 📝 4.5/10 | 后50% | #歌唱语音合成 | #多模态模型 | #音视频学术质量 3.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度低 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：未说明 💡 毒舌点评用唱歌视频的唇部动态来指导歌唱合成，这个多模态想法确实新颖，理论上能提升口型同步和表现力。但问题在于，仅凭标题我们对方法实现一无所知，更不知道实验效果是否真的‘Perform’了，这种‘黑箱’分析风险很高。 🔗 开源详情代码：论文中未提及代码链接模型权重：未提及数据集：未提及 Demo：未提及复现材料：论文中未提及论文中引用的开源项目：未说明 📌 核心摘要这篇论文旨在解决传统歌唱语音合成（SVS）方法大多依赖音频或文本输入，缺乏对真实演唱中视觉动态（如唇部动作）的利用，可能导致合成结果在口型同步和表现力上存在不足的问题。其方法核心是提出一个多模态框架，直接从歌手表演视频中提取并利用同步的唇部线索（Lip Cues）作为条件来引导歌唱语音的生成。与已有方法相比，其新意在于将视觉模态（特别是唇部动态）作为一种强条件信号引入SVS任务，而不仅仅依赖于音频特征或乐谱。论文中未提供具体的实验结果数值和对比数据。该研究的实际意义在于可能为虚拟歌手、数字人演唱、歌曲创作等应用场景提供更自然、更具表现力的合成技术。由于提供的文本信息极其有限，论文的主要局限性完全未知，包括方法细节、实验设计、性能表现、数据规模及通用性等均未说明。 🏗️ 模型架构论文中未提供具体架构描述。基于标题推断，模型可能包含以下组件：一个视觉编码器（用于从输入视频中提取唇部区域特征）、一个音频/声学编码器（用于处理参考歌声或目标音高/时长）、以及一个跨模态融合与解码模块（用于综合视觉唇部线索和其他条件生成最终的歌唱语音波形或梅尔频谱）。组件之间的数据流可能为：视频帧 -> 视觉特征；乐谱/文本/参考音频 -> 音声特征 -> 与视觉特征融合 -> 解码器 -> 合成语音。关键设计选择在于如何有效、同步地融合视觉与声学信息。由于未看到论文中的架构图，无法进行图片说明。 ...

Sing2Song: An Accompaniment Generation System Based on Solo Singing

📄 Sing2Song: An Accompaniment Generation System Based on Solo Singing #音乐生成 #音乐信息检索 #歌唱语音合成 #规则与模板 ✅ 7.5/10 | 前25% | #音乐生成 | #规则与模板 | #音乐信息检索 #歌唱语音合成学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Sen Ho Choi（华为中央媒体技术研究院）通讯作者：Yaolong Ju（大湾区大学）作者列表：Sen Ho Choi, Isaac Fung Chap, Huicheng Zhang, Yulun Wu, Yueqiao Zhang（华为中央媒体技术研究院），Hao Shen, Huu Quyen Dang, Zhili Tan, Simon Lui（华为中央媒体技术研究院），Qiuqiang Kong（香港中文大学），Yaolong Ju（大湾区大学） 💡 毒舌点评亮点：这是一个非常扎实的工程化系统，针对“清唱生成伴奏”这一具体场景，将数据驱动的MIR模型与基于规则的音乐生成、音频合成紧密结合，在解决“长音频”和“可定制化”这两个实际痛点上表现出色，效果显著优于端到端基线。短板：核心的伴奏生成模块严重依赖规则和预设模板库（MIDI片段），在音乐创作的灵活性和创新性上存在天花板，更像是一个“智能乐手跟随”系统，而非具备真正创造力的“作曲AI”。其创新更多体现在系统集成和工程优化，而非音乐生成算法本身的突破。 ...