隐式对齐 | 语音/音乐/音频论文速递

📄 DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment #歌唱语音合成 #扩散模型 #数据增强 #隐式对齐 ✅ 7.0/10 | 前25% | #歌唱语音合成 | #扩散模型 | #数据增强 #隐式对齐学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Zongcai Du（咪咕音乐，中国移动通信集团公司）通讯作者：未说明作者列表：Zongcai Du（咪咕音乐，中国移动通信集团公司）、Guilin Deng（咪咕音乐，中国移动通信集团公司）、Xiaofeng Guo（咪咕音乐，中国移动通信集团公司）、Xin Gao（咪咕音乐，中国移动通信集团公司）、Linke Li（咪咕音乐，中国移动通信集团公司）、Kaichang Cheng（咪咕音乐，中国移动通信集团公司）、Fubo Han（咪咕音乐，中国移动通信集团公司）、Siyu Yang（咪咕音乐，中国移动通信集团公司）、Peng Liu（咪咕音乐，中国移动通信集团公司）、Pan Zhong（咪咕音乐，中国移动通信集团公司）、Qiang Fu（咪咕音乐，中国移动通信集团公司） 💡 毒舌点评亮点：论文提出了一套精巧的“PseudoSinger”数据构建流程，用“固定旋律+LLM生成歌词”的方式规模化生产高质量训练数据，从根源上缓解了SVS领域的数据饥渴问题。短板：作为核心模型的DiTSinger，其架构本质是DiT在音频领域的直给式应用，隐式对齐机制是主要的架构创新，但整体模型设计的“性感”程度和理论深度稍显不足，更像是一项扎实的工程优化而非范式突破。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文中构建了大规模数据集，但未提及是否公开或如何获取。 Demo：提供在线演示链接：https://nju-jet.github.io/DiTSinger/。复现材料：论文中给出了主要的训练设置（GPU型号、数量、优化器、学习率、batch size、训练步数、数据比例等），但模型具体配置（如各变体的确切层数、宽度表）和部分训练细节（如学习率调度、精确的推理步数）未完全公开。论文中引用的开源项目：DiffSinger、StyleSinger、TCSinger、M4Singer、HiFi-GAN、DPM-Solver。 📌 核心摘要这篇论文旨在解决歌唱语音合成（SVS）领域面临的训练数据稀缺和对齐标签依赖两大挑战。论文方法的核心包含两部分：1）提出一个两阶段的数据构建管道，通过固定旋律并利用大语言模型（LLM）生成多样歌词，先训练“PseudoSinger”模型，再用其合成大规模（500小时）数据，显著扩充了训练语料。2）设计了DiTSinger模型，一个基于扩散Transformer（DiT）的潜在扩散模型，并引入了一个隐式对齐机制，通过限制音素注意力范围来消除对显式音素时长标注的依赖。与已有方法相比，新在：a) 首次在SVS领域系统性地构建了用于模型训练的大规模合成数据管道；b) 将可扩展的DiT架构引入SVS，并验证了模型和数据的规模效应；c) 提出了一种不依赖显式时长标签的隐式对齐方法，提升了鲁棒性。主要实验结果显示，随着模型规模（从Small到Large）和训练数据量（从30h到530h）的增加，合成质量（以MCD衡量）持续提升（见图3）。最终的DiTSinger L2模型在MOS（4.02）上超过了DiffSinger（3.80）、StyleSinger（3.62）和TCSinger（3.89），同时在F0RMSE（11.18 Hz）等客观指标上也取得了最优结果（见表2）。该工作的实际意义在于提供了一条可扩展的、减少人工标注依赖的高质量歌唱数据合成与模型训练路径。其主要局限性在于：研究仅限于中文数据集，且模型忽略了如演唱技巧等更复杂的风格因素。 ...