情感合成 | 语音/音乐/音频论文速递

📄 Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning #语音合成 #语音克隆 #流匹配 #情感合成 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #语音克隆 #情感合成学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文作者列表未按顺序注明第一作者）通讯作者：Chenyang Lyu（标注为）作者列表：Fengping Tian, Peng Bai, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Chenyang Lyu*, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang 机构列表：Alibaba International Digital Commerce（阿里巴巴国际数字商业） 💡 毒舌点评亮点：该工作最大的亮点在于将“说话人身份”与“情感表达”的解耦做到了一个相当精细和可控的程度，通过旋转嵌入、正交约束等系列“组合拳”，不仅理论动机清晰，实验效果（尤其是说话人相似度和情感表达分数）也远超基线，且贡献了宝贵的中文情感语音数据集。短板：其创新更多是模块化组合的“系统工程”优势，对每个单独模块（如对比学习、交叉注意力）的分析深度相对有限，且情感类别的准确率（最高0.75）仍有提升空间，表明对复杂情感的建模仍是难点。 ...