Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning
📄 Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning #语音合成 #语音克隆 #流匹配 #情感合成 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #语音克隆 #情感合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未按顺序注明第一作者) 通讯作者:Chenyang Lyu(标注为) 作者列表:Fengping Tian, Peng Bai, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Chenyang Lyu*, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang 机构列表:Alibaba International Digital Commerce(阿里巴巴国际数字商业) 💡 毒舌点评 亮点:该工作最大的亮点在于将“说话人身份”与“情感表达”的解耦做到了一个相当精细和可控的程度,通过旋转嵌入、正交约束等系列“组合拳”,不仅理论动机清晰,实验效果(尤其是说话人相似度和情感表达分数)也远超基线,且贡献了宝贵的中文情感语音数据集。短板:其创新更多是模块化组合的“系统工程”优势,对每个单独模块(如对比学习、交叉注意力)的分析深度相对有限,且情感类别的准确率(最高0.75)仍有提升空间,表明对复杂情感的建模仍是难点。 ...