Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts
📄 Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts #语音合成 #多任务学习 #自回归模型 #生成模型 #对比学习 #多模态模型 #数据增强 🔥 8/10 | 前25% | #语音合成 | #多任务学习 | #自回归模型 #生成模型 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 第一作者:Yuyue Wang(中国人民大学) 通讯作者:Xihua Wang(中国人民大学) 机构:中国人民大学 💡 毒舌点评 一篇动机明确、架构清晰的工作,定义了‘自由文本到统一音频生成’这一有潜力的任务,并提出了一个不错的解决方案。然而,如同许多初次尝试定义新任务的工作,其‘统一’的光环在实验部分略显褪色。基线选择过于保守,仅与较早的VoiceLDM和流水线方法对比,对近期涌现的AudioBox、Fugatto等强力竞争对手视而不见,这让其‘优越性’的宣称打了折扣。实验部分更像是精心设计的‘能力展示’而非公平‘竞技场’,尤其是主观评估样本量仅50个,说服力有限。论文的‘未来工作’比‘当前工作’更有吸引力。整体是一篇扎实但不够大胆的论文,创新有余,验证不足。 📌 核心摘要 本文针对“自由文本提示生成统一音频”这一新任务,提出了PlanAudio框架。该任务旨在直接从自然语言提示合成包含语音、音效及其复合交互的统一音频流。PlanAudio是一个基于自回归LLM的统一模型,其核心创新是引入“语义潜在思维链”机制,在连续语义空间进行隐式规划,以桥接高语义理解与低层声学生成。模型采用单一Transformer骨干,直接处理文本,无需外部文本编码器或重写模块。作者还构建了专用的复合音频评估基准PlanAudio-Bench。实验表明,PlanAudio在复合场景下优于基线方法,并在单独音效和语音任务上保持竞争力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重的公开链接。 数据集:论文中提及基于以下公开数据集构建训练数据,并合成了新的基准数据集。具体获取方式如下: AudioSet: 论文用于合成复合音频数据,未提供数据集本身的直接链接。 AudioCaps: 论文用于声音生成评估,未提供链接。 WavCaps: 论文用于声音生成,未提供链接。 LibriTTS: 论文用于语音生成评估,未提供链接。 PlanAudio-Bench:论文中提出的新基准测试集,论文中未提及公开获取链接。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点等复现材料的公开链接。 论文中引用的开源项目: Qwen2.5-1.5B: 作为模型初始化的基础LLM。 链接: https://huggingface.co/Qwen/Qwen2.5-1.5B AudioCraft tokenizer: 用于将音频离散化为分层标记。 链接: https://github.com/facebookresearch/audiocraft AF3Encoder (Audio Flamingo 3 Encoder): 用于提取语义表示。 论文中未提供具体链接。 Whisper: 用于生成转录。 论文中未提供具体链接。 Gemini-2.5 Pro: 用于数据标注和文本改写。 论文中未将其列为开源项目。 🏗️ 方法概述和架构 PlanAudio是一个端到端的自回归LLM框架,旨在直接从自由形式文本提示生成包含语音和音效的统一音频波形。其核心架构(如图2所示)基于单一Transformer骨干(初始化自Qwen2.5-1.5B),将文本、潜在规划特征和离散音频token组织成一个统一序列进行处理。 ...