Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts

📄 Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts #语音合成 #多任务学习 #自回归模型 #生成模型 #对比学习 #多模态模型 #数据增强 🔥 8/10 | 前25% | #语音合成 | #多任务学习 | #自回归模型 #生成模型 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 第一作者:Yuyue Wang(中国人民大学) 通讯作者:Xihua Wang(中国人民大学) 机构:中国人民大学 💡 毒舌点评 一篇动机明确、架构清晰的工作,定义了‘自由文本到统一音频生成’这一有潜力的任务,并提出了一个不错的解决方案。然而,如同许多初次尝试定义新任务的工作,其‘统一’的光环在实验部分略显褪色。基线选择过于保守,仅与较早的VoiceLDM和流水线方法对比,对近期涌现的AudioBox、Fugatto等强力竞争对手视而不见,这让其‘优越性’的宣称打了折扣。实验部分更像是精心设计的‘能力展示’而非公平‘竞技场’,尤其是主观评估样本量仅50个,说服力有限。论文的‘未来工作’比‘当前工作’更有吸引力。整体是一篇扎实但不够大胆的论文,创新有余,验证不足。 📌 核心摘要 本文针对“自由文本提示生成统一音频”这一新任务,提出了PlanAudio框架。该任务旨在直接从自然语言提示合成包含语音、音效及其复合交互的统一音频流。PlanAudio是一个基于自回归LLM的统一模型,其核心创新是引入“语义潜在思维链”机制,在连续语义空间进行隐式规划,以桥接高语义理解与低层声学生成。模型采用单一Transformer骨干,直接处理文本,无需外部文本编码器或重写模块。作者还构建了专用的复合音频评估基准PlanAudio-Bench。实验表明,PlanAudio在复合场景下优于基线方法,并在单独音效和语音任务上保持竞争力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重的公开链接。 数据集:论文中提及基于以下公开数据集构建训练数据,并合成了新的基准数据集。具体获取方式如下: AudioSet: 论文用于合成复合音频数据,未提供数据集本身的直接链接。 AudioCaps: 论文用于声音生成评估,未提供链接。 WavCaps: 论文用于声音生成,未提供链接。 LibriTTS: 论文用于语音生成评估,未提供链接。 PlanAudio-Bench:论文中提出的新基准测试集,论文中未提及公开获取链接。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点等复现材料的公开链接。 论文中引用的开源项目: Qwen2.5-1.5B: 作为模型初始化的基础LLM。 链接: https://huggingface.co/Qwen/Qwen2.5-1.5B AudioCraft tokenizer: 用于将音频离散化为分层标记。 链接: https://github.com/facebookresearch/audiocraft AF3Encoder (Audio Flamingo 3 Encoder): 用于提取语义表示。 论文中未提供具体链接。 Whisper: 用于生成转录。 论文中未提供具体链接。 Gemini-2.5 Pro: 用于数据标注和文本改写。 论文中未将其列为开源项目。 🏗️ 方法概述和架构 PlanAudio是一个端到端的自回归LLM框架,旨在直接从自由形式文本提示生成包含语音和音效的统一音频波形。其核心架构(如图2所示)基于单一Transformer骨干(初始化自Qwen2.5-1.5B),将文本、潜在规划特征和离散音频token组织成一个统一序列进行处理。 ...

2026-05-28 · 更新于 2026-06-12 · 3 min · 506 words

CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS

📄 CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS #语音编辑 #强化学习 #多模态模型 #自回归模型 #语音识别 #数据增强 ✅ 7.2/10 | 前25% | #语音编辑 | #强化学习 | #多模态模型 #自回归模型 | arxiv 学术质量 7.2/7 | 影响力 7.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Junyang Chen (陈俊阳), Yuhang Jia (贾宇航), Hui Wang (王辉), Jiaming Zhou (周佳明), Yongchang Gan (甘永昌), Yong Qin (覃勇)。 机构:南开大学计算机科学学院(1),南开大学人工智能学院(2)。通讯作者:chenjunyang@mail.nankai.edu.cn, qinyong@nankai.edu.cn。第一作者与通讯作者标注。 💡 毒舌点评 摘要写得像广告文案,充满了“substantially”、“deeper”、“unlocks”这类形容词。方法部分看似复杂,但核心就是给GRPO换了一套更适合编辑任务的奖励函数。实验结果在多个benchmark上看起来都不错,但仔细一想,和SOTA的差距有时只有零点几个百分点,而且很多baseline其实并不强。最有趣的是,这篇论文发现一个编辑模型居然能提升其基础TTS模型的性能,这到底是编辑任务的特殊性,还是仅仅因为用更多数据(虽然是构造的)和RL微调了一遍LLM?此外,声称“首个编辑导向的奖励组合”需要打上问号,因为相关工作ECPA已经用了GRPO,奖励设计思路有重叠。代码、模型权重均未开源,复现门槛极高。 📌 核心摘要 本文提出了CosyEdit2,一个基于两阶段后训练框架的语音编辑模型。第一阶段使用监督微调(SFT)在配对编辑数据上初始化模型能力。第二阶段引入编辑导向的组相对策略优化(GRPO),核心创新在于使用无需目标语音的构造数据(将任意TTS语料转换为编辑提示)和针对编辑任务设计的多奖励信号(内容正确性、声学保持、说话人一致性)对语言模型进行强化学习。实验表明,该模型在语音编辑任务上达到了与强基线可比或更优的性能,尤其在声学一致性方面表现突出,并且其获得的强化学习优化能力能够意外地提升基础模型的零样本TTS性能,揭示了两个任务间的相互促进关系。 🔗 开源详情 代码:论文未提供CosyEdit2的代码仓库链接。演示页面 https://cjy1018.github.io/CosyEdit2 主要用于展示音频样本,未提及包含代码。 模型权重: CosyEdit2模型:论文中未提供CosyEdit2(包括各阶段微调后的LLM、Flow、BigVGAN)的权重下载链接。 CosyVoice2模型:作为基础模型,其链接为 https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B。 数据集: GigaEdit-S:阶段一训练数据,源自GigaSpeech-S,未提供独立下载链接。 LibriTTS / LibriTTS-R / YODAS2:用于训练BigVGAN的混合数据集。论文引用了LibriTTS,但提供的Hugging Face链接 https://huggingface.co/datasets/keithito/lj_speech 实际是LJ Speech,并非LibriTTS,此处表述有误。YODAS2和Ming-Freeform-Audio-Edit等评估集均未提供链接。 VoiceBank-DEMAND-16k:用于声码器重建实验,链接为 https://huggingface.co/datasets/JacobLinCool/VoiceBank-DEMAND-16k。 SEED-TTS-EVAL:评估基准,链接为 https://github.com/bytedance/Seed-TTS-Eval。 Demo:提供了音频样本演示页面 https://cjy1018.github.io/CosyEdit2。 复现材料: 训练细节与模型配置:附录B-D详细描述了架构、超参数和训练流程,是复现的关键信息。 评估脚本与指标:提及使用了评估脚本和指标(WER, SS, DNSMOS, MCD),但未提供具体评估代码。 论文中引用的开源项目:包括CosyVoice2、Qwen2.5、WhisperX、BigVGAN(提供链接 https://huggingface.co/nvidia/bigvgan_v2_22khz_80band_256x)、nlpaug、RoBERTa、pymcd等。 🏗️ 方法概述和架构 CosyEdit2构建于CosyVoice2的语音-语言建模骨干之上,将其零样本提示式接口重构为语音编辑任务。其架构包含五个核心模块:文本分词器、语音分词器、自回归文本-语音语言模型(LLM)、条件流匹配模型(Flow)和BigVGAN声码器。 ...

2026-05-27 · 更新于 2026-06-12 · 2 min · 425 words

DuoGesture: Neuro-Inspired and Biomechanically Informed Dual-Stream Co-Speech Gesture Generation

📄 DuoGesture: Neuro-Inspired and Biomechanically Informed Dual-Stream Co-Speech Gesture Generation #多模态模型 #变分自编码器 #正则化微调 #自回归模型 ✅ 7.5/10 | 前25% | #语音合成 | #变分自编码器 | #多模态模型 #正则化微调 | arxiv 学术质量 5.1/7 | 影响力 1.2/2 | 可复现性 1.2/2 | 置信度 高 👥 作者与机构 Ferdinand Paar,Max Planck Institute for Psycholinguistics,Radboud University,Nijmegen;Lanmiao Liu,Utrecht University,Max Planck Institute for Psycholinguistics;Aslı Özyürek,Radboud University,Nijmegen,Max Planck Institute for Psycholinguistics;Serge Thill,Radboud University,Nijmegen,Donders Institute;Esam Ghaleb,Max Planck Institute for Psycholinguistics。 💡 毒舌点评 一篇将认知神经科学与生物力学启发的模型应用于协同语音手势生成的扎实工作,提出了一个有趣且合理的双流分解框架。其核心创新在于将手势显式地分解为语义流和节拍流,并为每个流设计了专门的条件化和正则化机制。然而,其贡献主要集中在视觉动画生成领域,对“语音”本身的处理深度有限,本质上是将语音作为条件信号。实验结果在特定指标(FGD)上声称取得最佳,但在其他指标上表现平平,且作者也坦诚了泛化性验证的缺失。代码与权重的未开源,以及对预训练文本到运动(Text-To-Motion)模型的强依赖,严重限制了其可复现性和对社区的直接贡献。总体而言,是一篇不错的视觉/多模态论文,但对纯语音处理领域的读者来说,影响力有限。 📌 核心摘要 DuoGesture 提出了一种受神经科学启发并结合生物力学信息的双流模型,用于协同语音手势生成。该模型将生成过程分解为语义流(负责基于词汇内容的手势)和节拍流(负责与语音韵律对齐的节奏性手势)。语义流通过运动语义条件化(MGSC)进行调节,该模块利用预训练的 Text-To-Motion 模型表示,将语义线索与运动动力学对齐,以改善长尾词汇手势触发的语义表达。节拍流则通过惯性节拍先验(IBP)进行正则化,该先验基于人体测量学数据对关节链速度一致性进行约束,旨在减少抖动并提高节奏连贯性。两个流由语义变分信息瓶颈(S-VIB)协调,这是一个帧级随机门控机制,学习何时激活语义流,并避免门控坍缩为单一路径。在 BEAT2 数据集上的实验表明,DuoGesture 在 Fréchet Gesture Distance (FGD) 这一主要分布度量上取得了最佳结果,同时在节拍对齐(BA)、多样性等辅助指标上保持了竞争力。消融研究证实了三个模块的互补作用。 ...

2026-05-27 · 更新于 2026-06-12 · 4 min · 708 words

PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis

📄 PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis #语音合成 #语音生成 #自回归模型 #生成对抗网络 #数据增强 #低资源 #多任务学习 #语音克隆 🔥 9.2/10 | 前25% | #语音合成 | #生成对抗网络 | #语音生成 #自回归模型 | arxiv 学术质量 5.7/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 作者:Bowen Li, Shaotong Guo, Zhen Wang, Yang Xiang, Mingli Jin, Yihang Lin, Jiahui Zhao, Weibo Xiong, Dongrui Li, Keming Chen, Yunze Gao, Yuze Zhou, Zeyang Lin, Yue Liu 机构:高德(Amap, Alibaba Group);香港中文大学(深圳) ...

2026-05-27 · 更新于 2026-06-12 · 3 min · 480 words

CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS

📄 CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS #语音合成 #强化学习 #语音编辑 #零样本 #自回归模型 #数据增强 🔥 8/10 | 前50% | #语音合成 | #强化学习 | #语音编辑 #零样本 | arxiv 学术质量 5.6/7 | 影响力 1.6/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 论文作者为Junyang Chen, Yuhang Jia, Hui Wang, Jiaming Zhou, Yongchang Gan, Yong Qin。机构为南开大学计算机科学学院和人工智能学院。 💡 毒舌点评 这篇论文的工作量扎实,实验全面,还“意外”挖到了一个金矿——编辑训练竟能反哺TTS,这发现本身就有价值。但问题在于:1. 架构上基本是前作的“拼装车”(CosyEdit/CosyVoice2),核心创新集中在训练策略上,作为顶会工作,架构层面的新意略显不足。2. 对于“为什么编辑能提升TTS”这个最有趣的问题,解释停留在“现象观察+合理推测”层面,缺乏如注意力分析或探针实验等机制层面的深入挖掘,让人不够过瘾。3. GRPO仅用3000条数据训练,奖励函数里一堆超参数(k_w, α, k_m, δ, γ, λ等)的设定依据是“人耳听辨”,这既让人怀疑是否过拟合了这个小数据集,也降低了方法的可复现性和理论美感。总的来说,是一篇扎实的工程性工作,但理论深度和解释力上差点意思。 📌 核心摘要 针对监督微调(SFT)在语音编辑中存在的配对数据缺陷和优化目标粗粒度问题,本文提出CosyEdit2模型。该模型采用两阶段后训练框架:第一阶段通过SFT进行能力初始化;第二阶段提出编辑导向的组相对策略优化(GRPO),在无需人工构建目标语音的“无目标语音”数据上进行训练,奖励函数综合考虑了内容正确性、声学保留和说话人一致性。大量实验表明,CosyEdit2不仅在多项语音编辑基准上取得领先性能,还意外地显著提升了骨干模型的零样本语音合成能力,并且这种提升能跨语言迁移,揭示了语音编辑与合成任务在底层能力上的深刻联系。 🔗 开源详情 代码:论文中未提及代码仓库或开源计划。 模型权重:论文中未提及预训练模型或微调检查点的公开下载链接。 数据集: 训练数据: GigaEdit-S:论文中使用的250小时编辑数据集,未提供独立公开链接。 LibriTTS / LibriTTS-R:公开数据集。获取链接:https://www.openslr.org/60 , https://www.openslr.org/108 。 YODAS2:用于引入野外声学条件的YouTube语音数据集,未提供独立链接。 GigaSpeech-XL:用于构造GRPO提示的TTS语料。获取链接:https://github.com/speechcolab/gigaspeech 。 评估数据集: Ming-Freeform-Audio-Edit:语音编辑评估基准,未提供独立链接。 RealEdit:来自VoiceCraft的评估基准,未提供独立链接。 CV3-EVAL:来自CosyVoice3的评估套件,未提供独立链接。 SEED-TTS-EVAL:公开TTS评估基准。获取链接:https://github.com/bytedance/seed-tts-eval 。 VoiceBank-DEMAND:用于声码器重建实验。获取链接:https://datashare.ed.ac.uk/handle/10283/2791 。 Demo:音频样本主页:https://cjy1018.github.io/CosyEdit2 。 复现材料:论文附录详细提供了两阶段训练的超参数、优化设置、硬件信息(两块H800 GPU)和奖励函数设计细节,但未提供完整的训练脚本、配置文件或预训练检查点。 🏗️ 方法概述和架构 CosyEdit2的整体架构与训练流程如图1所示。 ...

2026-05-26 · 更新于 2026-06-12 · 2 min · 364 words

Toward Native Multimodal Modeling: A Roadmap

📄 Toward Native Multimodal Modeling: A Roadmap #多模态模型 #模型压缩 #高效推理 #强化学习 #自回归模型 🔥 10/10 | 前25% | #多模态模型 | #模型压缩 | #高效推理 #强化学习 | arxiv 学术质量 7/7 | 影响力 2/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 Siyu An (Equal Contribution, Corresponding Author) [1], Junru Lu (Equal Contribution) [1], Junnan Dong (Equal Contribution, Corresponding Author) [1], Qiufeng Wang [1], Yinghui Li [1], Weizhi Fei [2], Zichao Yu [3], Zheng Yuan [1], Biao Liu [1], Haopeng Wang [1], Renzhao Liang [1], Yixuan Yang [4], Yunhang Shen [1], Bo Ke [1], Keyu Chen [1], Linhao Luo [5], Difan Zou [3], Xiao Huang [6], Di Yin [1], Ruizhi Qiao [1], Xing Sun [1] 机构: [1] 腾讯优图实验室 [2] 清华大学 [3] 香港大学 [4] 华威大学 [5] 莫纳什大学 [6] 香港理工大学 ...

2026-05-26 · 更新于 2026-06-12 · 4 min · 803 words

Musical Attention Transformer: Music Generation Using a Music-Specific Attention Model

📄 Musical Attention Transformer: Music Generation Using a Music-Specific Attention Model #音乐生成 #生成模型 #自回归模型 #条件生成 📝 5.6/10 | 前50% | #音乐生成 | #自回归模型 | #生成模型 #条件生成 | arxiv 学术质量 4.2/7 | 影响力 0.8/2 | 可复现性 0.6/2 | 置信度 高 👥 作者与机构 作者:Shinnosuke Taksuka(明治大学 理工学部 计算机科学系),Hideo Mukai(明治大学 理工学部 计算机科学系) 注:论文未明确指定通讯作者。所有作者邮箱均为 shin.takasuka@gmail.com 和 mukai@meiji.ac.jp。 💡 毒舌点评 论文提出了一个直观且符合领域直觉的改进:将小节、调性、速度等元信息直接注入Transformer的注意力掩码,以引导生成更符合乐理的音乐。其亮点在于将符号音乐领域的结构化知识(如调性、节拍)显式地编码进了模型的注意力机制。然而,最大的短板在于评估体系严重缺乏对“音乐质量”本身的度量——仅报告了Token/Note/Bar/Key Error等“正确性”指标,却没有任何主观听感评估、多样性度量或与现有SOTA模型在人类偏好评分上的比较,使得“提升音乐生成质量”的核心论点难以被充分证实。 📌 核心摘要 解决的问题:基于Transformer的符号音乐生成模型(如Music Transformer)常出现过度重复、旋律不协调等问题,部分原因在于模型未能充分利用音乐的结构性元信息(如小节数、调号、速度)。 方法核心:提出“Musical Attention”机制,通过设计特定的注意力掩码,在计算注意力分数时,强制当前音符的某些特征(如音高、小节数)能够“看到”与其存在音乐理论依赖关系的特定历史音符或全局元信息(如调号KK、小节总数BB、速度TT)。 与已有方法的区别:与标准Full Attention和Strided Attention不同,Musical Attention不是简单地限制注意力窗口或采用稀疏模式,而是基于音乐理论构建了具有先验知识的、有偏向性的注意力模式,使模型能更直接地学习音乐元素间的依赖关系。 主要实验结果:在单轨和多轨音乐生成任务上,与Full Attention和Strided Attention相比,Musical Attention在保持相近训练精度(约78-81%)的同时,在Bar Error(小节错误)和Key Error(调性错误)上取得了显著更低的平均值和中位数,表明其生成音乐在结构(小节)和调性(和声)上更一致。例如,在单轨任务中,Musical Attention的Key Error均值(1.97)远低于Full Attention(4.69)。详细结果见下表。 Metric Attention Full (base) Strided Musical 单轨 - Accuracy (%) 78.12 77.98 78.07 单轨 - Token (mean) 0.03 0.10 0.04 单轨 - Note (mean) 0.42 0.18 0.25 单轨 - Bar (mean) 1.21 1.12 0.86 单轨 - Key (mean) 4.69 5.07 1.97 多轨 - Accuracy (%) 81.08 81.17 81.09 多轨 - Token (mean) 0.08 0.07 0.04 多轨 - Note (mean) 0.50 0.29 0.50 多轨 - Bar (mean) 1.04 0.80 0.62 多轨 - Key (mean) 5.18 5.56 2.55 实际意义:为符号音乐生成提供了一种简单有效的方法,通过整合音乐领域知识来约束生成过程,可能减少生成结果中的低级错误,使音乐听起来更“合理”。 主要局限性:1)评估仅限于结构正确性指标,缺乏对音乐审美、多样性和流畅性的客观或主观评估;2)论文承认生成的音乐缺乏动态变化,和弦进行有时不自然;3)方法依赖于准确提取和量化元信息(如调性),可能限制其在更复杂或未标注数据上的应用。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:Lakh MIDI Dataset。链接:https://github.com/craffel/midi-dataset。论文指出原始数据集由该外部GitHub仓库提供。 Demo:论文中未提及。 复现材料:论文中提供了详细的实验设置(如模型参数、训练步数、温度参数等)和评估指标,但未提供具体的检查点文件或配置文件链接。论文中提及生成的样本可向通讯作者申请获取(“available from the corresponding author upon reasonable request”)。 论文中引用的开源项目: Lakh MIDI Dataset:https://github.com/craffel/midi-dataset (已在上方数据集条目列出) 论文中提到使用工具“[26]”对MIDI文件进行分析和处理,但未提供该工具的具体名称或链接。 🏗️ 方法概述和架构 本文提出的是一个端到端的符号音乐生成系统。其核心流程为:将原始MIDI文件预处理为包含多个离散事件(音高、小节、起始位置等)的序列,并附加上全局的元信息(总小节数、调性、速度)。该序列被送入一个基于Transformer的自回归模型进行训练,目标是预测下一个事件。关键的创新在于,模型在进行注意力计算时,使用了设计好的“Musical Attention”掩码,以显式地引入音乐结构的先验知识。 ...

2026-05-21 · 更新于 2026-06-12 · 3 min · 589 words

SemaVoice: Semantic-Aware Continuous Autoregressive Speech Synthesis

📄 SemaVoice: Semantic-Aware Continuous Autoregressive Speech Synthesis #语音合成 #自回归模型 #扩散模型 #预训练 #零样本 ✅ 6.8/10 | 前50% | #语音合成 | #自回归模型 | #扩散模型 #预训练 | arxiv 学术质量 5.8/8 | 影响力 0.6/1 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Huimeng Wang(香港中文大学) 通讯作者:Shiyin Kang(商汤科技) 作者列表:Huimeng Wang(香港中文大学)、Hui Lu(香港中文大学)、Jiajun Deng(香港中文大学)、Haoning Xu(香港中文大学)、Youjun Chen(香港中文大学)、Xueyuan Chen(香港中文大学)、Zhaoqing Li(香港中文大学)、Shuhai Peng(清华大学)、Shiyin Kang(商汤科技)、Xunying Liu(香港中文大学) 💡 毒舌点评 论文针对连续自回归语音合成中VAE表示优化目标与TTS语义-韵律建模需求不匹配的问题,提出了一个直观且工程上合理的解决方案——在VAE阶段引入预训练语音基础模型(如WavLM)的特征进行对齐。其核心创新更偏向于一种精心设计的“预训练知识蒸馏”或“特征对齐”工程组件,而非具有广泛理论启发性的突破。实验在极具挑战性的Seed-TTS基准上取得了有竞争力的结果,但绝对性能(如说话人相似度)并未全面超越SOTA,且高达150K小时的训练数据和H200 GPU的使用门槛,严重削弱了其作为方法论研究的可复现性与普惠价值。 📌 核心摘要 问题:连续自回归语音合成模型中,作为输入的连续语音表示(通常由VAE学习)主要优化于波形重建保真度,这与下游自回归TTS模型需要建模的高层语义-韵律信息存在“不匹配”。这迫使TTS模型过度关注低级声学纹理,牺牲语义连贯性,并加剧了自回归生成中的错误累积。 方法核心:提出SemaVoice框架。其核心是在VAE训练阶段引入一个语音基础模型(SFM)引导的对齐机制。通过计算帧级一致性损失和成对结构一致性损失,将VAE学习到的连续表示显式地与冻结的SFM(如WavLM)提取的高层语义特征进行对齐,旨在从表示根源改善语义信息保留。 新意:与多数在TTS模型上添加额外模块的方法不同,SemaVoice将语义对齐的干预前置到表示学习(VAE)阶段,试图从根本上优化表示空间的性质,使其更利于下游的自回归建模,且不改变下游TTS架构。此外,采用了补丁式扩散头(LocDiT)并引入历史条件建模以增强局部生成稳定性。 主要实验结果:在Seed-TTS基准测试中,SemaVoice(使用150K小时数据)取得了具有竞争力的客观和主观结果: 英语:WER 1.71%,说话人相似度(SIM)0.694。 中文:CER 1.18%,SIM 0.754。 困难子集:CER 8.09%,SIM 0.711。 主观评估:英文N-MOS 3.98,S-MOS 3.89;中文N-MOS 4.07,S-MOS 4.03。 消融实验证明,移除SFM对齐导致WER从2.97%升至3.40%,SIM从0.635降至0.625;移除历史条件建模导致性能大幅下降(WER 8.46%,SIM 0.587)。 实际意义:为解决连续自回归TTS中的表示-建模不匹配问题提供了一种新思路,通过在表示学习阶段注入语义先验,可能提升生成语音的语义连贯性。 主要局限性:作者承认评估仅限于中英双语数据集;作为自回归框架,面临推理延迟和长序列错误累积的固有挑战。此外,方法需要大规模训练数据和计算资源。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:训练使用了开源数据集Emilia,链接为 https://huggingface.co/datasets/amphion/Emilia 。 Demo:论文中未提及在线演示链接。 复现材料:论文中提供了训练配置的详细描述(如VAE和TTS模型的训练步数、批量大小、学习率、损失权重等),但未提供具体的预训练检查点、完整复现脚本或训练好的模型权重。 论文中引用的开源项目: Emilia 数据集: https://huggingface.co/datasets/amphion/Emilia WavLM-large 模型: https://huggingface.co/microsoft/wavlm-large Qwen2.5-1.5B 模型: https://huggingface.co/Qwen/Qwen2.5-1.5B Whisper-large-v3 模型: https://huggingface.co/openai/whisper-large-v3 Paraformer-zh 模型: https://huggingface.co/funasr/paraformer-zh WavLM 模型用于说话人相似度计算: https://github.com/microsoft/UniSpeech/tree/main/WavLM 其他基线系统(如 F5-TTS, MaskGCT, CosyVoice, Spark-TTS, FireRedTTS, IndexTTS 2, VoxCPM, VibeVoice, HiggsAudio-v2, Qwen2.5-Omni)在论文中被引用和比较,但未提供这些系统自身的代码仓库链接。 🏗️ 方法概述和架构 SemaVoice是一个端到端的文本到语音合成系统,其整体流程可分为两个阶段:带SFM语义对齐的连续表示学习(VAE训练) 和 基于连续表示的自回归语音生成(TTS训练与推理)。整体架构如论文图1所示。 ...

2026-05-19 · 更新于 2026-06-12 · 3 min · 550 words

Streaming Speech-to-Text Translation with a SpeechLLM

📄 Streaming Speech-to-Text Translation with a SpeechLLM #语音翻译 #自回归模型 #流式处理 #多语言 #实时处理 ✅ 6.8/10 | 前25% | #语音翻译 | #自回归模型 | #流式处理 #多语言 | arxiv 学术质量 5.9/8 | 影响力 0.7/1 | 可复现性 0.2/1 | 置信度 高 👥 作者与机构 第一作者:Titouan Parcollet(三星AI中心剑桥) 通讯作者:未说明 作者列表:Titouan Parcollet(三星AI中心剑桥)、Shucong Zhang(三星AI中心剑桥)、Xianrui Zheng(三星AI中心剑桥,实习期间)、Rogier C. van Dalen(三星AI中心剑桥)。论文明确指出“这些作者贡献相等”。 💡 毒舌点评 这篇论文的核心想法——让LLM学会自主决定何时“等待”更多音频,而非依赖外部固定规则——在解决流式语音翻译的实时性鲁棒性矛盾上,是一个清晰且有实际价值的贡献。提出的短语级对齐生成方法也针对了跨语言对齐的真正痛点。然而,其全部实验建立在未公开的3B参数内部大模型、私有训练数据集“CoLiMu”和私有训练流程之上,且与社区广泛使用的、可公开复现的SOTA模型(如SeamlessM4T)缺乏直接对比。这使得其“显著优于现有固定策略”的宣称,在外部研究者看来,其有效性范围和绝对性能高度存疑。可复现性是其成为顶会论文的硬伤。 📌 核心摘要 要解决什么问题:现有的流式语音到文本翻译(STT)系统,尤其是基于SpeechLLM的系统,普遍采用固定的“wait-k”或类似外部启发式策略(如AlignAtt)。这些策略无法适应真实语音输入的变化(如静音开头、语速不均、停顿),导致在真实场景下产生翻译幻觉、遗漏或性能崩溃。 方法核心是什么:提出一种“混合”(intermixed)架构,将预训练的LLM作为统一的决策与生成核心。LLM在自回归解码时,不仅输出翻译文本标记,还能输出一个特殊的“等待”(W)标记。当模型输出W时,系统获取下一音频块;否则输出翻译词。模型通过自动对齐生成的监督序列,学会在信息不足时主动输出W以请求更多音频,从而实现自适应流式输出。 与已有方法相比新在哪里:(1)将等待策略从外挂式、非学习的模块(如wait-k, AlignAtt)变为LLM内部的可学习行为,与语言生成任务统一建模。(2)提出利用LLM和ASR工具链自动生成适合流式训练的短语级对齐数据,解决了跨语言(特别是英语-韩语)词级对齐困难导致的监督信号噪声问题。(3)设计了一种可选的“早期退出等待策略”,在LLM早期层拦截决策,以降低设备端能耗,而无损翻译质量。 主要实验结果如何:在Fleurs数据集的英-法和英-韩翻译任务上,所提混合模型在1-2秒的低延迟下,取得了接近离线基线(同架构离线模型)的翻译质量(COMET分数)。与Bestow的固定wait-k策略相比,其平均逻辑延迟降低约2.3倍,翻译质量提高约19.4%。在模拟真实场景的“SilFleurs”(输入前添加5秒静音)测试中,固定策略模型性能崩溃(COMET分数大幅下降),而混合模型保持稳定。关键数据见下表: 模型 策略 平均逻辑延迟 (秒) 质量 (COMET) SilFleurs 质量 (COMET) Bestow wait-k (步长640ms) ~2.0 0.820 0.509 Bestow AlignAtt (窗口f=12) ~2.0 0.832 0.604 Intermixed (本文) 学习策略 (最优κ) ~1.8 0.840 0.840 (注:以上数值基于论文图3(a)英-法任务描述及图5(a)鲁棒性测试结果) 实际意义是什么:为在移动设备、会议系统等场景部署低延迟、高鲁棒性、低功耗的实时语音翻译系统提供了新的架构思路,核心是解决了固定策略在非理想音频流下的致命缺陷。 ...

2026-05-15 · 更新于 2026-06-12 · 2 min · 341 words

Text2Score: Generating Sheet Music From Textual Prompts

📄 Text2Score: Generating Sheet Music From Textual Prompts #大语言模型 #自回归模型 #音乐生成 #乐谱生成 #开源工具 ✅ 7.0/10 | 前25% | #乐谱生成 | #大语言模型 | #自回归模型 #音乐生成 | arxiv 学术质量 6.8/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Keshav Bhandari 通讯作者:未说明 作者列表:Keshav Bhandari, Sungkyun Chang, Abhinaba Roy, Francesca Ronchini, Emmanouil Benetos, Dorien Herremans, Simon Colton 机构信息:论文正文未明确列出每位作者的具体机构。根据论文末尾的致谢,研究得到了UKRI和EPSRC(英国)、SUTD(新加坡科技设计大学)及新加坡教育部的资助。部分作者(如Emmanouil Benetos, Dorien Herremans)是音乐信息检索领域的知名学者,通常与Goldsmiths, University of London相关联,但严格基于提供的文本,具体机构信息未明确说明。 💡 毒舌点评 Text2Score的核心思想——用LLM做宏观规划、用专用模型做微观生成——在逻辑上很清晰,也确实解决了端到端模型缺乏推理能力的痛点。然而,这种“解耦”是一把双刃剑:它把音乐创意的“上限”交给了LLM的规划能力,而这个规划能力又受限于其见过的、有限的结构化计划模板。论文声称的“绕过文本-音乐对”更像是一种巧妙的工程规避,而非根本性的学术突破。更值得玩味的是,其精心设计的客观评估指标(可读性、可演奏性)在提升模型“技术分”的同时,也可能在鼓励生成安全、保守但缺乏惊喜的音乐。 📌 核心摘要 问题:文本驱动的符号音乐生成面临两大挑战:一是高质量、大规模的文本-音乐配对数据集稀缺,且自动标注管道存在噪声和幻觉;二是大多数现有模型专注于MIDI格式,专注于可读、可演奏的乐谱(如MusicXML/ABC)生成的工作很少,且端到端模型缺乏处理复杂音乐结构所需的推理能力。 方法核心:提出了Text2Score,一个两阶段框架。 规划阶段:使用大型语言模型(LLM)作为编排器,将自然语言提示解析为结构化的“小节级计划”。该计划是一个序列 𝒫={N, G, I_total, m_1, ..., m_N},其中每个小节向量 m_i 包含该小节的活跃乐器、音域、音符密度、速度、拍号、调号、和声音级集和力度等属性。 执行阶段:使用一个从头训练的、基于分层Transformer的生成模型。该模型包含一个冻结的ModernBERT计划编码器,通过交叉注意力将计划编码为潜在表示 H_plan;以及一个两层的分层解码器:一个块级(Patch-level)解码器(20层GPT-2)负责建模小节间关系并接收计划条件,一个字符级解码器(6层GPT-2)负责逐字符生成每个小节的交错ABC记谱字符串。 训练范式:其创新在于直接从符号XML数据中提取“计划”作为监督信号,训练数据为(从乐谱提取的计划,乐谱)对,从而绕开了对齐的文本-音乐对。训练采用两阶段策略:顺序预训练(使用连续计划)和结构性微调(动态选择5-10个结构关键小节组成的稀疏计划进行微调)。 新在哪里:核心创新在于“规划-执行”的解耦范式,以及利用符号音乐数据本身构建训练监督信号的新颖方法,有效规避了数据稀缺和噪声问题。此外,提出了专注于乐谱本身可读性与可演奏性的客观评估框架。 主要实验结果:在自建的238个评估提示集上,Text2Score在多个维度上显著优于基线。具体结果见下表(论文表2、表3)。 客观评估结果(关键指标,数据来自论文表2) ...

2026-05-14 · 更新于 2026-06-12 · 3 min · 459 words