语音合成 | 语音/音乐/音频论文速递

LongCat-Video-Avatar 1.5 Technical Report

📄 LongCat-Video-Avatar 1.5 Technical Report #语音合成 #多模态模型 #自监督学习 #多任务学习 #强化学习 ✅ 7.5/10 | 前25% | #语音合成 | #自监督学习 | #多模态模型 #多任务学习 | arxiv 学术质量 5/7 | 影响力 1.5/2 | 可复现性 1/2 | 置信度高 👥 作者与机构美团LongCat团队（Meituan LongCat Team）。论文中列出了贡献者与致谢名单，项目负责人为Yong Zhang，赞助人为Xunliang Cai和Xiaoming Wei。 💡 毒舌点评这是一份典型的、扎实的“工业级”技术报告，其价值主要体现在工程实现和系统集成上，而非基础算法创新。论文将“稳定”和“可部署”作为核心贡献，这对于实际应用至关重要，但在顶级学术会议上，这种“工程导向”的报告往往会因理论创新不足而被低估。其最大的贡献——详尽的多阶段数据策展流程——本质上是一项关键的“脏活累活”，但难以转化为新颖的算法思想。实验评估虽然全面且包含大规模人类评估，但所有测试集和评估代码未公开，使得“优于商业闭源系统”的声明难以被独立验证。开源仅提供了一个空的GitHub仓库链接，这对于推动学术研究复现毫无帮助，更像是商业宣传。总体而言，这是一份面向工业部署的合格答卷，但对于寻求算法突破的学术研究者而言，吸引力有限。 📌 核心摘要 LongCat-Video-Avatar 1.5是美团开源的一个音频驱动数字人视频生成框架的升级版，专注于提升生成质量的稳定性、鲁棒性和部署效率，以缩小研究原型与商业应用之间的差距。核心改进包括：1) 将音频编码器从Wav2Vec2升级为Whisper-large，显著提升唇形同步和语音动态捕捉能力；2) 提出并实施了一套复杂的多阶段数据策展流程，包括通用、多人、静默和情感数据的专用处理管线，以生成高质量、结构化的训练数据；3) 扩展了基于逐帧奖励的GRPO训练，进行细粒度时序质量控制；4) 采用参数高效的单个DiT+多LoRA架构进行DMD2蒸馏，将推理步数压缩至8步，实现了效率与质量的平衡。论文在超过500个样本的基准上进行了大规模众包和专家评估，结果显示其在人类相似度、物理合理性、时间稳定性和身份一致性等维度上达到或超越了包括HeyGen、OmniHuman 1.5在内的多种领先闭源系统。报告强调，通过严谨的系统工程优化，开源方案也能满足多样化的商业应用需求。 🔗 开源详情代码：https://github.com/meituan-longcat/LongCat-Video (论文中提及，但仓库内容未知，未说明是否包含模型权重或训练代码) 模型权重：论文中未提及提供下载链接或开源计划。数据集：论文中未提及公开训练或测试数据集。 Demo：论文中未提及在线演示。复现材料：论文未提供配置文件、检查点或数据处理脚本下载。提供了表1所示的训练阶段大纲（包括任务、尺寸、批大小、学习率、迭代次数），但这仅是概览。论文中引用的开源项目： Whisper-large: https://github.com/openai/whisper EMOTIVEFFLIB: https://github.com/av-savchenko/EmotiEffLib Qwen3-Omni 和 Qwen3-VL: https://github.com/QwenLM/Qwen3 ByteTrack: https://github.com/ifzhang/ByteTrack YOLOv6: https://github.com/meituan/YOLOv6 TalkNet: https://github.com/melfm/audio-visual-talking-head UniTalk: https://github.com/taconite/UniTalk DMD2 (Distribution Matching Distillation): https://github.com/YinZhengxun/DMD2 Wav2Vec2：论文中提及，未提供具体链接。 UMT5：论文中提及，未提供具体链接。 LoRA：论文中提及，未提供具体链接。 Flow Matching：论文中提及，未提供具体链接。 GRPO (Group Relative Policy Optimization)：论文中提及，未提供具体链接。 🏗️ 方法概述和架构 LongCat-Video-Avatar 1.5继承了v1.0的统一DiT（Diffusion Transformer）视频扩散架构。该架构基于3D变分自编码器（VAE），每个DiT块包含3D自注意力、文本交叉注意力和前馈网络（FFN）。文本嵌入由UMT5编码器生成，视觉令牌使用3D旋转位置编码（RoPE）进行时空位置编码。该统一架构支持文本到视频、文本-图像到视频以及视频续写等多种任务，通过不同的潜在序列输入配置（参考潜在序列、运动潜在序列、噪声潜在序列）实现。 ...

PashtoTTS-Bench: automated screening for low-resource non-Latin-script text-to-speech

📄 PashtoTTS-Bench: automated screening for low-resource non-Latin-script text-to-speech #语音合成 #语音识别 #多模态模型 #低资源 ✅ 6.5/10 | 前50% | #语音合成 | #语音识别 | #多模态模型 #低资源 | arxiv 学术质量 6.5/7 | 影响力 6.0/2 | 可复现性 1.0/2 | 置信度高 👥 作者与机构 Hanif Rahman，独立研究者。 💡 毒舌点评这篇论文的核心贡献是提出了一个名为INSV的、系统化的多维评估框架，并将其自动化实例（INSV-A）应用于首个公开的普什图语TTS基准测试。这听起来不错，但实际上是一份“半成品”报告。论文花了大量篇幅定义框架和失败分类法，但其最核心的“自然度”（N）维度——即真正的TTS质量核心——完全没有数据。我们得到的是一堆自动化指标（WER, SFR, LID），而这些指标本身充满陷阱（例如，合成音频的“干净”特性导致WER低于自然语��，可能误导为质量更好）。论文诚实地指出了许多局限（如工具不可靠、缺乏人工验证），但这恰恰暴露了该基准目前只能作为“筛选工具”而非“评估标准”的尴尬地位。作为一篇声称填补空白的基准论文，其系统覆盖面有限，结论受限于单一语言且需大量人工后续工作，实际可用性要打折扣。 📌 核心摘要本文针对低资源非拉丁语系语言（以普什图语为例）的TTS评估，指出仅依赖单一ASR往返WER指标可能失败。为此，作者提出了INSV（可理解性、自然度、脚本保真度、验证）报告框架，并报告了其自动化筛选子集INSV-A。基于此框架，作者创建了PashtoTTS-Bench，一个包含冻结提示集、评估脚本和结果的公开基准。实验评估了多个商用和开源TTS系统，结果表明：OmniVoice auto在独立ASR下WER最低，但低于自然语音基线主要归因于合成音频的声学干净特性；Whisper对普什图语音识别率接近零；MMS-LID和SpeechBrain模型能有效区分普什图语输出和乌尔都语对照。论文明确声明INSV-A仅为自动化筛选工具，其核心的“自然度”维度依赖未来的人工MOS评估，目前的失败分类法也仅为候选，需原住民标注确认。 🔗 开源详情代码：论文提到了具体的评估脚本（如scripts/05_tts_benchmark.py, scripts/export_mos_survey.py），并说明发布包包含这些脚本。但未提供公开的代码仓库（如GitHub）的具体链接。复现依赖于获取包含这些脚本的发布包。模型权重：论文列出了评估中使用的多个模型的标识符或名称： pashto-asr-v3 (ihani/pashto-asr-v3) omniASR_CTC_300M_v2 MMS-LID-4017 (facebook/mms-lid-4017) SpeechBrain VoxLingua107 Edge TTS 模型（ps-AF-GulNawazNeural, ps-AF-LatifaNeural, ur-PK-AsadNeural） OmniVoice (k2-fsa/OmniVoice) Fish Speech S2-Pro (fishaudio/s2-pro) Whisper Large V3 未提供这些模型权重的直接下载链接（如HuggingFace/ModelScope页面）。用户需要根据标识符自行查找。数据集： FLEURS Pashto (ps_af)：属于公开的Google FLEURS基准数据集，论文未提供独立链接。 Common Voice 24 Pashto：属于Mozilla Common Voice数据集。论文明确指出该音频数据集不可公开再分发，但提供了筛选后的200条提示文本。 Demo：论文未提及在线演示链接。复现材料：论文明确承诺发布包含以下内容的复现材料包：冻结的文本提示集（200 FLEURS + 200 筛选后的 CV24）。逐句评估结果CSV文件（WER, CER, SFR, LID审计结果）。评估脚本（scripts/目录下）。提供者元数据和运行日志。 SHA-256音频哈希值（tts_audio_hashes.csv）。 MOS调查导出脚本和说明材料（scripts/export_mos_survey.py，补充材料§A）。失败日志。论文提到发布包将遵循可复现的本地构件包布局，并会使用相同的布局发布公共快照（如HuggingFace或Zenodo），但未给出具体快照链接。论文中引用的开源项目： Edge TTS：微软的语音合成工具包（给出版本 edge-tts 7.2.8）。 OmniVoice：k2-fsa/OmniVoice，一个语音克隆框架。 Fish Speech：fishaudio/s2-pro，一个开源TTS模型。 MMS-TTS (Meta)：facebook/mms-tts-ps（论文中指出未发布该检查点）。 Coqui XTTS v2：一个多语言TTS系统。 UTMOS：一个自动MOS预测模型。 Whisper Large V3：OpenAI的多语言语音识别模型（论文中用于LID压力测试，但指出其对普什图语LID不可靠）。 MMS-LID-4017：Meta的多语言语言识别模型（facebook/mms-lid-4017）。 SpeechBrain VoxLingua107：SpeechBrain的语言识别模型（speechbrain VoxLingua107 ECAPA）。补充链接（自动提取）： HuggingFace：https://huggingface.co/ihanif/pashto-asr-v3 🏗️ 方法概述和架构本文的核心方法是提出并实例化一个名为INSV的TTS评估报告框架，其自动化部分称为INSV-A。整个方法可视为一个多维度、多层次的筛选与报告流程，旨在系统化地揭示低资源非拉丁语系TTS可能存在的各类失败模式。 ...

PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis

📄 PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis #语音合成 #语音生成 #自回归模型 #生成对抗网络 #数据增强 #低资源 #多任务学习 #语音克隆 🔥 9.2/10 | 前25% | #语音合成 | #生成对抗网络 | #语音生成 #自回归模型 | arxiv 学术质量 5.7/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度高 👥 作者与机构作者：Bowen Li, Shaotong Guo, Zhen Wang, Yang Xiang, Mingli Jin, Yihang Lin, Jiahui Zhao, Weibo Xiong, Dongrui Li, Keming Chen, Yunze Gao, Yuze Zhou, Zeyang Lin, Yue Liu 机构：高德（Amap, Alibaba Group）；香港中文大学（深圳） ...

Test-Time Self-Adaptive Conditioning for Stable Audio-Driven Talking-Head Generation

📄 Test-Time Self-Adaptive Conditioning for Stable Audio-Driven Talking-Head Generation #语音合成 #生成对抗网络 #测试时自适应 #多模态模型 #无监督学习 ✅ 7.7/10 | 前50% | #语音合成 | #生成对抗网络 | #测试时自适应 #多模态模型 | arxiv 学术质量 4.9/7 | 影响力 1.2/2 | 可复现性 1.6/2 | 置信度中 👥 作者与机构第一作者：张之成（Zhicheng Zhang），新南威尔士大学（UNSW）商学院博士生。第二作者：王磊（Lei Wang），格里菲斯大学工程与建筑环境学院研究员，TIME实验室负责人。第三作者：张宇（Yu Zhang），新南威尔士大学商学院讲师。第四作者：高尚生（Yongsheng Gao），格里菲斯大学工程与建筑环境学院教授，ARC研究中心主任。合著贡献声明：†表示共同第一作者，贡献相等。 💡 毒舌点评这篇论文解决的问题是明确的：预训练的音频驱动说话头生成模型，因其静态的参考图条件在动态生成过程中会导致身份漂移和时序不一致。作者提出的TT-SAC（测试时自适应条件化）框架，通过一个无需训练的“生成器-编码器”反馈循环来在推理时动态调整条件表示，想法简单直观，且具有不错的即插即用潜力。理论部分试图将这种简单的特征平均操作解释为一种随机定点迭代和偏差-方差权衡，增加了形式化深度。实验覆盖面很广，在五个主流模型和三个数据集上都验证了有效性。但是，本文的核心问题在于其“贡献”的定位与实际内容的匹配度。作为一篇被投递至NeurIPS/ICML/ICLR级别的顶会，其创新性可能稍显不足。所谓的“测试时自适应”在本次更新中，本质上是将第一遍生成的部分帧（通常是早期帧）的编码特征进行平均，然后用这个平均特征作为第二遍生成的条件。这听起来更像是一个精心设计的、针对特定问题的“推理时增强”或“后处理”技巧，而非一种全新的“适应范式”。理论分析部分虽然严谨，但更像是对已知统计现象（如蒙特卡洛方差缩减、定点迭代）在特定场景下的应用和解释，而非源于对问题本质的突破性洞察。实验中提升最显著的往往是“身份保持”和“感知质量”指标，而“唇音同步”（Sync-C/D）的提升幅度在不同模型上很不一致，有时甚至会下降，这说明该方法对“稳定性”的提升可能以牺牲部分生成动态性为代价。作者声称“模型无关”，但实际效果高度依赖于所应用模型的编码器质量和特征空间的结构。总体而言，这是一篇扎实的、解决实际问题的工程性论文，但距离顶级会议所期望的“重大理论或方法突破”还有距离。 📌 核心摘要本文针对音频驱动说话头生成中，静态参考图条件导致的身份漂移和时序不一致问题，提出了测试时自适应条件化（TT-SAC）框架。该框架是一个无需训练的推理时优化方法，通过构建“生成器-编码器”反馈循环，将预训练生成器自身产生的初始视频帧重新编码，提取并聚合身份特征，形成一个更自洽的条件表示，用于第二次生成过程。该过程被形式化为一个随机定点迭代，旨在找到生成器-编码器算子的不动点，从而稳定身份和运动。理论分析表明，通过帧特征平均可以减少特征方差，但存在由时序非平稳性引入的偏差-方差权衡。在多个数据集和预训练模型上的实验表明，TT-SAC在大多数情况下能提升唇音同步、时序平滑度、身份保持和感知质量。 🔗 开源详情代码：提供了GitHub仓库链接（https://github.com/zhangzheng2324/TT-SAC）。模型权重：论文中未提及是否开源模型权重。数据集：评估使用了三个公开数据集（Hallo, RAVDESS, CelebV-HQ），但论文未提供具体获取链接或开源协议。 Demo：论文中未提及在线演示。复现材料：论文提供了算法伪代码（附录）和详细的实验设置描述（片段数量、时长、预处理步骤），但未提供单独的训练/测试配置文件、检查点或可直接下载的复现材料包。论文中引用的开源项目：论文提到使用了AniTalker, FLOAT, Sonic, SadTalker, JoyVASA, OmniAvatar, SyncNet等项目进行对比或泛化实验，但未在论文中提供它们的代码链接。 🏗️ 方法概述和架构 TT-SAC是一个两阶段、无需训练的推理时优化框架，旨在解决静态条件特征 $ \mathbf{f}_r $ 与动态生成视频序列之间的不匹配问题。其核心思想是利用生成器自身的输出来迭代优化条件特征，使其与生成序列的统计特性自洽。 ...

Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control

📄 Toward Natural Emotional Text-To-Speech System with Fine-Grained Non-Verbal Expression Control #语音合成 #数据集 ✅ 6.3/10 | 前50% | #语音合成 | #数据集 | arxiv 学术质量 4/7 | 影响力 1.2/2 | 可复现性 1.1/2 | 置信度中 👥 作者与机构论文作者为：Wangzixi Zhou, Bagus Tris Atmaja, Sakriani Sakti。作者所属机构在提供的论文原文中未明确说明。 💡 毒舌点评这篇论文试图解决情感TTS中一个真实存在的痛点：非语言声音（NVs）的粗糙控制。其核心贡献是构建了一个细粒度标注的数据集，思路清晰，实验也尽力展示了其价值。然而，问题在于模型部分几乎是“拿来主义”，在成熟的Grad-TTS上加了个情绪编码器，缺乏针对NV合成特性的架构创新，技术深度不足。更关键的是，实验设计存在明显的公平性瑕疵——“粗粒度NV”基线（NVTTS）只包含“快乐”和“悲伤”数据，却要与包含全部四种情绪的其他设置对比总性能，这就像让一个短跑选手去和全能选手比总分，结论的说服力大打折扣。此外，数据集仅限60位女性说话者，规模和多样性不足，限制了结论的普适性。整体而言，这是一篇有明确问题意识但技术实现和实验严谨性有待提升的工作，目前状态距离顶级会议的录用标准有明显差距。 📌 核心摘要本文针对现有情感TTS系统普遍忽略非语言声音（NVs，如笑声、哭声）的问题，提出了一种细粒度控制方案。作者从EARS语料库中筛选并重新标注了来自60位女性说话者的NV数据，设计了一套能够控制NV类型、频率（通过重复音节）和时长（通过重复末尾字符）的新型标注体系（例如<(crying) wuuuuu whep>）。基于此构建的数据集，作者在Grad-TTS框架上增加情绪编码器并定制了NV处理流程，构建了一个情感TTS基准模型。实验表明，引入细粒度NV虽然导致感知自然度（nMOS）从3.54轻微下降至3.18-3.43，但显著提升了情感表现力（eMOS 4.20）和情感识别准确率（78.8%）。分析表明，该方法对高唤醒度情绪（快乐82.5%、恐惧82.7%）和悲伤（98.3%）尤其有效。偏好测试进一步揭示，用户对“欢呼”类NV的快乐表达和“多部分哭泣声”的悲伤表达有强烈偏好。该工作的核心价值在于为精细控制情感语音中的非语言表达提供了新的数据基础和初步验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：作者构建的Fine-Grained Non-Verbal Expression Dataset：论文未提供直接的下载链接，但说明数据来源于EARS语料库（http://www.openslr.org/93/）并经过了重新处理与标注。训练所用情感语音数据集（非NV部分）：论文明确使用了三个开源数据集：EXPRESSO (https://zenodo.org/record/6852108)、SEMAINE (https://zenodo.org/record/3463461) 和 ESD (https://github.com/HL-Data-Labs/ESD)。 Demo：提供了演示页面链接：https://37integer.github.io/FINE-GRAINED-NON-VERBAL-TTS/ 复现材料：论文未提供具体的检查点、配置文件或详细复现文档链接。在“Training setting”部分提供了训练细节：采样率22.05 kHz、声码器HiFi-GAN、训练400k迭代、硬件NVIDIA RTX A6000。论文中引用的开源项目： EARS Corpus: http://www.openslr.org/93/ AMI Meeting Corpus: https://groups.inf.ed.ac.uk/ami/corpus/ NVTTS Dataset (论文[1])：项目页 https://github.com/ictnlp/NVTTS CosyVoice2 (论文[2])： https://github.com/FunAudioLLM/CosyVoice2 Grad-TTS (论文[9])： https://github.com/huawei-noah/Speech-Backbones/tree/main/Grad-TTS OpenAI Whisper (论文[10])： https://github.com/openai/whisper pydub (音频处理库)： https://github.com/jiaaro/pydub Hifi-GAN (论文[3])： https://github.com/jik876/hifi-gan 预训练的SER模型 (论文[14])：对应开源项目 https://github.com/AdrianLewkowicz/Pretrained_models_Speech_emotion_recognition （论文引用但未提供链接） 🏗️ 方法概述和架构本文的方法主要包括两个部分：细粒度非语言表达数据集的构建，以及基于此数据集构建的情感TTS模型。 ...

WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models

📄 WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models #语音合成 #生成对抗网络 #扩散模型 #低资源 🔥 8.5/10 | 前25% | #语音合成 | #生成对抗网络 | #扩散模型 #低资源 | arxiv 学术质量 5.6/7 | 影响力 1.6/2 | 可复现性 1.3/2 | 置信度高 👥 作者与机构未提及。 💡 毒舌点评这篇论文在工程实用性和架构统一性上做得不错，但部分宣传和分析需要更审慎。声称“首次”统一框架，但框架本身的核心（残差去噪、子模型）并非原创，主要贡献在于将ConvNeXt生成器成功适配到两种范式并进行了充分的实证对比。其提出的“简化”GAN训练策略（无需初始噪声和增益调整）的理论依据和泛化能力存疑，更像是一种经验性的工程trick。子模型导致参数线性增长是一个显著的实用缺陷，作者虽提及但轻描淡写，这对资源敏感的部署场景影响很大。论文将“多说话人性能提升”作为重要卖点，但除了展示在LibriTTS-R上的结果，并未深入分析其机制（如说话人嵌入、归一化技术的改进），显得结论有余而洞察不足。总体而言，这是一篇扎实的系统性工作，但距离开创性研究尚有差距。 📌 核心摘要本文提出了WaveNeXt 2，一个基于ConvNeXt的统一生成器框架，可同时应用于GAN和扩散模型两种神经声码器。其核心创新在于引入了残差去噪和子模型结构，使生成器能够以迭代方式从噪声中逐步恢复波形。在多说话人数据集LibriTTS-R上的实验表明：(1) GAN-WaveNeXt 2在保持与WaveFit、HiFi-GAN相当合成质量的同时，实现了GPU上70%、CPU上高达90%的推理速度提升；(2) 扩散模型版本Diff-WaveNeXt 2在4步推理下，CPU推理速度比FastDiff快80%，并取得了有竞争力的合成质量；(3) Diff-WaveNeXt 2的训练效率极高，仅需32小时。该框架为不同应用场景（快速部署或高质量合成）提供了灵活的选择。 🔗 开源详情代码：论文未提供WaveNeXt 2自身的官方代码、模型权重或训练脚本链接。但提供了其复现所依赖的第三方开源项目链接： ParallelWaveGAN (HiFi-GAN V1 非官方实现): https://github.com/kan-bayashi/ParallelWaveGAN WaveFit 非官方实现: https://github.com/yukara-ikemiya/wavefit-pytorch FastDiff 官方实现: https://github.com/Rongjiehuang/FastDiff Vocos 官方实现: https://github.com/gemelo-ai/vocos 模型权重：未提及。数据集：未提供直接下载链接。使用LibriTTS-R数据集（约585小时，24kHz），具体为 train-clean-100 和 train-clean-360 子集训练，test-clean-100 子集评估。 Demo：https://37integer.github.io/WAVENEXT-2 复现材料：论文详细描述了训练设置（硬件、框架、损失函数、超参数），但未提供可直接下载的配置文件或检查点。 🏗️ 方法概述和架构 WaveNeXt 2是一个统一的生成器框架，旨在通过单一的ConvNeXt基架构，同时支持GAN和扩散两种训练与推断范式。 ...

Continual Speaker Identity Unlearning with Minimal Interference

📄 Continual Speaker Identity Unlearning with Minimal Interference #持续学习 #语音合成 🔥 8.6/10 | 前25% | #语音合成 | #持续学习 | arxiv 学术质量 6.5/7 | 影响力 1.6/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构 Jinju Kim, Yunsung Kang: Sungkyunkwan University Gyeong-Moon Park: Korea University Jong Hwan Ko: Sungkyunkwan University 📌 核心摘要本文针对零样本文本转语音（ZS-TTS）系统中，在现实部署约束下（遗忘请求顺序到达、数据需删除）的说话人身份持续遗忘问题，提出了“灾难性重新学习”这一关键失败模式。现有方法在顺序应用时，为保留模型效用而施加的正则化会无意中恢复先前已遗忘的说话人身份。为解决此问题，作者提出了CORTIS框架，该框架通过对比Fisher信息进行参数定位（控制更新范围）和累积正交子空间投影（控制更新方向），实现无需访问历史遗忘数据即可进行持续遗忘。在VoiceBox模型上的实验证明，CORTIS能在5轮顺序请求后，将所有已遗忘说话人的相似度维持在较低水平，同时保持有竞争力的保留集合成质量，显著优于顺序应用的现有方法。 🔗 开源详情代码：论文正文和附录中未提供代码仓库链接。模型权重：论文中未提及发布预训练或遗忘后的模型权重。数据集：论文使用了公开数据集LibriHeavy（预训练）和LibriSpeech test-clean（评估），但未提供下载链接或特定预处理脚本。遗忘集为从LibriHeavy中筛选的5个特定说话人音频。 Demo：提供了演示链接 https://cumulativeortis.github.io/。复现材料：论文附录B、C、D提供了非常详细的实现步骤、超参数、模型架构（VoiceBox）描述和基线配置，理论上足以支持复现。论文中引用的开源项目： VoiceBox：提供了论文链接（https://arxiv.org/abs/2306.15687）和Demo页面，但未提及代码仓库。 LibriHeavy、LibriSpeech：标准数据集，未提供特定链接。 Diffwave、HuBERT-Large、WavLM-TDCNN：作为工具被引用，未提供具体链接。 🏗️ 方法概述和架构 CORTIS框架旨在解决ZS-TTS模型中持续说话人身份遗忘的“灾难性重新学习”问题，其核心设计是在不访问历史遗忘数据的前提下，最小化每次遗忘更新对先前遗忘结果的干扰。该框架包含两个互补且顺序执行的阶段，图2对其进行了可视化概述。对比参数定位 (Contrastive Parameter Localization) 功能：确定每次遗忘序列中，模型参数的“可训练区域”。其目标是局部化更新，使其集中在与当前遗忘说话人最相关的参数子集上，同时软排除对保留集质量或任何先前遗忘说话人重要的参数。实现：对于第 i 次遗忘序列（针对说话人集 f_i），首先计算当前遗忘集 f_i 数据的遗忘损失的对角Fisher信息矩阵 F_{f_i}。同时，维护保留集 R_i 的Fisher信息矩阵 F_{R_i}，以及所有先前遗忘集 f_1, ..., f_{i-1} 的Fisher信息矩阵 F_{f_1}, ..., F_{f_{i-1}}。F_{R_i} 不需要在每次请求时从整个保留集重新计算，可以使用一个固定的子集并跨序列重用。构造一个显著性图，其计算公式为：saliency_i = (F_{f_i} + ϵ) / (max(F_{R_i}, F_{f_1}, ..., F_{f_{i-1}}) + ϵ)。公式中的分母是逐元素最大值操作，起到软保护作用：任何对保留集质量或任何先前遗忘说话人重要的参数，其显著性得分都会被压低。选择显著性图中全局排名前 k% 的参数，形成二值训练掩码 M_i。在后续第 i 次序列的更新中，只有被 M_i 标记的参数是可训练的，其余参数被冻结。输入：当前遗忘集 f_i 的数据；保留集 R_i 的Fisher信息（可复用）；所有先前遗忘集 f_1, ..., f_{i-1} 的Fisher信息（历史积累）。输出：二值掩码 M_i，定义了本次更新的可训练参数子集。累积正交子空间投影 (Cumulative Orthogonal Subspace Projection) 功能：在参数定位的基础上，进一步约束可训练参数的更新方向。它将新的更新梯度投影到由所有先前遗忘序列更新所张成子空间的正交补上，从而阻止更新沿先前遗忘所使用过的关键方向进行，从方向层面防止对先前遗忘结果的干扰。实现：在第 i 次遗忘序列的训练过程中，以固定间隔（例如每 n 步）收集优化器步进的梯度快照。训练完成后，将收集到的梯度快照堆叠，并通过截断奇异值分解（SVD）计算一个秩为 R 的标准正交基 U_i。为保证 U_i 仅捕获未被先前子空间覆盖的方向，在进行SVD之前，会从每个梯度快照中减去先前累积子空间 U_{<i} 的投影分量，从而在构造上使 U_i 与 U_1, ..., U_{i-1} 正交。为避免累积子空间 U_{<i} 的维度随请求序列线性增长（导致投影成本无限增加），采用了一种固定的秩合并策略。在序列 i+1 开始时，构造一个能量加权的列堆叠矩阵 Φ_i = [U_1 Σ_1 | ... | U_i Σ_i]，其中每列按其对应的奇异值 Σ_k 缩放，以编码该方向在相应说话人遗忘过程中的重要性。然后，对该矩阵进行秩为 R_merge 的截断SVD，得到最终用于投影的累积子空间基底 U_{<i}。这确保了无论序列多长，投影计算成本保持恒定。在每次优化器步进后，位于掩码 M_i 内的权重更新量 δ 被投影到 U_{<i} 的正交补空间：δ ← δ - U_{<i} U_{<i}^⊤ δ。输入：当前序列 i 训练过程中的梯度快照；历史累积的子空间基底 U_{<i}。输出：投影后的权重更新量 δ。组件间交互：两个阶段形成级联约束。首先，参数定位（掩码 M_i）将优化搜索空间限制在一个局部化的、与当前遗忘任务相关的参数子集中。然后，在这个受约束的子空间内，正交投影进一步限制了更新向量的方向，使其避开由历史遗忘操作定义的“禁区”。这种“空间+方向”的双重约束共同作用，旨在实现对先前遗忘结果的最小干扰。 ...

CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS

📄 CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS #语音合成 #强化学习 #语音编辑 #零样本 #自回归模型 #数据增强 🔥 8/10 | 前50% | #语音合成 | #强化学习 | #语音编辑 #零样本 | arxiv 学术质量 5.6/7 | 影响力 1.6/2 | 可复现性 0.8/2 | 置信度高 👥 作者与机构论文作者为Junyang Chen, Yuhang Jia, Hui Wang, Jiaming Zhou, Yongchang Gan, Yong Qin。机构为南开大学计算机科学学院和人工智能学院。 💡 毒舌点评这篇论文的工作量扎实，实验全面，还“意外”挖到了一个金矿——编辑训练竟能反哺TTS，这发现本身就有价值。但问题在于：1. 架构上基本是前作的“拼装车”（CosyEdit/CosyVoice2），核心创新集中在训练策略上，作为顶会工作，架构层面的新意略显不足。2. 对于“为什么编辑能提升TTS”这个最有趣的问题，解释停留在“现象观察+合理推测”层面，缺乏如注意力分析或探针实验等机制层面的深入挖掘，让人不够过瘾。3. GRPO仅用3000条数据训练，奖励函数里一堆超参数（k_w, α, k_m, δ, γ, λ等）的设定依据是“人耳听辨”，这既让人怀疑是否过拟合了这个小数据集，也降低了方法的可复现性和理论美感。总的来说，是一篇扎实的工程性工作，但理论深度和解释力上差点意思。 📌 核心摘要针对监督微调（SFT）在语音编辑中存在的配对数据缺陷和优化目标粗粒度问题，本文提出CosyEdit2模型。该模型采用两阶段后训练框架：第一阶段通过SFT进行能力初始化；第二阶段提出编辑导向的组相对策略优化（GRPO），在无需人工构建目标语音的“无目标语音”数据上进行训练，奖励函数综合考虑了内容正确性、声学保留和说话人一致性。大量实验表明，CosyEdit2不仅在多项语音编辑基准上取得领先性能，还意外地显著提升了骨干模型的零样本语音合成能力，并且这种提升能跨语言迁移，揭示了语音编辑与合成任务在底层能力上的深刻联系。 🔗 开源详情代码：论文中未提及代码仓库或开源计划。模型权重：论文中未提及预训练模型或微调检查点的公开下载链接。数据集：训练数据： GigaEdit-S：论文中使用的250小时编辑数据集，未提供独立公开链接。 LibriTTS / LibriTTS-R：公开数据集。获取链接：https://www.openslr.org/60 , https://www.openslr.org/108 。 YODAS2：用于引入野外声学条件的YouTube语音数据集，未提供独立链接。 GigaSpeech-XL：用于构造GRPO提示的TTS语料。获取链接：https://github.com/speechcolab/gigaspeech 。评估数据集： Ming-Freeform-Audio-Edit：语音编辑评估基准，未提供独立链接。 RealEdit：来自VoiceCraft的评估基准，未提供独立链接。 CV3-EVAL：来自CosyVoice3的评估套件，未提供独立链接。 SEED-TTS-EVAL：公开TTS评估基准。获取链接：https://github.com/bytedance/seed-tts-eval 。 VoiceBank-DEMAND：用于声码器重建实验。获取链接：https://datashare.ed.ac.uk/handle/10283/2791 。 Demo：音频样本主页：https://cjy1018.github.io/CosyEdit2 。复现材料：论文附录详细提供了两阶段训练的超参数、优化设置、硬件信息（两块H800 GPU）和奖励函数设计细节，但未提供完整的训练脚本、配置文件或预训练检查点。 🏗️ 方法概述和架构 CosyEdit2的整体架构与训练流程如图1所示。 ...

FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech Representations

📄 FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech Representations #语音合成 🔥 8.4/10 | 前50% | #语音合成 | #语音合成 | arxiv 学术质量 5.3/7 | 影响力 1.8/2 | 可复现性 1.3/2 | 置信度高 👥 作者与机构论文标题：FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech Representations arXiv ID: 2605.24618v1 作者单位：Qualcomm AI Research（高通AI研究部门，隶属于Qualcomm Technologies, Inc.） 💡 毒舌点评这篇工作动机清晰，试图解决零样本TTS中风格与音色独立控制的痛点，技术路线（双参考输入、两阶段生成、条件一致性损失）也具备一定创新性。然而，其核心构建于预训练的FACodec之上，使得系统的最终上限与可控性高度受限于这个“前人栽树”的组件，原创性打了一定折扣。实验评估看似全面，但依赖商用LLM（Gemini）作为“法官”存在可解释性风险，且绝对合成质量指标（UTMOS 4.22）仍略逊于最新的SOTA（NaturalSpeech 3的4.30），这说明在追求“可控”的同时，牺牲了部分“自然度”。对于顶会而言，这更像是一个扎实的系统工程贡献，而非理论或方法上的重大突破。 📌 核心摘要本文提出了FC-TTS，一个基于解耦语音表示的零样本文本到语音（TTS）框架，旨在实现使用两个独立参考音频对说话风格（韵律）和音色进行独立且精确的控制。为克服现有解耦表示（如FACodec）在实践中解耦不完美、难以应对未见过组合的局限，FC-TTS引入了三项关键设计：1) 一个两阶段频谱图生成流程，先由音色条件生成“模糊”频谱图，再由风格条件细化，以提高鲁棒性；2) 一个基于VQ-VAE的分层风格编码器（TCF模块），用于捕获音素和帧级的细粒度风格特征并避免短路学习；3) 一个条件一致性损失（CCL），通过联合预测器加强属性间的解耦与一致性。实验在LibriSpeech（零样本TTS性能）和RAVDESS（可控性评估）数据集上进行，结果表明，FC-TTS在保持有竞争力的零样本自然度（UTMOS 4.22, WER 1.88）的同时，能够实现精确且独立的风格与音色操控，其性能在主观和客观评估中均优于FACodec语音转换基线和支持独立控制的F5-TTS。 🔗 开源详情代码：论文未提及代码开源链接。模型权重：论文未提及模型权重开源。数据集： Libriheavy：训练数据集。链接：https://github.com/k2-fsa/libriheavy；许可：Apache-2.0。 LibriSpeech：测试数据集（test-clean子集）。许可：CC-BY 4.0。 RAVDESS：可控性评估数据集。许可：CC BY-NC-SA 4.0。演示：提供了演示音频页面：https://qualcomm-ai-research.github.io/fc-tts 复现材料：提供了详细的训练超参数（表6）、模型架构细节（附录A、表7）和评估设置（附录D），但未提供预训练模型或检查点。论文中引用的开源项目： FACodec (ns3_codec)：核心解耦表示提取器。链接：https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec UTMOS：语音质量评估工具。链接：https://huggingface.co/spaces/sarulab-speech/UTMOS-demo HuBERT (用于WER计算)：ASR模型。链接：https://huggingface.co/facebook/hubert-large-ls960-ft UniSpeech (用于说话人相似度计算)：说话人验证模型。链接：https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification HiFi-GAN：声码器（论文未给出具体开源链接）。 Gemini 2.5 Pro：用于AudioLLM-as-a-Judge评估（非开源项目）。 🏗️ 方法概述和架构 FC-TTS系统旨在通过处理两个独立的条件输入——音色嵌入 $z_{\text{spk}}$ 和韵律令牌 $\mathbf{c_p}$——来生成可控的语音频谱图。系统核心构建于预训练的FACodec解码器之外，采用基于条件流匹配（CFM）的频谱图生成框架。 ...

Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio

📄 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio #音频水印 #语音合成 #音乐生成 #鲁棒性 #生成模型 ✅ 6.2/10 | 前25% | #音频水印 | #语音合成 | #音乐生成 #鲁棒性 | arxiv 学术质量 4.1/7 | 影响力 1.6/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构 Georgios Milis, Yubin Qin, Yihan Wu, Heng Huang。机构未在提供的原文中明确说明，仅提供项目主页。 💡 毒舌点评这篇论文的核心idea——用社区检测聚类来对抗重标记化噪声——确实优雅且有效，抓住了问题的本质。作者声称的“Simply Robust”在抵抗重编码噪声和信号处理攻击上得到了有力验证。然而，对于社交媒体上常见的时序修改（裁剪、变速）束手无策，仅给出“线性搜索”等后处理建议，这更像是承认而非解决了一个核心部署短板。理论部分假设条件独立性虽然可理解，但与实际的帧间依赖存在差距，导致理论与经验z分数存在偏差，削弱了理论的普适说服力。超参数(ρ, m)严重依赖网格搜索，谈不上“即插即用”，泛化性存疑。总体而言，它为连续模态的令牌水印提供了一个出色且实用的新范式，但离一个完美的、无短板的解决方案还有距离。 📌 核心摘要本文针对自回归音频生成模型中，因编解码器重标记化不一致导致的令牌级水印信号衰减问题，提出了一种新颖的、梯度自由的解决方案。核心思想是，将编解码器词汇表中频繁混淆的令牌视为语义相近的邻居，通过构建令牌混淆图并应用Leiden社区检测算法，将原始词汇蒸馏为更鲁棒的集群词汇表。水印的偏差（如KGW中的绿色列表）在集群层面而非令牌层面进行应用。该方法仅需黑盒访问编解码器，在Moshi（对话）、MusicGen（音乐）、CosyVoice3和Spark-TTS（文本到语音）等多种模型与任务上进行了评估。实验表明，该方法将水印的可检测性（$-\log p$值）提升了数个数量级，且在信号处理、编解码器转码等多种攻击下表现出显著增强的鲁棒性，同时对生成音频质量的影响与基线方法相比不显著。论文还从统计角度分析了重标记化对检测性的指数衰减影响，并证明了集群匹配率 $r_{cl} > r$ 能有效缓解此衰减。 🔗 开源详情代码：论文提供了一个项目主页链接，其中包含实验代码：https://g-milis.github.io/projects/nograd-audio-wm.html 模型权重：未提供。论文使用了现有的开源模型（Moshi, MusicGen, CosyVoice3, Spark-TTS）进行实验，但未提供微调或聚类后的权重下载链接。数据集：提供了获取链接。 LibriSpeech：https://www.openslr.org/12 (用于Moshi提示和聚类) MusicCaps：https://paperswithcode.com/dataset/musiccaps (用于MusicGen聚类) Free Music Archive & LibriTTS：论文提及但未提供直接链接，可在 https://freemusicarchive.org/ 和 https://openslr.org/60/ 获取 (用于微调MusicGen的编解码器)。 Demo：未提及在线演示链接。复现材料：论文在附录E (Experimental Details) 中提供了详细的实验设置，包括：用于聚类的音频数量、水印参数 ($\gamma=0.25$， $\delta$ 在不同模型取值)，生成长度，攻击套件的具体参数，以及关键的集群超参数选择表（表8）。引用的开源项目：Leiden算法， Mimi/EnCodec编解码器， MusicGen/CosyVoice3/Spark-TTS模型， WMAR基线方法， DAC/SpeechTokenizer/FaCodec编解码器， NISQA/DNSMOSPro/FAD等评估工具。 🏗️ 方法概述和架构该方法的核心目标是提升令牌级水印在音频生成模型中对重标记化噪声的鲁棒性，且无需微调解码器（梯度自由）。整体架构可分为离线词汇蒸馏和在线集群级水印两个阶段。 ...