流匹配 | 语音/音乐/音频论文速递

Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech Synthesis

📄 Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech Synthesis #语音克隆 #语音合成 #流匹配 #多语言 #零样本 ✅ 7.5/10 | 前25% | #语音克隆 | #流匹配 | #语音合成 #多语言学术质量 7.0/7 | 选题价值 8.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Qingyu Liu（上海交通大学 X-LANCE Lab / 约翰斯·霍普金斯大学）通讯作者：Xie Chen（上海交通大学 X-LANCE Lab / 上海创新研究院）†（论文中明确标注为通讯作者）作者列表：Qingyu Liu（上海交通大学、约翰斯·霍普金斯大学）、Yushen Chen（上海交通大学、上海创新研究院）、Zhikang Niu（上海交通大学、上海创新研究院）、Chunhui Wang（吉利）、Yunting Yang（吉利）、Bowen Zhang（吉利）、Jian Zhao（吉利）、Pengcheng Zhu（吉利）、Kai Yu（上海交通大学）、Xie Chen（上海交通大学、上海创新研究院） 💡 毒舌点评亮点：论文精准地找到了flow-matching TTS在跨语言场景下的痛点——对音频提示转录文本的依赖，并通过引入多粒度说话率预测器给出了一个工程上优雅的解决方案。短板：说话率预测器本身只在中文和英文数据上训练，却要声称对德、法、印地、韩等“未见语言”有效，这一结论的支撑略显单薄；此外，去除转录文本后“细粒度说话人特征（如口音、情感）”的迁移能力下降，在论文中被轻描淡写为“未来工作”，但这恰恰是克隆质量的要害。 🔗 开源详情代码：提供了Demo链接（https://huggingface.co/spaces/chenxie95/Cross-Lingual_F5-TTS_Space）和个人主页示例（https://qingyuliu0521.github.io/Cross_lingual-F5-TTS/）。论文指出Cross-Lingual F5-TTS的代码可通过这些链接访问，暗示已开源。模型权重：基础模型F5-TTS-Base已开源。本文提出的Cross-Lingual F5-TTS模型和说话率预测器的具体权重下载地址论文中未明确提供。数据集：使用了公开数据集Emilia、LibriSpeech、FLEURS。未提供本文特有的测试集（跨语言测试集）的独立下载。 Demo：提供了交互式HuggingFace Spaces Demo。复现材料：提供了详尽的训练配置（模型架构、优化器、学习率、batch size、训练步数）、推理设置（NFE、CFG等）和预处理方法描述，为复现提供了坚实基础。依赖的开源项目：MMS (forced alignment), Vocos (vocoder), Whisper-large-V3 (WER评估), Paraformer-zh (中文WER评估), WavLM (说话人相似度评估), UTMOS (自然度评估)。 📌 核心摘要问题：现有的基于流匹配的文本转语音（TTS）模型在进行跨语言语音克隆时，严重依赖于对音频提示（参考音频）的转录文本，这在目标语言未知或转录不可用时无法实现。方法核心：提出Cross-Lingual F5-TTS框架。训练时，利用MMS强制对齐工具预处理数据，获取词边界，将音频提示部分及其对应文本完全丢弃，仅用提示音频指导合成剩余被掩码的音频。推理时，为解决缺失文本导致的时长预测难题，训练了音素、音节、词三种粒度的说话率预测器，直接从音频提示的声学特征估算其说话速度，进而结合目标文本的单元数量计算合成时长。创新点：相比原F5-TTS及同类模型，本文首次在flow-matching TTS框架内实现了无需音频提示转录的跨语言克隆；引入了基于Gaussian Cross-Entropy损失的多粒度说话率预测器作为时长建模的替代方案。实验结果：在语内测试（LibriSpeech-PC test-clean, SeedTTS test-en/zh）上，该方法在WER和UTMOS等指标上匹配甚至优于原F5-TTS基线（如CL-F5+M1在LibriSpeech-PC test-clean上WER为2.079%，低于基线的2.205%）。在跨语言测试（473个样本，德、法、印地、韩语音提示合成中英文）上，成功实现了克隆，其中M1/M2模型表现良好（如合成英文WER为2.496%），而M3（词级）显著变差（WER达16.494%）。说话率预测器在MRE上表现最佳为M2在中文测试的13.771%。实际意义：使高质量语音克隆摆脱了对参考音频转录的强依赖，极大扩展了应用场景，尤其是在处理无法转录的罕见语言或实时克隆场景。局限性：1）说话率预测器在中英文以外语言上的有效性未直接验证，其泛化性存疑。2）去除文本信息后，对说话人细微特征（如口音、情感）的迁移能力下降，论文未提出解决方案。3）跨语言测试集的语言覆盖范围和样本量有限。 🏗️ 模型架构 (图1. Cross-Lingual F5-TTS 训练框架。MMS强制对齐为训练数据生成词边界，左侧片段作为无转录的音频提示，右侧片段的梅尔谱被掩码用于预测) ...

DAIEN-TTS: Disentangled Audio Infilling for Environment-Aware Text-to-Speech Synthesis

📄 DAIEN-TTS: Disentangled Audio Infilling for Environment-Aware Text-to-Speech Synthesis #语音合成 #流匹配 #零样本 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #零样本学术质量 7.5/7 | 选题价值 6.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ye-Xin Lu（中国科学技术大学国家语音与语言信息处理工程研究中心）通讯作者：Yang Ai（中国科学技术大学国家语音与语言信息处理工程研究中心）作者列表：Ye-Xin Lu（中国科学技术大学国家语音与语言信息处理工程研究中心）、Yu Gu（未说明）、Kun Wei（未说明）、Hui-Peng Du（中国科学技术大学国家语音与语言信息处理工程研究中心）、Yang Ai（中国科学技术大学国家语音与语言信息处理工程研究中心）、Zhen-Hua Ling（中国科学技术大学国家语音与语言信息处理工程研究中心） 💡 毒舌点评亮点在于将语音-环境分离与流匹配音频填充相结合，首次在零样本框架下实现了对时间变化背景环境的独立控制，思路清晰且实验验证充分。短板是高度依赖预训练的语音-环境分离（SES）模块的性能，且推理时要求提供“纯”环境提示音频的假设在真实场景中可能较难满足，限制了其通用性。 🔗 开源详情代码：论文中未提供明确的代码仓库链接。仅提供了一个用于试听音频样本的示例页面。模型权重：未提及是否公开模型权重。数据集：训练使用了公开的LibriTTS和DNS-Challenge数据集。评估集使用了公开的SeedTTS test-en集并添加了SoundBible的环境音频。 Demo：提供了在线演示页面：https://yxlu-0102.github.io/DAIEN-TTS。复现材料：论文提供了一定的训练细节（数据集、步骤、硬件、批大小、模型部分参数），但缺少完整的训练脚本、优化器配置、声码器训练细节等，信息不算充分。论文中引用的开源项目：论文基于F5-TTS框架，并引用了Whisper-large-v3用于WER评估，WavLM-large用于说话人嵌入提取。 📌 核心摘要问题：现有的零样本语音合成（TTS）系统难以在合成语音时，独立且可控地改变背景声学环境（如从安静房间切换到嘈杂街道），特别是对于时间变化的环境。方法核心：本文提出DAIEN-TTS，一个基于解纠缠音频填充的环境感知零样本TTS框架。其核心是引入一个预训练的语音-环境分离（SES）模块，将带环境音的语音分解为干净语音和环境音频的梅尔谱。在训练时，对两者分别进行随机掩码，以干净语音谱、环境谱（部分掩码）和文本为条件，通过流匹配模型填充被掩码的完整环境语音梅尔谱。推理时，可使用任意说话人提示和任意环境提示进行合成。创新点：a) 首次提出一个能独立控制音色和时间变化背景环境的零样本TTS框架。b) 设计了基于交叉注意力的环境条件注入方案，并在推理时采用双无分类器指导（DCFG）和信噪比（SNR）自适应策略来增强可控性。c) 实验表明该方法在自然度、说话人相似度和环境保真度上均表现良好。主要实验结果：在SeedTTS测试集上，当使用静音环境提示时，DAIEN-TTS的词错率（WER）为1.93%，说话人相似度（SIM-o）为0.60，自然度（MOS）达3.84。当使用背景环境提示合成环境语音时，WER为2.83%，SIM-o为0.55，MOS为3.78，环境相似度（ESMOS）为3.65，均接近或达到人类录音水平。关键结果如下表所示（摘自论文Table 1）：模型 WER(%) ↓ SIM-o ↑ MOS ↑ SSMOS ↑ ESMOS ↑ 场景：静音环境提示 Human (上界) 2.14 0.73 3.91 3.72 - F5-TTS (Clean Spk. Prompt) 2.30 0.58 3.80 3.60 - F5-TTS (Env. Spk. Prompt) 2.87 0.49 3.09 2.92 - DAIEN-TTS 1.93 0.60 3.84 3.64 - 场景：背景环境提示 Human + Environment (上界) 2.80 0.70 3.86 3.81 3.72 DAIEN-TTS 2.83 0.55 3.78 3.73 3.65 实际意义：该技术为有声读物、虚拟现实、游戏等需要生成特定背景环境语音的场景提供了新的解决方案，增强了合成语音的表现力和沉浸感。主要局限性：a) 框架性能严重依赖预训练SES模块的分离质量，若分离不佳会直接影响合成效果。b) 训练和评估均基于预设的“干净语音-环境音频”配对数据，对于现实世界中无法获得纯净环境音的复杂场景，其适用性有待验证。c) 推理时要求提供纯环境音频提示，这在实际应用中可能不便获取。 🏗️ 模型架构 DAIEN-TTS的整体架构如图1所示，包含训练（左）和推理（右）两个流程。 ...

Deep Dubbing: End-to-End Auto-Audiobook System with Text-to-Timbre and Context-Aware Instruct-TTS

📄 Deep Dubbing: End-to-End Auto-Audiobook System with Text-to-Timbre and Context-Aware Instruct-TTS #语音合成 #流匹配 #端到端 #有声书生成 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #端到端 #有声书生成学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Ziqi Dai（北京建筑大学智能科学与技术学院，腾讯音乐娱乐Lyra实验室）† 通讯作者：Weifeng Zhao（腾讯音乐娱乐Lyra实验室）⋆， Ruohua Zhou（北京建筑大学智能科学与技术学院）⋆ 作者列表： Ziqi Dai†（北京建筑大学智能科学与技术学院，腾讯音乐娱乐Lyra实验室） Yiting Chen†（腾讯音乐娱乐Lyra实验室） Jiacheng Xu（腾讯音乐娱乐Lyra实验室） Liufei Xie（腾讯音乐娱乐Lyra实验室） Yuchen Wang（腾讯音乐娱乐Lyra实验室） Zhenchuan Yang（腾讯音乐娱乐Lyra实验室） Bingsong Bai（北京邮电大学） Yangsheng Gao（腾讯音乐娱乐Lyra实验室） Wenjiang Zhou（腾讯音乐娱乐Lyra实验室） Weifeng Zhao⋆（腾讯音乐娱乐Lyra实验室） Ruohua Zhou⋆（北京建筑大学智能科学与技术学院） 💡 毒舌点评亮点：该工作将“为角色从文本生成声音”和“根据上下文生成情感语音”这两个有声书制作的关键环节进行了系统性建模，并提出了Text-to-Timbre (TTT) 这一新颖任务及其流匹配解决方案。短板：其“端到端”的声明略显模糊，因为核心的上下文理解与指令生成依赖于一个外部的大语言模型，这限制了系统真正的自动化程度和独立性。 ...

Diverse and Few-Step Audio Captioning via Flow Matching

📄 Diverse and Few-Step Audio Captioning via Flow Matching #音频字幕生成 #流匹配 #音频生成 #高效生成 #可控生成 ✅ 6.5/10 | 前50% | #音频字幕生成 | #流匹配 | #音频生成 #高效生成学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：未说明（论文仅列出作者姓名，未明确标注第一作者）通讯作者：未说明作者列表：Naoaki Fujita（Panasonic Holdings Corporation, Osaka, Japan）、Hiroki Nakamura（Panasonic Holdings Corporation, Osaka, Japan）、Kosuke Itakura（Panasonic Holdings Corporation, Osaka, Japan） 💡 毒舌点评亮点：首次将流匹配（Flow Matching）引入自动音频字幕生成，实验证明其在大幅减少采样步数（最高25倍）的同时，能保持甚至超越扩散基线的准确性和多样性，效率提升显著。短板：研究局限于替换生成过程的“最后一公里”，模型架构（BART解码器、BEATs编码器）直接沿用前人工作；更关键的是，论文未开源代码与模型，且未提供训练硬件与时间，严重削弱了其实用价值和可复现性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用的是公开数据集Clotho和AudioCaps，但论文未说明其具体获取或预处理方式。 Demo：未提及。复现材料：提供了算法伪代码（Algorithm 1, 2）和主要训练超参数（优化器、学习率、batch size等）。但缺失模型架构细节（如层数、维度）、硬件信息、完整配置文件。论文中引用的开源项目：使用了预训练的 BEATs [22] 音频编码器和 BART [12] 语言解码器。评估工具使用了 aac-metrics 库。总结：论文中未提及开源计划。 📌 核心摘要要解决的问题：现有的基于扩散模型的多样化音频字幕生成方法，因需要数百步迭代去噪而导致推理计算成本高、速度慢，难以满足实时或大规模处理需求。减少步数则会显著损害生成质量。方法核心：提出首个基于流匹配的音频字幕生成框架（FAC），直接预测从噪声到字幕表示的确定性、线性传输路径，从而用少量采样步数完成生成。与已有方法相比新在哪里：完全用流匹配替代了扩散过程。与基于迭代去噪的扩散模型不同，流匹配学习的是近乎直线的概率路径，使得生成过程更高效、稳定。主要实验结果：在Clotho和AudioCaps数据集上，FAC在30步甚至10步采样下的准确性和多样性指标，与扩散基线（250步）相当或更优。例如，在Clotho上，10步FAC的SPIDEr（0.257）优于250步基线（0.247）。推理时间从每样本2.28秒（250步）降至0.19秒（10步），提速约12倍。通过调节训练时的噪声尺度σ，可以在不增加推理成本的情况下控制生成多样性。实际意义：为高效、可控的多样化音频字幕生成提供了新方案，降低了流式或实时应用中的延迟和计算开销。主要局限性：未开源代码和模型；未报告训练硬件与时间；作为首个应用，流匹配在音频字幕任务上的潜力和边界有待进一步探索；实验主要聚焦于生成过程，未改进音频编码器和语言解码器本身。 🏗️ 模型架构 FAC的整体架构遵循DAC-RLD流水线，如图1所示。其核心是用一个流匹配模块替代了原有的扩散去噪模块。 ...

EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis

📄 EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis #语音合成 #激活引导 #大语言模型 #流匹配 #轻量级 ✅ 7.0/10 | 前50% | #语音合成 | #激活引导 | #大语言模型 #流匹配学术质量 6.0/7 | 选题价值 1.2/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Li Zhou（香港中文大学，深圳分校）通讯作者：Haizhou Li（香港中文大学，深圳分校）作者列表：Li Zhou†（香港中文大学，深圳分校）、Hao Jiang†（香港中文大学，深圳分校）、Junjie Li（香港理工大学）、Tianrui Wang（天津大学）、Haizhou Li*（香港中文大学，深圳分校） 💡 毒舌点评亮点在于用仅10M参数（全微调的1/30）在情感表现力上超越了基线，且证明了通过调节引导系数α可实现情感强度的连续控制，这为参数高效的情感语��合成提供了一个优雅的方案。短板则是其“即插即用”的优势目前仅在一个中等规模、多情感的单语言数据集（ESD）上得到验证，对于更复杂的复合情感、跨语言场景或更大规模的基础模型的适用性有待考察。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用公开的ESD数据集，但未提供获取方式或预处理脚本。 Demo：未提及在线演示。复现材料：提供了关键方法框架、部分超参数（ε, α, 学习率, 轮数）和实验设置描述，但缺少优化器、batch size、硬件、完整数据处理流程等细节。论文中引用的开源项目：CosyVoice（骨干模型）、Whisper-Large-v3（ASR评估）、WavLM-Base（SpkSIM计算）、DNSMOS（质量评估）、emotion2vec（情感识别评估）。总结：论文中未提及开源计划。 📌 核心摘要这篇论文针对情感语音合成中模型难以直接建模情感特有潜在动态的问题，提出了EmoShift框架。其核心是在基于LLM的TTS模型中引入一个名为EmoSteer的轻量层，该层为每种目标情感学习一个特定的转向向量，用于在输出嵌入空间中捕获相对于中性表达的潜在偏移量。与以往通过缩放固定情感嵌入或依赖外部指导的方法不同，EmoShift直接学习并注入情感特异性的激活偏移，实现了更精确和一致的控制。在ESD数据集上的实验表明，EmoShift以仅10M的可训练参数，在情感分类准确率（如整体从69.68%提升至74.26%）和主观情感评分（Emo-MOS从3.67提升至3.96）上均优于零样本和全参数微调基线。此外，分析显示，通过在推理时调整缩放因子α，可以平滑调节情感强度。该方法的意义在于提供了一种参数高效、可解释且即插即用的情感控制方案。主要局限性在于实验仅在单一英文数据集和有限的五种情感上进行验证。 🏗️ 模型架构 EmoShift的框架如图2所示，其核心是在一个基于LLM的自回归语音合成模型（骨干为CosyVoice-300M-Instruct）中插入了一个EmoSteer层。 ...

Emotional Dimension Control in Language Model-Based Text-To-Speech: Spanning a Broad Spectrum of Human Emotions

📄 Emotional Dimension Control in Language Model-Based Text-To-Speech: Spanning a Broad Spectrum of Human Emotions #语音合成 #流匹配 #预训练 #零样本 #语音情感识别 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #预训练 #零样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度中 👥 作者与机构第一作者：Kun Zhou（阿里巴巴集团通义实验室，新加坡）通讯作者：未说明作者列表：Kun Zhou（阿里巴巴集团通义实验室，新加坡）、You Zhang（美国罗切斯特大学）、Dianwen Ng（阿里巴巴集团通义实验室，新加坡）、Shengkui Zhao（阿里巴巴集团通义实验室，新加坡）、Hao Wang（阿里巴巴集团通义实验室，新加坡）、Bin Ma（阿里巴巴集团通义实验室，新加坡） 💡 毒舌点评亮点在于将经典心理学理论（PAD模型）与前沿的语言模型TTS框架深度结合，实现了从离散情感标签到连续情感空间控制的优雅跳转，为情感语音合成提供了更富表现力的控制范式。短板是实验部分更像一场“理论验证秀”（如图2展示合成语音的声学特征与理论吻合），但在与当前最强系统（如使用大规模情感数据或更强解码方法的模型）的“硬碰硬”对比和系统性消融实验上显得保守和不足，使得其宣称的优势说服力打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用了公开的ESD和LibriTTS数据集。情感维度预测器的训练数据（ESD子集）是公开的，TTS训练数据（LibriTTS）也是公开的。 Demo：提供了在线演示页面：https://demos46.github.io/emotion_pad/ 复现材料：提供了模型架构描述、关键超参数（如ED预测器的训练设置、TTS模型各组件维度）、数据集规模等信息。但未提供完整的训练脚本、配置文件或预训练检查点。论文中引用的开源项目：引用了CosyVoice、HiFi-GAN、3D-Speaker（用于说话人嵌入）、WavLM、UMAP等开源模型和工具。 📌 核心摘要要解决什么问题：当前的情感语音合成（TTS）系统受限于数据集中的少量离散情感标签（如喜怒哀乐），无法覆盖人类丰富（理论上有约34000种）且微妙的情感光谱，导致生成语音的情感表达有限、不自然。方法核心是什么：本文提出一个基于语言模型的TTS框架，核心是引入情感维度（ED）预测器和连续情感维度控制。ED预测器利用心理学期理论（PAD模型：愉悦度-唤醒度-支配度），将语音数据集中的离散情感标签映射为连续的3维向量。在TTS训练和推理时，将ED向量作为额外条件输入语言模型，从而引导语音合成。与已有方法相比新在哪里：相比传统基于离散标签的监督学习或基于参考语音的风格迁移方法，本文方法无需在TTS训练阶段使用显式情感标签，仅通过连续的ED向量即可在推理时灵活控制生成语音的情感风格，且能探索训练数据中未出现过的情感组合。主要实验结果如何：在零样本情感克隆任务上，本文方法的语音自然度MOS（4.54）优于基线CosyVoice（4.36）。在情感可懂度（E-MOS）主观评估中，本方法在所有测试情感上得分均高于CosyVoice基线。XAB测试表明，系统能较好地区分PAD维度相近的情感对（如愤怒vs焦虑，正确匹配率约84%）。客观上，合成语音的音高和频谱通量统计特征与理论预期相符（如图2所示）。实际意义是什么：该框架使得TTS系统能够更精细、灵活地合成多样化的情感语音，无需依赖大规模标注数据，有望提升对话系统、有声读物、虚拟助手等应用的情感交互自然度和用户体验。主要局限性是什么：1) 情感维度预测器依赖于已有的离散情感标签数据集进行训练，其质量可能受限于原始标签的噪声和偏差；2) 实验评估中，与最先进的情感TTS系统（如CosyVoice的情感扩展版本EmoCtrl-TTS）的直接对比缺失，且缺乏关键模块的消融研究；3) 当前工作主要在英语单语种上进行验证，多语言适应性未探讨。 🏗️ 模型架构本论文的框架包含两个主要阶段：情感维度（ED）预测器训练和TTS模型训练/推理。 ...

Erasing Your Voice Before it’s Heard: Training-Free Speaker Unlearning for Zero-Shot Text-to-Speech

📄 Erasing Your Voice Before it’s Heard: Training-Free Speaker Unlearning for Zero-Shot Text-to-Speech #语音合成 #说话人识别 #流匹配 #音频安全 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #说话人识别 #音频安全学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Myungjin Lee (梨花女子大学 AI与软件学院) 通讯作者：Jiyoung Lee (梨花女子大学 AI与软件学院) 作者列表：Myungjin Lee (梨花女子大学 AI与软件学院), Eunji Shin (梨花女子大学 AI与软件学院), Jiyoung Lee† (梨花女子大学 AI与软件学院) （* 标记为共同第一作者，† 标记为通讯作者） 💡 毒舌点评这篇论文巧妙地将大语言模型中的“激活转向”思想移植到零样本TTS的安全场景，提供了一种“即插即忘”的优雅解决方案，免去了昂贵的重新训练，这是其最大的工程和实用价值。然而，方法的理论基石略显单薄——其核心假设“身份信息主要编码在FFN层”依赖于一篇同期引用的、尚未完全验证的分析，使得整个转向机制的普适性打上问号；此外，实验仅在F5-TTS上完成，对于其他TTS架构是否同样有效，仍是未知数。 🔗 开源详情代码：论文提供了代码和演示页面的链接：http://mmai.ewha.ac.kr/trus。是。模型权重：论文中未提及是否公开F5-TTS的预训练权重或TruS干预后的任何权重（因为TruS无需权重）。数据集：论文使用了公开数据集（Emilia的英文子集、LibriSpeech、CREMA-D），但未提及TruS评估所用的特定子集（如opt-out说话人列表）的获取方式。 Demo：论文提到“The demo and code are available on http://mmai.ewha.ac.kr/trus”，因此提供在线演示。是。复现材料：论文给出了部分超参数（如α=1.2, N=30），并进行了相关消融实验，但缺少详细的推理脚本、环境依赖（如F5-TTS的具体版本）、以及构建ID原型的具体操作脚本等复现材料。论文中引用的开源项目：主要依赖F5-TTS（[5]）作为基座模型。评估中使用了ECAPA-TDNN（[31]）计算SIM，Whisper large-V3（[32]）计算WER，emotion2vec（[33]）计算SIM-Emo。 📌 核心摘要要解决的问题：零样本文本到语音（TTS）模型能高度逼真地模仿任意说话人的声音，这带来了严重的隐私和安全风险，可能导致未授权的语音生成。现有应对方案如水印（事后追溯）、语音匿名化（身份替换）和基于训练的遗忘（成本高、无法处理未见说话人）均存在不足。本文旨在提出一种高效、可扩展的“拒绝生成”机制。方法核心：提出TruS，一个免训练的、在推理时进行干预的说话人遗忘框架。其核心思想是：在TTS模型内部，通过一组已知“保留”说话人的语料构建一个代表“正常”说话人身份的ID原型嵌入。当遇到请求“退出”（opt-out）的未知说话人时，计算其激活与ID原型的差异，得到一个身份特定的转向向量。在生成过程中，动态选择那些身份信号显著的层和时间步，将当前激活在转向向量方向上的投影分量减去，从而抑制该目标身份信息的输出，同时保留语言内容和韵律情感。与已有方法相比新在哪里：范式转变：从数据删除（重训练）转向推理时控制。免训练与即插即用：无需任何重训练或微调，可直接应用于现有TTS模型，极大降低了部署成本和时间。处理未见说话人：首次在零样本TTS遗忘任务中，能够有效处理训练集中未出现过的、来自外部的opt-out说话人请求，更具现实意义。动态与自适应：通过动态阈值（基于层间相似度统计）自动选择干预点，比固定规则的转向（如EmoSteer）更精细，避免了对生成质量的过度破坏。主要实验结果：在已见opt-out说话人上，TruS（SIM-SO: 0.477）与需要重训练的TGU（SIM-SO: 0.510）相比，在身份抑制上更有效，同时WER（语言保真度）更好（3.25 vs 4.03），且训练时间成本为零。但SGU（SIM-SO: 0.106）抑制更强，但破坏了保留说话人的语音质量（SIM-R大幅下降）。关键突破在于对未见opt-out说话人（LibriSpeech）的泛化能力：TruS将SIM-UO从基线的0.668显著降低至0.488，Spk-ZRF-UO从0.906提升至0.913，证明其可推广至未知身份。在情感数据集（CREMA-D）上，TruS在抑制未见说话人身份（SIM-UO: 0.131 vs 0.217）的同时，情感相似度（SIM-Emo）几乎无损（0.723 vs 0.732），表明能较好地保留非身份属性。消融研究表明，采用“μ+σ”阈值进行层选择能达到身份抑制与语音质量的最佳平衡；ID原型的保留说话人池大小N=30时综合性能最优。实际意义：为零样本TTS技术提供了一种用户驱动的、细粒度的隐私保护工具，允许个人明确拒绝其声音被合成，且该工具易于集成到现有系统中，为生成式语音AI的负责任部署提供了一种可扩展的技术方案。主要局限性：方法严重依赖“说话人身份信息主要编码在FFN层”这一先验假设，该假设的普适性有待验证。实验验证仅基于F5-TTS（一种基于DiT的流匹配模型）一种架构，其有效性是否能迁移到其他主流的零样本TTS模型（如自回归模型）尚不明确。对“未见说话人”的处理需要一个“opt-out说话人”的单句参考语音，这要求opt-out用户提供一段自己的录音作为凭证，可能存在额外操作门槛。 🏗️ 模型架构 TruS并非一个独立训练的模型，而是一个插入到预训练TTS模型（如F5-TTS）推理过程中的干预模块。其整体工作流程如图2所示。图2展示了TruS与TTS模型协同工作的流程： ...

FlashFoley: Fast Interactive Sketch2audio Generation

📄 FlashFoley: Fast Interactive Sketch2audio Generation #音频生成 #流匹配 #对抗训练 #实时处理 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #对抗训练 #实时处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Zachary Novack (UC San Diego; Sony Group Corporation, Japan) 通讯作者：Christian Simon† (Sony AI, USA) （论文中标注†为“Project lead”，通常可视为通讯作者）作者列表：Zachary Novack¹,²，Koichi Saito³，Zhi Zhong²，Takashi Shibuya³，Shuyang Cui²，Julian McAuley¹，Taylor Berg-Kirkpatrick¹，Christian Simon²†，Shusuke Takahashi²，Yuki Mitsufuji²,³ ¹ UC – San Diego ² Sony Group Corporation, Japan ³ Sony AI, USA 💡 毒舌点评亮点：这篇论文精准地切中了当前交互式音频生成工具的一个核心痛点——“精细控制”与“实时速度”不可兼得，并给出了一个工程上巧妙且相对完整的解决方案，首次将开源加速的草图到音频模型带入实时交互场景。短板：虽然方法组合很实用，但核心的“创新”更多是已有技术（草图控制、ARC后训练、流式生成）的整合与适配，缺乏根本性的理论突破；另外，文中“开源”的承诺尚未在论文发布时兑现，这削弱了其作为“首个开源”模型的即时影响力。 ...

FlowSE-GRPO: Training Flow Matching Speech Enhancement via Online Reinforcement Learning

📄 FlowSE-GRPO: Training Flow Matching Speech Enhancement via Online Reinforcement Learning #语音增强 #强化学习 #流匹配 #迁移学习 #基准测试 ✅ 7.5/10 | 前25% | #语音增强 | #强化学习 | #流匹配 #迁移学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：未说明（论文作者列表按顺序给出，但未明确标注第一作者）通讯作者：未说明（论文中未提供邮箱或通讯作者标识）作者列表：Haoxu Wang, Biao Tian, Yiheng Jiang, Zexu Pan, Shengkui Zhao, Bin Ma, Daren Chen, Xiangang Li（均隶属于 Tongyi Lab, Alibaba Group, China） 💡 毒舌点评亮点：作为将在线强化学习（GRPO）成功应用于流匹配语音增强的开创性工作，其提出的多指标奖励优化策略巧妙地缓解了“奖励黑客”问题，且仅需少量微调步数（5k步）即获得显著提升。短板：尽管技术细节详尽，但论文对代码和模型开源的完全沉默，大大削弱了其结果的可验证性和社区快速跟进的可能性；同时，多指标权重需精细调优也暴露了当前策略的脆弱性。 🔗 开源详情根据论文内容，总结开源情况如下：代码：论文中未提及任何代码仓库链接或开源计划。模型权重：未提及是否公开预训练或后训练的模型权重。数据集：使用了多个公开数据集（DNS2020, LibriTTS, WHAM!等），但论文未提供整合后的训练集获取方式。 Demo：未提及在线演示。复现材料：论文提供了非常详细的训练配置、模型结构、超参数设置（如DiT维度、层数、LoRA参数、学习率、窗口训练设置等）以及消融实验设置，这些信息对复现至关重要。论文中引用的开源项目：明确提到了使用预训练的HiFi-GAN声码器（来自CosyVoice2）和DiT架构。 📌 核心摘要本文旨在解决将在线强化学习（RL）有效应用于生成式语音增强（SE）模型后训练的难题。其方法核心是首次将组相对策略优化（GRPO）成功集成到基于流匹配（Flow Matching）的语音增强框架中，通过将确定性常微分方程（ODE）采样转换为随机微分方程（SDE）采样来引入RL所需的随机性，并设计了针对连续语音信号的损失函数。与以往使用离线方法（如DPO）或仅应用于离散Token的方法相比，本文创新性地实现了在线、无需修改原始架构的GRPO训练。主要实验结果表明，在DNS2020测试集上，与基线模型相比，所提多指标优化模型在无回声测试集上将整体质量（OVRL）从3.373提升至3.549（+0.176），说话人相似度从88.88%提升至90.43%，并显著减少了奖励黑客现象。该研究的实际意义在于为生成式音频模型的后训练提供了高效、实用的在线RL对齐方案。主要局限性在于多指标权重需人工调整，且论文未提供开源代码。 ...

Gelina: Unified Speech and Gesture Synthesis Via Interleaved Token Prediction

📄 Gelina: Unified Speech and Gesture Synthesis Via Interleaved Token Prediction #语音合成 #手势生成 #自回归模型 #流匹配 #多模态模型 ✅ 7.0/10 | 前50% | #语音合成 | #自回归模型 | #手势生成 #流匹配学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Téo Guichoux（ISIR, Sorbonne Université；STMS Lab – IRCAM, Sorbonne Université）通讯作者：未说明作者列表：Téo Guichoux（ISIR, Sorbonne Université；STMS Lab – IRCAM, Sorbonne Université）， Théodor Lemerle（STMS Lab – IRCAM, Sorbonne Université）， Shivam Mehta（KTH皇家理工学院）， Jonas Beskow（KTH皇家理工学院）， Gustav Eje Henter（KTH皇家理工学院）， Laure Soulier（ISIR, Sorbonne Université）， Catherine Pelachaud（ISIR, Sorbonne Université；CNRS）， Nicolas Obin（STMS Lab – IRCAM, Sorbonne Université） 💡 毒舌点评这篇论文的亮点在于其“交错token预测”的架构设计直觉上非常优雅，为多模态序列建模提供了一个统一且时序对齐的方案，并在同步性上取得了可观的实验结果。然而，其最大的短板在于“统一”的代价——它在语音生成质量上显著落后于最新的纯语音SOTA（如CosyVoice-2），在手势丰富度（如手指）上也进行了简化，这使其宣称的“统一”和“竞争”显得有些取舍过重，更像是一次有潜力的概念验证而非成熟的系统性方案。 ...