语音合成 | 语音/音乐/音频论文速递

Task-Vector Arithmetic for Emotional Expressivity Control in Language-Model-Based Text-to-Speech

📄 Task-Vector Arithmetic for Emotional Expressivity Control in Language-Model-Based Text-to-Speech #语音合成 7.9/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #参数高效微调 | arxiv 👥 作者与机构 Daniel O. Brito 和 Arnaldo Candido Junior 机构：圣保罗州立大学“儒利奥·德梅斯基塔·菲尔霍”（UNESP）生物科学、文学与精确科学研究所，巴西圣若泽-杜里奥普雷图。 💡 毒舌点评这篇论文做了一件有趣的事：在语音合成领域，它没有卷参数量，而是去卷一个“情感向量”应该加在哪儿。作者很诚实，先试了改模型权重、改编解码器嵌入、改离散Token，结果都不行，最后发现最有效的居然是直接在说话人嵌入（x-vector）上做算术。这就像发现想让一个演员表现出愤怒，与其重写他的大脑（权重），不如调整他的“气质签名”（x-vector）来得直接。方法上，这是一个清晰的、基于排除法的实证研究，并且提出了一个训练免费的跨说话人情感迁移方案。主要短板在于实验范围较窄（只在一个模型上验证），且部分评估指标（如emotion2vec）在跨语言场景下可能饱和，使得结论的普适性和绝对性能评估打了折扣。总的来说，它提供了一个巧妙的、低成本的实用思路，但离定义一个新范式还有距离。 📌 核心摘要本文研究了在基于语言模型的大规模文本到语音（LM-TTS）系统中，任务向量算术（Task-Vector Arithmetic）是否能实现跨说话人的情感控制。通过一个系统性消除研究，作者在Qwen3-TTS-12Hz-1.7B模型上测试了四种候选操作对象：模型权重（通过LoRA微调）、连续编解码器嵌入、离散编解码器Token以及由ECAPA-TDNN编码器产生的说话人嵌入（x-vector）。研究发现，情感韵律的主要载体是x-vector，而非模型权重或Token。基于此，作者提出了一种无需训练的方法：在x-vector空间进行多说话人均值质心算术。具体地，情感向量 \(\tau_{\text{emo}}\) 定义为情感与中性x-vector的质心差，并应用于目标说话人的中性x-vector：\(\mathbf{x}_{\text{new}} = \mathbf{x}(\text{target}, \text{neutral}) + \alpha \cdot \tau_{\text{emo}}\)。使用ESD（英语）提取 \(\tau\)，在emoUERJ（巴西葡萄牙语）上进行跨语言验证，结果显示，在英语未见说话人上，情感相似度（EECS）平均提升+0.29；在巴西葡萄牙语未见说话人上，提升+0.09。该方法在保持身份（WavLM SECS ≳0.88）和可懂度（WER ≈0）方面表现良好。这些结果为解决基于Token的TTS架构与质心算术的不兼容性提供了初步证据，表明当算术操作迁移至说话人嵌入时，该方法是可行的。 ...

UniVoice: A Unified Model for Speech and Singing Voice Generation

📄 UniVoice: A Unified Model for Speech and Singing Voice Generation #语音合成 8.7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.7/10 | 前25% | #语音合成 | #语音合成 | arxiv 👥 作者与机构 Junjie Zheng1， Huixin Xue2， Shihong Ren2， Chaofan Ding1， Hao Liu2， Zihao Chen1 1 Giant Network 2 Shanghai Conservatory of Music 💡 毒舌点评这篇论文瞄准了语音与歌声统一生成中的一个真实痛点——条件冲突，这个动机很好。其提出的因子化条件和学习null token的思路也足够巧妙，理论上很自洽，像一个优雅的“软件工程”解决方案。但是，作为顶会论文，理论深度略显不足，更像是为现有架构做的一个精妙适配，而非从第一性原理出发的突破。实验部分虽然全面，但评估细节（如测试集、人类评估协议）的透明度可以更高。总体而言，这是一篇扎实的“系统设计”论文，创新点清晰，工程价值明显，但理论贡献和颠覆性不足。 ...

CleanCodec: Efficient and Robust Speech Tokenization via Perceptually Guided Encoding

📄 CleanCodec: Efficient and Robust Speech Tokenization via Perceptually Guided Encoding #语音编码 #语音合成 #语音识别 #对比学习 8.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.8/10 | 前25% | #语音编码 | #自监督学习 | #语音合成 #语音识别 | arxiv 👥 作者与机构 Eugene Kwek (Pennsylvania State University), Feng Liu (Drexel University), Rui Zhang (Pennsylvania State University), Wenpeng Yin (Pennsylvania State University)。 ...

Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026

📄 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 #语音识别 #语音合成 #语音翻译 #多模态模型 #数据增强 #参数高效微调 #模型集成 10/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前10% | #语音识别 | #数据增强 | #语音合成 #语音翻译 | arxiv 👥 作者与机构 Enes Yavuz Ugan, Maike Züfle, Yuka Ko, Supriti Sinhamahapatra, Fabian Retkowski, Seymanur Akti, Jan Niehues, Alexander Waibel 1 Karlsruhe Institute of Technology (KIT) 2 Carnegie Mellon University ...

Read What You Hear: Reference-Free Hypotheses Evaluation with Acoustic Discrepancy

📄 Read What You Hear: Reference-Free Hypotheses Evaluation with Acoustic Discrepancy #语音识别 #语音合成 #自回归模型 #无监督学习 #鲁棒性 #多任务学习 8.6/10 | 创新 1.7/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 🔥 8.6/10 | 前25% | #语音识别 | #多任务学习 | #语音合成 #自回归模型 | arxiv 👥 作者与机构作者：Zhihan Li, Hankun Wang, Yiwei Guo, Bohan Li, Kai Xie, Yu Chen（论文中作者列表顺序与此不同，但姓名与邮箱可对应）机构：X-LANCE Lab, School of Computer Science, Shanghai Jiao Tong University, China；MoE Key Lab of Artificial Intelligence, Jiangsu Key Lab of Language Computing, China（合作机构） ...

AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following

📄 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following #语音合成 #强化学习 #多任务学习 10/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 10/10 | 前10% | #语音合成 | #强化学习 | #多任务学习 | arxiv 👥 作者与机构作者：Haitao Li（浙江大学，上海创新研究院），Tian Tan（上海交通大学），Yuguang Yang（腾讯混元），Shan Yang（腾讯混元），Xie Chen（上海交通大学，上海创新研究院）机构：浙江大学，上海创新研究院，上海交通大学，腾讯混元 💡 毒舌点评这篇工作立意不错，想解决音频生成评估中“打黑箱分”的痛点，把“整体判对错”拆解成“逐项查清单”。提出的动态Rubric范式思路清晰，构建的基准和语料库工作量不小，模型在自己的Benchmark上刷分效果显著。但是，细看之下，几个关键点还是让人不太放心：一是“动态”分解依赖的LLM（Qwen3-30B）本身就是个黑箱，分解质量直接决定了后续评估的上限，但论文对此缺乏深入的失败分析或敏感性研究。二是“硬负例”构造高度依赖LLM和另一个黑箱Gemini进行过滤和验证，这相当于用“魔法”检验“魔法”，过程的可靠性和可解释性存疑。三是作为奖励模型的应用实验，只在单一的InstructTTS场景（DiTAR模型）上做了初步验证，声称“显著提升”，但缺乏与标准RLHF或其他奖励建模方法的直接对比，说服力打了折扣。最后，论文宣称解决了“缺乏多领域基准”的问题，但其Benchmark的构建本身也受限于现有生成模型的能力天花板（如Mix子集全是真实样本），其评估结论的泛化性需要打个问号。总体而言，是一篇系统性较强、有一定启发性的音频评估工作，但部分环节的“自证”逻辑和实验深度还有提升空间。 📌 核心摘要本文针对指令跟随音频生成中评估方法不足的问题（现有方法依赖LLM整体评分，缺乏可解释性和细粒度诊断能力），提出了一套完整的解决方案：1）提出了一个动态的、基于评分项（Rubric）的评估范式，能将复杂指令分解为多个可验证的二元评分项，并聚合为对齐分数；2）构建了首个跨领域（语音、声效、音乐、混合）的双语评估基准AnyAudio-Judge Bench（7920样本），特别设计了包含指令交换和属性扰动的难负例；3）构建了大规模（105K样本）的训练语料库AnyAudio-Judge Corpus，包含评分项标注和思维链推理链；4）训练了专用的评估模型AnyAudio-Judge，采用SFT+GRPO两阶段训练。实验表明，该模型在自有基准上显著优于SOTA基线（包括使用动态评分项提示的版本），在外部数据集上也表现出更强的相关性，并且作为奖励模型能有效提升下游InstructTTS任务的强化学习效果。 🔗 开源详情代码：https://github.com/CuCl-2/AnyAudio-Judge （论文摘要及第1节末尾明确提供）。模型权重：论文未提及AnyAudio-Judge评估模型权重的独立下载链接。仅指出其初始化自Qwen3-Omni-30B-A3B-Captioner，并提供了该初始化模型的链接（来自Yang et al., 2025）。数据集：论文明确指出AnyAudio-Judge Bench (7,920样本) 和 AnyAudio-Judge Corpus (105K样本) 通过上述GitHub仓库提供。 Demo：论文未提及在线演示链接。复现材料：论文附录（Appendix A-C）提供了所有关键的提示词模板，包括基准构建的负例构造与过滤（Tables 6-10）、指令分解与过滤（Tables 11-12）、以及评估时的两种Judge提示（Tables 13-14）。训练配置（如学习率、批大小、GPU数量、LoRA参数等）在第4.3节详细说明。这些信息应包含在上述GitHub仓库中。论文中引用的开源项目：论文引用了大量开源数据集、模型和工具，但在正文和附录中均未提供这些项目的具体链接。具体引用情况见“已有分析结果”中的列举，此处不重复。这些引用的开源项目本身是否提供链接，取决于对应论文的发布情况。 🏗️ 方法概述和架构本文提出的方法是一个从评估范式、数据到模型的完整框架，核心架构包含三个部分：动态Rubric评估范式、大规模语料构建流水线和两阶段训练的专用评估模型。 ...

Benchmarking Speech-to-Speech Translation Models

📄 Benchmarking Speech-to-Speech Translation Models #语音合成 #语音识别 #基准测试 #多模态模型 #低资源 8.7/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.7/10 | 前25% | #语音合成 | #语音识别 | #基准测试 #多模态模型 | arxiv 👥 作者与机构 Alkis Koudounas†, Hayato Futami†, Quentin Jodelet†, Osamu Take†, Shinji Watanabe‡, Emiru Tsunoo† †Sony Group Corporation, Japan ‡Carnegie Mellon University, USA 💡 毒舌点评这是一篇扎实的“元研究”（meta-research）论文。优点很明显：S2ST领域确实急需一个统一的评估标准，作者们以惊人的工程量（1248个配置！）构建并发布了这个COMPASS框架，这种“苦力活”对于社区发展的价值毋庸置疑。然而，审稿人需要清醒地认识到，这篇论文的核心贡献在于“测量工具”和“大规模实证”，而非提出新的翻译或合成算法。因此，它的“创新性”应相对于评估框架领域来评判，而非模型架构领域。论文的实验设计非常全面，但其结论在某种程度上依赖于特定的基准数据集（FLEURS， CVSS），这在作者自己提出的局限性中已经承认。最大的短板在于开源状态：承诺的工具包代码尚未公开，这严重影响了论文的即时可用性和可复现性。总体而言，这是一篇对社区有用的基础设施论文，但距离一个“完美”的基准评估还存在距离。 ...

Diffusion-Based Heart Sound Generation: Evaluation with Physiological Signal Metrics, Classifiers, and Expert Listening

📄 Diffusion-Based Heart Sound Generation: Evaluation with Physiological Signal Metrics, Classifiers, and Expert Listening #语音合成 #扩散模型 #生成模型 7.1/10 | 创新 1/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.1/10 | 前50% | #语音合成 | #扩散模型 | #生成模型 | arxiv 👥 作者与机构 Xinqi Bao: KTH Royal Institute of Technology, Stockholm, Sweden; Karolinska Institutet (KI), Stockholm, Sweden Jia Bi: Rutherford Appleton Laboratory, United Kingdom Xin Chen: Peng Cheng Laboratory, China Ernest Nlandu Kamavuako: King’s College London, United Kingdom Saikat Chatterjee: KTH Royal Institute of Technology, Stockholm, Sweden ...

EntangleCodec: A Unified Discrete Audio Tokenizer via Semantic-Acoustic Entanglement

📄 EntangleCodec: A Unified Discrete Audio Tokenizer via Semantic-Acoustic Entanglement #语音合成 #自监督学习 #预训练 8.6/10 | 创新 1.8/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0/1.5 🔥 8.6/10 | 前10% | #语音合成 | #自监督学习 | #预训练 | arxiv 👥 作者与机构 Hui Li, Yangfan Gao (共同一作), Junlin Shang, Changhao Jiang, Tao Gui, Qi Zhang, Xuanjing Huang. 复旦大学. 联系方式：hui_li25@m.fudan.edu.cn. 💡 毒舌点评这篇论文野心不小，想用一个“纠缠”的统一模型搞定理解、重建、生成，避免双流架构的冗余。核心想法——用丰富文本caption而非ASR transcript来对齐声学和语义特征——确实抓住了当前音频tokenizer“重声学轻语义”的痛点，出发点很好。实验设计也比较扎实，用了受控对比（相同LLM骨干）来隔离tokenizer质量的影响，0.6B小模型挑战13B大模型的故事讲得很有冲击力。但有几个“但是”必须指出：1）“统一”的代价是什么？论文没有深入讨论在极端任务需求（如超高保真度音乐重建 vs. 复杂语义推理）下，这种纠缠表示是否会成为瓶颈，还是说它只是个“中庸”的解决方案？2）与SOTA的比较存在选择性：在重建质量上，论文承认落后于XCodec2，但通过“综合表现”和“统一性”的论述巧妙地转移了焦点；在理解任务上，虽然对比了连续表示模型，但未深入分析离散tokenizer与连续encoder在信息瓶颈和效率上的本质差异，使得“22倍参数效率”的claim虽然震撼但机制解释不足。3）论文自述的“有限细粒度语义建模”和“有限的大规模探索”是真实存在的软肋，尤其是在强调“表示质量与模型规模同等重要”的结论下，缺少更大规模（如>8B）的验证略显说服力不足。总的来说，是一篇扎实的、有明确贡献的工作，但离“完美解决统一问题”还有距离，更适合被视为一个有力的baseline而非终极方案。 ...

Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation

📄 Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation #音频生成 #语音合成 #音乐生成 #多模态模型 #课程学习 #扩散模型 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 0/1.5 ✅ 7/10 | 前25% | #音频生成 | #课程学习 | #语音合成 #音乐生成 | arxiv 👥 作者与机构作者：Ye Tao, Lupeng Liu, Xuenan Xu, Jiasun Feng, Jiarui Wang, Ying Qin, Shuiyang Mao, Wei Liu, Shuai Wang 机构：南京大学智能科学与技术学院，Video Rebirth，上海交通大学，北京交通大学，上海人工智能实验室 ...