语音合成 | 语音/音乐/音频论文速递

Bridging the SEA Gap: An Initial Benchmark for Neural Audio Codec-Synthesized Speech Deepfakes in South-East Asian Languages

📄 Bridging the SEA Gap: An Initial Benchmark for Neural Audio Codec-Synthesized Speech Deepfakes in South-East Asian Languages #语音合成 #语音识别 #多模态模型 #低资源 8.2/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.2/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 #低资源 | arxiv 👥 作者与机构论文作者为 Orchid Chetia Phukan (IIIT-Delhi, 通讯作者), Girish (IIIT-Delhi, UPES), Mohd Mujtaba Akhtar (IIIT-Delhi, VBSPU), Arun Balaji Buduru (IIIT-Delhi)。所属机构为印度信息技术学院德里分校（IIIT-Delhi）、UPES 和 VBSPU。 ...

Dynamic Prosody Prediction in LLM-based TTS for Improving Speaker Similarity

📄 Dynamic Prosody Prediction in LLM-based TTS for Improving Speaker Similarity #语音合成 #大语言模型 7.6/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.6/10 | 前25% | #语音合成 | #大语言模型 | arxiv 👥 作者与机构作者: Zhenwei Mou (1, †), Liping Chen (1, †, 通信作者), Yajun Hu (2), Zhen-Hua Ling (1), Xin Fang (2), Jianqing Gao (2) 机构: 1. University of Science and Technology of China, Anhui, China; 2. iFLYTEK, Anhui, China. 资助信息: 该工作得到了国家重点研发计划项目2024YFE0217200、香港特区创新科技基金MHP/048/24以及中国国家自然科学基金（Grant 62506349和U23B2053）的部分支持。 💡 毒舌点评这篇论文的动机是清晰的，指出了现有多数基于LLM的TTS方法在说话人相似度上的一个短板——风格/韵律的静态或隐式建模。提出的动态预测范式在思路上是正确的，且实验设计相对全面（主观+客观，情感+韵律，自有数据+开源模型对比）。然而，作为一篇寻求顶级会议认可的论文，其“新颖性”的边界值得商榷。动态条件生成本身在序列建模中并不新鲜，核心创新点在于将“已生成语音”作为“韵律预测”的一个额外条件输入，这是一个具体的技术改进，但离“范式突破”尚有距离。论文最大的软肋在于缺乏深度分析和理论支撑。例如，动态预测为何比静态预测好？是因为捕捉了更长程的依赖，还是因为避免了错误累积？文中未做任何分析。实验部分虽然全面，但有些结果（如AISHELL-3上偏好测试的微弱优势）显得说服力不足。此外，代码的可复现性依赖于第三方框架CosyVoice，这无疑增加了验证成本。总体而言，这是一篇扎实但缺乏令人眼前一亮洞察的“增量式”工作，在顶会激烈的竞争环境中，可能难以获得最高评价。 ...

Joycent: Diffusion-based Accent TTS without Accented Phone Prediction

📄 Joycent: Diffusion-based Accent TTS without Accented Phone Prediction #语音合成 #扩散模型 #自监督学习 #数据增强 6.8/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.8/10 | 前50% | #语音合成 | #自监督学习 | #扩散模型 #数据增强 | arxiv 👥 作者与机构作者：Xintong Wang, Ye Wang。机构未明确提及。 💡 毒舌点评这篇论文解决的是一个实际问题：如何更自然地合成带口音的语音，而不是依赖笨拙的两阶段文本转换。想法直接，用扩散模型和端到端的方式绕过口音音素预测，是个合理的思路。WhisAID的设计，特别是加入GRL来解耦说话人信息，显示了作者对问题本质（口音与身份纠缠）的理解。然而，论文的亮点主要集中在“做了这个事”和“在特定任务上比基线好”，而非带来了颠覆性的方法论创新。核心方法（扩散TTS + 条件注入）并非原创，创新主要在于针对口音TTS场景的特定组件整合和应用。实验上，只验证了新加坡华语这一个目标口音，严重限制了结论的普适性。作者自称“显著优于”，但基线选择（MacST依赖第三方GPT生成文本和商业API合成，CosyVoice3仅做了基础微调）使得比较的公平性和说服力打折扣。WhisAID提取的“口音嵌入”到底学到了什么，除了分类和相似度外，缺乏更深入的分析。总的来说，这是一篇扎实的“系统论文”或“应用论文”，但距离顶会所追求的突破性贡献还有距离。 📌 核心摘要 Joycent是一种基于扩散模型的口音语音合成框架，它绕过了传统方法中需要先预测口音音素序列的步骤。系统直接接收标准音素序列、一个说话人参考音频和一个目标口音参考音频，输出带有该目标口音的语音。其核心是两个关键组件：WhisAID（用于从参考音频中提取纯化的口音嵌入）和一个修改后的Grad-TTS文本编码器（通过CLN将口音和说话人信息注入语言表示）。实验表明，该方法在合成新加坡华语口音时，在口音相似度等关键指标上优于基于文本转换或指令的基线方法，同时保持了与基线相当的说话人相似度。 🔗 开源详情代码：https://github.com/oshindow/Joycent-code 模型权重：论文中未提及单独发布的模型权重链接。预训练模型依赖包括Whisper、FACodec等。数据集： Magichub Multi-Accents corpus: https://magichub.com/datasets/ （需从平台获取） Magichub-SG dataset: https://magichub.com/datasets/singaporean-chinese-conversational-speech-corpus （需从平台获取） AISHELL-3: 论文未提供链接，为公开数据集。 CSMSC: https://www.data-baker.com/open_source.html Demo：未提及在线演示链接。复现材料：论文提供了详细的实验设置、超参数和训练步数，结合开源代码，基本可以复现主要实验。复现主要依赖论文描述、代码和公开的预训练模型/数据集。 🏗️ 方法概述和架构 Joycent的整体架构基于Grad-TTS，并包含两个主要部分：口音与说话人信息解耦提取模块（WhisAID）和融合这些信息的口音TTS生成模块（Joycent）。其流程如论文图1所示。 ...

Pixel-TTS: Image based Text Rendering for Robust Text-to-Speech

📄 Pixel-TTS: Image based Text Rendering for Robust Text-to-Speech #语音合成 #鲁棒性 #低资源 7.5/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前50% | #语音合成 | #鲁棒性 | #低资源 | arxiv 👥 作者与机构 Arigala Adarsh, Gangwar Arjun, Umesh Srinivasan, Kementchedjhieva Yova 机构：1 SPRING Lab, Indian Institute of Technology, Madras, India; 2 MBZUAI, UAE ...

BayLing-Duplex: Native Full-Duplex Speech Dialogue with a Single Autoregressive LLM

📄 BayLing-Duplex: Native Full-Duplex Speech Dialogue with a Single Autoregressive LLM #语音合成 #语音识别 #自回归模型 9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 9/10 | 前10% | #语音合成 | #语音识别 | #自回归模型 | arxiv 👥 作者与机构论文有三位作者：Qingkai Fang、Shoutao Guo、Yang Feng。他们都隶属于中国科学院计算技术研究所（ICT/CAS）的智能信息处理重点实验室、中国科学院AI安全重点实验室以及中国科学院大学。 💡 毒舌点评这篇论文在“如何让LLM学会实时对话”这个问题上给出了一个相当聪明的答案。它没有像Moshi那样另起炉灶搞一套复杂的双流并行架构，而是巧妙地在现有的单工LLM（GLM-4-Voice）上“打补丁”——通过精心设计的多通道交错序列和四个特殊令牌，把“什么时候该说话、什么时候该闭嘴、什么时候该被打断”这些复杂决策，统统变成了LLM最擅长的“下一个词预测”游戏。这个想法非常优雅，工程上也极其友好，40万样本微调就能从单工变全双工，成本控制堪称典范。实验结果也足够亮眼，尤其是在轮流和打断的成功率上碾压了Moshi，证明了“内化决策”的有效性。然而，它的软肋也很明显：所有实验都在干净、无噪、单人的合成语音上进行，这就像在无菌实验室里测试越野车，真正开上马路（复杂现实环境）表现如何，谁也不知道。此外，0.8秒的固有延迟虽然被提及，但分析深度不足，对于追求极致响应速度的应用来说，这可能是一个硬伤。总体而言，这是一篇工程思维出色、架构设计巧妙的工作，但其宣称的“原生全双工”能力，还需要在更“脏”的真实世界数据中经受考验。 📌 核心摘要本文提出了BayLing-Duplex，一个基于单一自回归大语言模型（LLM）的原生全双工语音对话系统。该系统通过一种创新的多通道交错序列布局，将用户语音、助手文本和助手语音三个流以固定块大小交错组织，并引入[SILENCE]、[ASSISTANT]、[PAD]、[EPAD]四个对话状态特殊令牌。这一设计将全双工对话中的轮流说话和打断决策，完全转化为标准LLM的下一个令牌预测任务，无需任何额外的分类头、状态机或外部语音活动检测（VAD）模块。模型以GLM-4-Voice为骨干，仅通过在40万全双工合成样本上进行有监督微调（SFT）和直接偏好优化（DPO）两阶段训练，便实现了从单工到全双工的能力转换。实验表明，BayLing-Duplex在轮流说话成功率（92.0%）和打断成功率（100%）上大幅超越了基线模型Moshi，并在语音问答等任务上保持了与单工版本相当或更优的性能，验证了全双工建模并未以牺牲回复质量为代价。 🔗 开源详情代码：https://github.com/BayLing-Models/BayLing-Duplex 模型权重：论文中未直接提供独立的模型权重下载链接，但根据摘要中的信息，代码和模型已发布于上述GitHub仓库。模型基于GLM-4-Voice检查点训练。数据集：论文中描述的数据集为基于Alpaca和UltraChat数据集，通过Llama-3.3-70B-Instruct改写并使用CosyVoice合成的多轮对话语音语料，后被转换为全双工格式。原始合成数据集的获取链接论文中未提及。 Demo：论文中未提及。复现材料：论文中提供了详细的训练配置。SFT阶段：在400K全双工样本上训练1个epoch，批量大小32，峰值学习率1e-5，使用带10%预热的余弦学习率调度。DPO阶段：训练200步，峰值学习率3e-7，β=0.5，λ_ftx=0.5，使用带5%预热的余弦学习率调度。训练代码基于LLaMA-Factory。但检查点文件的具体下载链接论文中未提及。论文中引用的开源项目： GLM-4-Voice: https://github.com/THUDM/GLM-4-Voice Whisper-large-v3: https://github.com/openai/whisper CosyVoice: https://github.com/FunAudioLLM/CosyVoice LLaMA-Factory: https://github.com/hiyouga/LLaMA-Factory 🏗️ 方法概述和架构 BayLing-Duplex的核心架构是在已有的GLM-4-Voice单工语音LLM基础上，通过设计一种新颖的序列布局来赋予其全双工能力，而不引入新的网络模块。 ...

FoleyGenEx: Unified Video-to-Audio Generation with Multi-Modal Control, Temporal Alignment, and Semantic Precision

📄 FoleyGenEx: Unified Video-to-Audio Generation with Multi-Modal Control, Temporal Alignment, and Semantic Precision #语音合成 #多模态模型 #扩散模型 #数据增强 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7/10 | 前50% | #语音合成 | #数据增强 | #多模态模型 #扩散模型 | arxiv 👥 作者与机构作者：Shiyao Wang, Xijuan Zeng, Hui Wang, Shiwan Zhao, Feng Deng, Chen Zhang, Yong Qin。机构：南开大学先进交叉科学研究院，快手科技。论文注明工作于王诗瑶在快手科技实习期间完成。 ...

Mask, Sample, Revise: A Revisable CTMC Inference Stack for Guided Discrete Flow Matching Text-to-Speech

📄 Mask, Sample, Revise: A Revisable CTMC Inference Stack for Guided Discrete Flow Matching Text-to-Speech #语音合成 #概率图模型 #自监督学习 #低资源 #数据增强 6.8/10 | 创新 1.2/2 | 严谨 1.0/1.5 | 实验 1.2/1.5 | 清晰 1.2/1 | 影响 1.0/1.5 | 开源 0.5/1.5 | 复现 0.8/0.5 | 工程 1.0/1.5 ✅ 6.8/10 | 前25% | #语音合成 | #概率图模型 | #自监督学习 #低资源 | arxiv 👥 作者与机构作者: Alef Iury Siqueira Ferreira, Lucas Rafael Stefanel Gris, Luiz Fernando de Araújo Vidal, Frederico Santos de Oliveira, Christopher Dane Shulby, Anderson da Silva Soares, Arlindo Rodrigues Galvão Filho 机构: 巴西米纳斯吉拉斯联邦大学（根据作者背景推断，论文原文未明确列出机构全称） ...

Unsupervised Approaches for Global Prosodic Embedding Extraction

📄 Unsupervised Approaches for Global Prosodic Embedding Extraction #语音合成 #语音识别 #自监督学习 #对比学习 7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.8/10 | 前25% | #语音合成 | #自监督学习 | #语音识别 #对比学习 | arxiv 👥 作者与机构作者：Martin Meza, Luciana Ferrer, Pablo Riera 机构：1 Departamento de Computación, FCEyN, Universidad de Buenos Aires (UBA), Argentina; 2 Instituto de Investigación en Ciencias de la Computación (ICC), CONICET-UBA, Argentina ...

Emo-LiPO: Listwise Preference Optimization for Fine-Grained Emotion Intensity Control in LLM-based Text-to-Speech

📄 Emo-LiPO: Listwise Preference Optimization for Fine-Grained Emotion Intensity Control in LLM-based Text-to-Speech #语音合成 #情感语音合成 9.3/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.3/10 | 前50% | #语音合成 | #情感语音合成 | arxiv 👥 作者与机构第一作者：Yihang Lin（香港中文大学（深圳））；通讯作者：Li Zhou（香港中文大学（深圳））；共同作者包括Congwei Cao, Dongchu Xie（香港中文大学（深圳））；Xiaoxue Gao（新加坡科技研究局）；Chen Zhang, Haizhou Li（新加坡国立大学、深圳大数据研究院、深圳湾区研究院）。主要单位为中国香港中文大学（深圳）。 💡 毒舌点评这是一篇动机明确、工程性较强的系统论文，但存在以下核心问题：创新性有限：将列表偏好优化（LiPO）应用于情绪强度控制，是一个直接且合理的迁移，但缺乏对LiPO本身或情绪建模的算法层面新贡献。核心创新更偏向“应用新场景”和“构建新数据集”。理论深度不足：论文声称将问题“formulate as a learning-to-rank problem”，但方法描述更像一个启发式的列表构建和损失设计，缺乏对LTR理论在语音生成任务中的适配性分析。实验天花板与claim：在ESD-plus这一自建数据集上进行评估，虽然必要，但难以客观衡量泛化能力。与SOTA的比较局限于有限的自实现基线（如Emo-DPO的几种变体），未与更广泛的非LLM TTS或最新情感TTS系统比较。论文声称“significantly improves”，但绝对指标提升有限（如Recall-ft从37.21到39.54），且人类评估的胜率在面对强基线（如Emo-DPO (I)）时优势减弱。细节可复现性：尽管提供了代码和数据集链接，但论文对核心模型（CosyVoice-300M-Instruct）的具体微调配置、超参数搜索过程、人类评估的具体协议（如标注者间一致性）描述不足，影响严格复现。局限性挖掘浅：论文结论过于乐观，未深入讨论列表偏好监督在生成长语音或更复杂情感（如混合情感）时的潜在问题，也未讨论自建数据集可能引入的偏置（如使用TTS合成监督数据，而非自然语音）。 📌 核心摘要本文针对LLM基TTS系统在利用文本提示进行细粒度情绪强度控制时存在的“语义-声学鸿沟”问题，提出了Emo-LiPO框架。该方法将情绪强度控制任务建模为一个学习排序问题，采用列表偏好优化（LiPO）来对齐文本提示的相对情绪强度与生成的语音。其核心在于通过一个规则构建的、包含同情绪不同强度、中性及反例语音的偏好列表，以及一个距离感知的加权损失函数，显式建模全局强度排序。为支持该任务，论文构建了ESD-plus多说话人数据集，包含45，500个带有明确强度变化（3级）的语音样本。实验表明，在ESD-plus数据集上，Emo-LiPO在情绪相关性指标（特别是Recall-ft）和人类评估胜率上优于监督基线和DPO变体，尤其在高强度水平优势明显，并能保持语音质量。 ...

From Tokens to Faces: Investigating Discrete Speech Representations for 3D Facial Animation

📄 From Tokens to Faces: Investigating Discrete Speech Representations for 3D Facial Animation #语音合成 #自监督学习 #对比学习 7.9/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #自监督学习 | #对比学习 | arxiv 👥 作者与机构作者：Pedro R. Correa, Olivier Perrotin, Samir Sadok, Paula D. P. Costa, Thomas Hueber 机构： Univ. Estadual de Campinas (UNICAMP), Brazil Univ. Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab, France Inria at Univ. Grenoble Alpes, CNRS, LJK, France 💡 毒舌点评这篇工作做了一个工整的“排列组合”实验，试图回答“哪种语音表征最适合驱动人脸”这个基本问题。优点在于实验设计清晰，覆盖了主要表征类型，且提出了一个讨巧的AVTTS概念。然而，其核心发现——“编码音素信息的表征效果好”——几乎是一个基于直觉的结论，论文更多是在验证而非突破。探测分析部分试图挖得更深，但方法（线性回归、离散化聚类）略显简单，难以充分揭示复杂的映射关系。解码器架构的选择（GRU vs. 基础Transformer）也落后于当前扩散模型主导的前沿。总的来说，这是一篇扎实的“观测报告”，但离顶会论文所期望的“开创性洞察”或“强大新方法”还有距离。更适合作为一份详尽的baseline分析或技术报告。 ...