语音合成 | 语音/音乐/音频论文速递

NüshuVoice: Reviving the Voice of Endangered Nüshu with Pitch-Aware Text-to-Speech

📄 NüshuVoice: Reviving the Voice of Endangered Nüshu with Pitch-Aware Text-to-Speech #语音合成 #变分自编码器 #生成对抗网络 #低资源 #多任务学习 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7/10 | 前50% | #语音合成 | #变分自编码器 | #生成对抗网络 #低资源 | arxiv 👥 作者与机构 Hongkun Yang (1), Xinhui Yi (2), Xiyan Zhao (2), Yibo Meng (3), Lionel Z. Wang (2), Lixu Wang (4), Yaqi Zhang (5), Ruiqi Chen (6), Xuanyue Zhao (4), Lanxin Zhang (4), Yu Zeng (7), Weijia Chu (2), Yiming Ma (8), Chenyu Liu (2), Jianghao Lin (7), Xin Xu (2) ...

OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages

📄 OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages #语音合成 #低资源 #数据集 #模型评估 #流匹配 #语音生成 #基准测试 8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前25% | #语音合成 | #低资源 | #数据集 #模型评估 | arxiv 👥 作者与机构 David Guzmán1,2, Luel Hagos Beyene3,4, Jesujoba Oluwadara Alabi5, Yejin Jeon1,2, Dietrich Klakow5, David Ifeoluwa Adelani1,2,6 1 McGill University 2 Mila - Quebec AI Institute 3 AIMS Research and Innovation Centre 4 NM-AIST 5 Saarland University 6 Canada CIFAR AI Chair ...

Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion

📄 Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion #语音合成 #语音增强 #图神经网络 #多模态模型 #数据增强 6.5/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.5/10 | 后50% | #语音合成 | #图神经网络 | #语音增强 #多模态模型 | arxiv 👥 作者与机构 Rashini Liyanarachchi, Rachael Mackay, Alison Short, Aditya Joshi, Erik Meijering 1 University of New South Wales (UNSW), Sydney, Australia 2 Western Sydney University, Sydney, Australia 3 Resourced Music Therapy, Sydney, Australia ...

TLDR: Compressing Audio Tokens for Efficient Autoregressive Text-to-Speech

📄 TLDR: Compressing Audio Tokens for Efficient Autoregressive Text-to-Speech #语音合成 #自回归模型 #参数高效微调 #模型压缩 8.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.2/10 | 前25% | #语音合成 | #参数高效微调 | #自回归模型 #模型压缩 | arxiv 👥 作者与机构 Yejin Lee, Junwon Moon, Hyoeun Kim, Hyunjin Choi：成均馆大学（Sungkyunkwan University） Heeseung Kim：首尔市立大学（University of Seoul） Kyuhong Shim：成均馆大学（Sungkyunkwan University） 💡 毒舌点评这篇论文的立意很好，直击了当前AR-TTS模型“又慢又占内存”的痛点。方法设计上，“换汤不换药”（用patch替代token）的思路虽然不算石破天惊，但胜在实用，能直接嫁接到现有模型上，工程价值明显。然而，几个“但是”不得不提：1) 实验上有点“温室里的花朵”，只在CosyVoice3这一个“温室”里做实验，数据也是相对纯净的LibriTTS，面对更多样、更嘈杂的现实数据时，性能如何是个问号；2) “固定patch大小”像是给模型戴上了镣铐，语音的疏密变化明显，自适应patch才是更优雅的解法；3) 主观评测就找了25个英语母语者，这个样本量在顶会论文里略显寒酸，说服力打了折扣。总的来说，这是一篇扎实的工程优化论文，但离“令人眼前一亮”的理论突破或全面系统的实验验证还有距离。 ...

What Makes Synthetic Speech Sound Sarcastic? A Prosody-Controlled Perception Study

📄 What Makes Synthetic Speech Sound Sarcastic? A Prosody-Controlled Perception Study #语音合成 7.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.5/10 | 前25% | #语音合成 | #语音合成 | arxiv 👥 作者与机构 Zhu Li, Shekhar Nayak, Matt Coler Speech Technology Lab, University of Groningen, The Netherlands {zhu.li, s.nayak, m.coler}@rug.nl 💡 毒舌点评这篇论文的出发点很好——用可控TTS来拆解韵律线索，这是个扎实的方法论贡献。但读下来，最大的槽点在于“可控”的精度问题。论文声称实现了“正交”刺激，但承认通过自然语言提示控制TTS，无法完全隔离单个维度，只能靠事后统计验证“近似正交”。这就像用语言指挥一个AI厨师“要咸但不能影响甜度和辣度”，最终菜的味道还是个黑箱混合物。其次，人类实验部分依赖在线问卷和自我报告的“近母语水平”，数据可靠性存疑。最令人皱眉的是模型评估部分，用一个大模型去“模拟参与者”，然后得出“人类与模型权重不同”的结论——这简直是用模型的胡言乱语去对比人类的感知，比较的基线本身就不稳固。说白了，论文在方法上是创新的，但在执行和论证的严谨性上充满了妥协和含糊其辞，把一个本可以更硬核的感知实验做成了一篇略显疲软的“demo”论文。 📌 核心摘要本研究旨在解决现有讽刺感知研究中自然语音韵律线索共变、难以隔离单一维度影响的方法学困境。作者引入了一个基于Qwen3-TTS的可控神经语音合成框架，通过自然语言提示独立操纵语速、音高变化和响度三个维度，构建了2×2×2的正交刺激集（24个语义中性英语短句×8个条件）。随后，设计了一项人类感知实验（66名英语使用者）和一项机器评估（使用Qwen3-Omni模型），要求被试/模型基于纯语音刺激对讽刺性和自然性进行五点评分。统计分析采用线性混合效应模型。核心发现是：在人类判断中，响度是显著驱动讽刺感知的最强因素（\(β=0.285, p=.017\)）；而在模型预测中，语速成为最主要的线索（\(β=0.313, p=.009\)）。两者在整体评分排序上无显著相关性（\(ρ=-0.11, p=0.26\)），揭示了生物听觉系统与多模态模型在处理语音语用信息时根本性的线索加权差异。研究证明了可控TTS作为感知实验刺激生成工具的价值。 ...

Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement

📄 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement #音频生成 #语音合成 #音频质量评估 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.9/10 | 前10% | #音频生成 | #语音合成 | #音频质量评估 | arxiv 👥 作者与机构作者：Yifan Duan, Qixiang Xu, Hengtao Wu, Zhanxun Liu, Wenhao Guan, Junxi Liu, Ziyang Ma, Kelu Xu, Xie Chen 机构： ...

Beyond Semantic Dominance: Cognitive Affective Reasoning and Empathetic Response Alignment in Audio Language Models

📄 Beyond Semantic Dominance: Cognitive Affective Reasoning and Empathetic Response Alignment in Audio Language Models #语音合成 #强化学习 #参数高效微调 #多模态模型 9.2/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.2/10 | 前10% | #语音合成 | #强化学习 | #参数高效微调 #多模态模型 | arxiv 👥 作者与机构作者：Zhixian Zhao, Shuiyuan Wang, Wenjie Tian, Jingbin Hu, Ziyu Zhang, Lei Xie 机构：Audio, Speech and Language Processing Group (ASLP@NPU), Northwestern Polytechnical University, Xi’an, China ...

dots.tts Technical Report

📄 dots.tts Technical Report #语音合成 #流匹配 #自回归模型 #多语言 #低资源 #数据增强 #模型压缩 9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 9/10 | 前25% | #语音合成 | #数据增强 | #流匹配 #自回归模型 | arxiv 👥 作者与机构作者：Shi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu。机构：dots团队，小红书公司（Xiaohongshu Inc.），上海交通大学X-LANCE实验室。 ...

HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec

📄 HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec #语音合成 #自监督学习 #语音生成 5.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.5/1.5 📝 5.7/10 | 前50% | #语音合成 | #自监督学习 | #语音生成 | arxiv 👥 作者与机构作者：Arjun Gangwar, Umesh S 机构：Indian Institute of Technology, Madras, India 邮箱：arjungangwar@gmail.com, umeshs@ee.iitm.ac.in 💡 毒舌点评这篇文章的核心想法，即将两个已有的范式（双流架构和语义蒸馏）进行“统一”，其创新性相当有限，更像是一个工程上的组合。论文最大的卖点在于“推理时不需SSL模型”的速度提升，但这本质上是用训练时的蒸馏损失换取了推理时的复杂性降低，技术路径并不新颖。实验部分，所有模型均仅在LibriSpeech上训练，这在评估跨语言和零样本能力时说服力大打折扣——模型只是在同一个英语数据集上见过足够多数据后，碰巧能更好地处理相似分布的英语语音而已。论文声称实现了“强大的语义-声学解耦”，但除了一个RVQ-1 WER指标外，缺乏任何更直接、更严谨的解耦度量来支撑这一核心主张。此外，完全不提供代码，极大地阻碍了结果的可验证性和社区的后续研究。 📌 核心摘要针对多模态大语言模型中语音离散化的需求，现有神经音频编解码器存在语义解耦强但推理慢（如DualCodec）或推理快但解耦弱（如DAC蒸馏变体）的权衡。本文提出HybridCodec，一种结合了双流架构与语义蒸馏的统一模型。其训练时利用冻结的SSL模型（w2v-BERT-2.0）对语义流进行知识蒸馏，推理时则移除该重型SSL模型。实验表明，HybridCodec在域内（LibriSpeech）测试集上取得了最优的RVQ-1 WER（15.36%），相比DualCodec实现了约3倍的推理加速，同时在跨语言和零样本场景下保持了竞争力的重建质量和泛化能力。 🔗 开源详情代码：论文中未提及代码链接，未开源。模型权重：论文中未提及模型权重的公开获取链接，未开源。数据集：论文使用了三个公开数据集：LibriSpeech（960小时，需重采样至24kHz）、SeedTTS-en（论文引用[Anastassiou2024SeedTTSAF]）和Common Voice French（从测试集随机采样1000条）。论文未提供SeedTTS-en等的具体下载链接。 Demo：论文中未提及。复现材料：论文提供了详细的模型架构（图1）、训练配置（数据集、音频处理、优化步骤、损失函数权重等）以及评估细节。未提供预训练检查点或复现脚本。表3中“open-source checkpoints”指的是对比的基线模型（Mimi, DualCodec）的原始开源检查点，而非本文HybridCodec的检查点。论文中引用的开源项目（均为引用参考，非本文提供）： DualCodec：作为基线对比，引用自[dualcodec]。 DAC (Distill)：作为基线对比，基于[DAC]。 Mimi：作为开源模型对比，引用自[moshi]。 w2v-BERT-2.0：用作SSL特征提取器，引用自[w2v-bert-2.0]。 Whisper v3-large：用于WER评估，引用自[radford2022whisper]。 ECAPA-TDNN：用于SSIM评估，属于SpeechBrain工具包，引用自[ECAPA-TDNN]。 UTMOS：用于感知质量评估，引用自[UTMOS]。 PESQ：标准化评估指标，论文未指明具体实现来源。 ConvNeXt Block：用于模型架构，引用自[convnext]。 🏗️ 方法概述和架构 HybridCodec的核心设计是联合优化一个共享的编码器-解码器和两个并行的处理分支（语义流与声学流），并通过蒸馏引入SSL知识，最终实现在不依赖推理时SSL模型的前提下获得良好的语义-声学解耦。 ...

KIT's Submission to Cross-Lingual Voice Cloning in IWSLT 2026

📄 KIT's Submission to Cross-Lingual Voice Cloning in IWSLT 2026 #语音合成 #强化学习 #参数高效微调 7.2/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.2/10 | 前50% | #语音合成 | #强化学习 | #参数高效微调 | arxiv 👥 作者与机构 Seymanur Akti, Alexander Waibel Karlsruhe Institute of Technology (KIT), Carnegie Mellon University (CMU), KIT Campus Transfer (KCT) 💡 毒舌点评这篇论文就像一份优秀的“实验工程报告”，而不是一篇理论创新的论文。它把几个现成的工具（提示、RL、检索）组合起来解决了一个实际问题，效果看起来也还可以。但问题在于，它几乎在所有方面都“差点意思”：创新性？无非是在输入里加标签，RL微调也是常规操作。深度？奖励函数就是CER和SSIM的简单平均，连消融实验都懒得做全。对比？只跟自己家的基线比，外面的大神系统看都不看。最让人头疼的是，论文自己把摘要复制粘贴了一遍，这种低级失误简直是对审稿人智商的侮辱。总体而言，这是一篇典型的、为了参加共享任务而匆忙拼凑的系统描述，实用有余，学术性严重不足。 ...