语音生成 | 语音/音乐/音频论文速递

Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese Speech Generation via Data Scaling and Targeted Data Synthesis

📄 Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese Speech Generation via Data Scaling and Targeted Data Synthesis #语音合成 #语音生成 #数据增强 7.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.3/10 | 前50% | #语音合成 | #数据增强 | #语音生成 | arxiv 👥 作者与机构作者：Lianbo Liu, Shiao Zhu, Kai Washizaki, Reo Yoneyama, Haesung Jeon, Mengjie Zhao, Yusuke Fujita, Hao Shi, Nao Yoshida, Yuan Gao, Roman Koshkin, Yukiya Hono, Yui Sudo。机构：SB Intuitions。 ...

On the Effect of Segmentation Width and Cluster Size on Speech Resynthesis and Continuation in Generative Spoken Language Models

📄 On the Effect of Segmentation Width and Cluster Size on Speech Resynthesis and Continuation in Generative Spoken Language Models #语音合成 #语音生成 #自监督学习 #低资源 #数据增强 7.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.4/10 | 前25% | #语音合成 | #自监督学习 | #语音生成 #低资源 | arxiv 👥 作者与机构 Shunsuke Kando (东京大学) Wataru Nakata (庆应义塾大学) Shinnosuke Takamichi (东京大学) Yusuke Miyao (庆应义塾大学) ...

Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors

📄 Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors #语音合成 #语音生成 7.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.3/10 | 前50% | #语音合成 | #语音生成 | arxiv 👥 作者与机构作者：Michael Finkelson, Daniel Segal, Eitan Richardson, Shahar Armon, Nani Goldring, Poriya Panet, Nir Zabari, Benjamin Brazowski, Or Patashnik, Yoav HaCohen 机构：Lightricks, Tel Aviv University (特拉维夫大学) ...

MUNI: Multimodal Unified Latent Diffusion for Coherent Any-to-Any Generation

📄 MUNI: Multimodal Unified Latent Diffusion for Coherent Any-to-Any Generation #语音生成 #音频生成 #多模态模型 #扩散模型 #流匹配 #变分推断 #变分自编码器 6.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.9/10 | 前50% | #语音生成 | #变分推断 | #音频生成 #多模态模型 | arxiv 👥 作者与机构作者：Kyeongmin Yeo, Yunhong Min, Minhyuk Sung 机构：KAIST 💡 毒舌点评本文立意不错，试图从变分推断第一性原理出发解决多模态生成中的“一致性”痛点。理论分析部分逻辑清晰，提出了三个潜在空间准则并设计了相应的路由目标，这种“讲道理”的方式值得肯定。实验也表明其在无条件联合生成的一致性指标上有显著提升。然而，论文的核心创新点在于理论分析和目标设计，而实现这些目标的架构（编码器、解码器、先验）本身并无革命性变化。此外，理论证明依赖于多个理想化假设，其现实适用性存疑。最遗憾的是，缺少了对自身关键设计选择（如路由策略、不同聚合规则）的消融实验，使得理论分析与实际性能提升之间的因果链条不够坚固。在影响力方面，对于本领域的读者而言，这项工作的直接可借鉴性有限，更像一个针对视觉主导的多模态生成的“特解”。 📌 核心摘要 MUNI是一个面向任意多模态生成（any-to-any generation）的统一框架。它扩展了联合训练的单模态潜在扩散模型到多模态场景，核心在于两点：1）架构上，引入模态特定的编码器、表达力强的解码器和一个共享的流匹配先验；2）目标上，设计了一个路由训练目标，该目标通过非混合聚合、目标解耦的自重建以及仅在留一子集上训练先验等策略，使共享潜在变量同时满足一致性充分、预测充分和最小性这三个准则。实验在合成和真实图像-文本-音频数据上进行，结果表明MUNI在条件生成任务上不弱于强基线，而在更难的无条件联合生成任务上，其生成的模态间一致性显著优于现有方法。 ...

Probing Low Frame Rate Degradation in Neural Audio Codecs

📄 Probing Low Frame Rate Degradation in Neural Audio Codecs #语音生成 #模型压缩 8.6/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.6/10 | 前25% | #语音生成 | #模型压缩 | arxiv 👥 作者与机构作者：Alex Gichamba, Moise Busogi 机构：Carnegie Mellon University Africa, Rwanda 联系邮箱：angicham@andrew.cmu.edu, mbusogi@andrew.cmu.edu 💡 毒舌点评优点：论文选题重要，直指神经音频编解码器在实际部署中的关键瓶颈。实验设计非常扎实，通过严谨的控制变量消融，成功揭示了问题根源是训练配置而非理论极限，结论令人信服且实用。文章写作清晰，逻辑链条完整。不足：研究范围相对狭窄，结论主要基于DAC框架的消融，对其他架构（如BigCodec）在低帧率下的表现探讨不足。实验部分虽然详尽，但消融设计（固定K=19）本身可能引入新的偏差（例如，更长的T_clip是否带来了训练效率或泛化能力的变化？）。此外，缺乏主观听感评估（MOS），仅依赖客观指标和UTMOS，对于“可懂度”的判断可能不够全面。最终结论“低帧率更易获得”在实际部署（需要重新训练）中可能需要更审慎的表述。 📌 核心摘要本文系统研究了神经音频编解码器在低帧率（<12.5 Hz）下性能急剧下降的原因。通过在DAC框架上进行从1.6 Hz到100 Hz的帧率消融实验，作者复现了先前报告的6.25 Hz质量悬崖。通过设计对照实验，作者证明了该现象并非由理论上的音素碰撞或码本饱和导致。根本原因是标准训练流程中固定音频片段时长（T_clip）的设定：在低帧率下，这导致每个训练样本的令牌序列过短（如6.25 Hz时仅2个令牌），解码器无法学习令牌间的连贯性。当改为固定训练序列长度（K=19）后，6.25 Hz模型的性能（WER从107.4%降至15.37%）得到大幅恢复。进一步实验表明，该修正可使模型在3.125 Hz和1.6 Hz（比特率低至192 bps）下仍保持可懂的语音重建，证明了低帧率编解码器的推理效率潜力比以往认为的更易实现。 ...

SARA: A Dual-Stream VAE for High-Fidelity Speech Generation via Integrating Semantic and Acoustic Representations

📄 SARA: A Dual-Stream VAE for High-Fidelity Speech Generation via Integrating Semantic and Acoustic Representations #语音合成 #变分自编码器 #自监督学习 #语音识别 #多任务学习 #语音生成 #数据集 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #变分自编码器 | #自监督学习 #语音识别 | arxiv 👥 作者与机构作者：Peijie Chen*, Wenhao Guan, Weijie Wu, Kadi Wang, Daiyu Huang, Zhuanling Zha, Junbo Li, Jun Fang, Qingyang Hong†, Lin Li 机构：1 厦门大学信息学院，中国；2 厦门大学电子科学与工程学院，中国；3 滴滴全球公司，北京，中国联系邮箱：peijiechen@stu.xmu.edu.cn ...

OmniCap-IF: Benchmarking and Improving Instruction Following Abilities for Omni-Video Captioning

📄 OmniCap-IF: Benchmarking and Improving Instruction Following Abilities for Omni-Video Captioning #语音生成 #语音识别 9.1/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 9.1/10 | 前25% | #语音生成 | #语音识别 | arxiv 👥 作者与机构第一作者：王家豪（南京大学）通讯作者：刘家恒（南京大学）共同一作：王家豪，安平，王阳海机构：南京大学LINK团队，快手科技可灵团队 💡 毒舌点评基准测试虽号称“首个”，但核心创新在于将已有的指令跟随评估范式（如IFEval）扩展到全模态视频领域，并叠加了时间定位。约束类型的划分（50种）听起来很多，但很多是既有工作的组合或简单变体（如不同的JSON格式、列表格式）。发现的“格式-内容权衡”现象并非首次发现，原文引用了相关工作（Tam et al., 2024; Deng et al., 2025），本文是在多模态场景下的验证，贡献在于将其显式化并量化。训练数据集OmniCap-IF-54K的构建流程虽然详细，但严重依赖闭源模型（Gemini-3-Flash）和无法复现的中间数据（ASID-Captioner-7B的输出），这削弱了方法的可复现性和独立性。作者声明的局限性（LLM评估偏差、短视频限制）是合理的，但回避了更关键的问题：指令模板是否充分代表了真实用户需求？约束的难度是否平衡？以及，基准的“高复杂度”是否可能沦为对模型生成冗长或格式化文本能力的考察，而非真正的指令理解？论文在实验上用力过猛，列出了大量模型（14个），但对失败案例和边界条件的分析不足。部分对比（如与HumanOmniV2-7B的对比）意义有限，因为模型规模和架构差异巨大。 📌 核心摘要本文提出了OmniCap-IF，这是一个用于评估和提升全模态视频描述模型指令遵循能力的综合基准。该基准包含1920个样本和50种约束类型，覆盖格式、视觉、音频和跨模态内容。作者发现了一个关键现象：严格的格式约束会损害模型的跨模态推理能力（“格式-内容权衡”）。为应对此问题，他们构建了大规模指令微调数据集OmniCap-IF-54K，并基于此训练了OmniCaptioner-IF系列模型，在指令遵循和通用描述性能上均取得了提升。 ...

OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages

📄 OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages #语音合成 #低资源 #数据集 #模型评估 #流匹配 #语音生成 #基准测试 8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前25% | #语音合成 | #低资源 | #数据集 #模型评估 | arxiv 👥 作者与机构 David Guzmán1,2, Luel Hagos Beyene3,4, Jesujoba Oluwadara Alabi5, Yejin Jeon1,2, Dietrich Klakow5, David Ifeoluwa Adelani1,2,6 1 McGill University 2 Mila - Quebec AI Institute 3 AIMS Research and Innovation Centre 4 NM-AIST 5 Saarland University 6 Canada CIFAR AI Chair ...

HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec

📄 HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec #语音合成 #自监督学习 #语音生成 5.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.5/1.5 📝 5.7/10 | 前50% | #语音合成 | #自监督学习 | #语音生成 | arxiv 👥 作者与机构作者：Arjun Gangwar, Umesh S 机构：Indian Institute of Technology, Madras, India 邮箱：arjungangwar@gmail.com, umeshs@ee.iitm.ac.in 💡 毒舌点评这篇文章的核心想法，即将两个已有的范式（双流架构和语义蒸馏）进行“统一”，其创新性相当有限，更像是一个工程上的组合。论文最大的卖点在于“推理时不需SSL模型”的速度提升，但这本质上是用训练时的蒸馏损失换取了推理时的复杂性降低，技术路径并不新颖。实验部分，所有模型均仅在LibriSpeech上训练，这在评估跨语言和零样本能力时说服力大打折扣——模型只是在同一个英语数据集上见过足够多数据后，碰巧能更好地处理相似分布的英语语音而已。论文声称实现了“强大的语义-声学解耦”，但除了一个RVQ-1 WER指标外，缺乏任何更直接、更严谨的解耦度量来支撑这一核心主张。此外，完全不提供代码，极大地阻碍了结果的可验证性和社区的后续研究。 📌 核心摘要针对多模态大语言模型中语音离散化的需求，现有神经音频编解码器存在语义解耦强但推理慢（如DualCodec）或推理快但解耦弱（如DAC蒸馏变体）的权衡。本文提出HybridCodec，一种结合了双流架构与语义蒸馏的统一模型。其训练时利用冻结的SSL模型（w2v-BERT-2.0）对语义流进行知识蒸馏，推理时则移除该重型SSL模型。实验表明，HybridCodec在域内（LibriSpeech）测试集上取得了最优的RVQ-1 WER（15.36%），相比DualCodec实现了约3倍的推理加速，同时在跨语言和零样本场景下保持了竞争力的重建质量和泛化能力。 🔗 开源详情代码：论文中未提及代码链接，未开源。模型权重：论文中未提及模型权重的公开获取链接，未开源。数据集：论文使用了三个公开数据集：LibriSpeech（960小时，需重采样至24kHz）、SeedTTS-en（论文引用[Anastassiou2024SeedTTSAF]）和Common Voice French（从测试集随机采样1000条）。论文未提供SeedTTS-en等的具体下载链接。 Demo：论文中未提及。复现材料：论文提供了详细的模型架构（图1）、训练配置（数据集、音频处理、优化步骤、损失函数权重等）以及评估细节。未提供预训练检查点或复现脚本。表3中“open-source checkpoints”指的是对比的基线模型（Mimi, DualCodec）的原始开源检查点，而非本文HybridCodec的检查点。论文中引用的开源项目（均为引用参考，非本文提供）： DualCodec：作为基线对比，引用自[dualcodec]。 DAC (Distill)：作为基线对比，基于[DAC]。 Mimi：作为开源模型对比，引用自[moshi]。 w2v-BERT-2.0：用作SSL特征提取器，引用自[w2v-bert-2.0]。 Whisper v3-large：用于WER评估，引用自[radford2022whisper]。 ECAPA-TDNN：用于SSIM评估，属于SpeechBrain工具包，引用自[ECAPA-TDNN]。 UTMOS：用于感知质量评估，引用自[UTMOS]。 PESQ：标准化评估指标，论文未指明具体实现来源。 ConvNeXt Block：用于模型架构，引用自[convnext]。 🏗️ 方法概述和架构 HybridCodec的核心设计是联合优化一个共享的编码器-解码器和两个并行的处理分支（语义流与声学流），并通过蒸馏引入SSL知识，最终实现在不依赖推理时SSL模型的前提下获得良好的语义-声学解耦。 ...

WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling

📄 WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling #语音合成 #端到端 #扩散模型 #流匹配 #语音生成 #多模态模型 9.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 9.2/10 | 前25% | #语音合成 | #端到端 | #扩散模型 #流匹配 | arxiv 👥 作者与机构作者: Wenxi Chen, Dongya Jia, Yushen Chen, Zhikang Niu, Yuzhe Liang, Xiquan Li, Ruiqi Yan, Ziyang Ma, Guanrou Yang, Sanyuan Chen, Yue Wang, Zhuo Chen, Kai Yu, Xie Chen. 机构: 1) 上海交通大学, 2) 上海创新研究院, 3) 字节跳动 Seed. ...