开源 | 语音/音乐/音频论文速递

📄 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech #语音合成 #扩散模型 #数据集 #基准测试 #开源 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv 学术质量 5.5/7 | 影响力 2.0/2 | 可复现性 2.0/2 | 置信度高 👥 作者与机构第一作者：Semin Kim（首尔国立大学；KRAFTON）通讯作者：未说明作者列表：Semin Kim（首尔国立大学；KRAFTON），Seungjun Chung（KRAFTON），Taehong Moon（KRAFTON），Sangheon Lee（KRAFTON；韩国科学技术院），Minyoung Ahn（KRAFTON；首尔国立大学），Keon Lee（KRAFTON），Nam Soo Kim（首尔国立大学），Jaewoong Cho（KRAFTON），Ludwig Schmidt（斯坦福大学），Kangwook Lee（KRAFTON；Ludo Robotics；威斯康星大学麦迪逊分校），Dongmin Park（KRAFTON）。 💡 毒舌点评亮点：论文在推动TTS研究开源化和可复现性方面堪称典范，提供了从数据、模型到评估基准的完整开源工具链。其构建的超大规模、多来源数据池（Raon-OpenTTS-Pool）和有效的数据过滤策略，为社区提供了宝贵的研究资源。短板：模型架构方面毫无创新，完全沿用F5-TTS的DiT框架，核心贡献高度依赖于“数据工程”和规模效应，技术深度有限。这在一定程度上削弱了其在算法层面的贡献。 📌 核心摘要问题：当前顶尖的TTS模型（如Qwen3-TTS， CosyVoice 3）性能卓越，但其训练数据和处理流程不公开，阻碍了研究的可复现性和系统性进步。现有开源TTS模型（如基于Emilia训练的F5-TTS、MaskGCT）与闭源SOTA模型在性能上仍有差距。方法核心：构建了Raon-OpenTTS-Pool（615K小时英语语音数据池，整合自11个公开数据源），并通过一个基于DNSMOS、WER和语音活动比例的模型化过滤管线，从中衍生出一个510K小时的高质量子集Raon-OpenTTS-Core。基于此数据集，作者沿用F5-TTS的扩散Transformer（DiT）架构（不作修改），训练了0.3B和1B参数的模型系列Raon-OpenTTS。此外，提出了一套名为Raon-OpenTTS-Eval的结构化鲁棒性评估基准（涵盖Clean、Noisy、Wild、Expressive四种条件）。新意：其核心新颖性在于系统性地解决开源TTS研究中的“数据”和“可复现性”瓶颈。与以往仅在单一大数据集上训练的开源模型不同，本文证明了通过精心构建、过滤的大规模多源开源数据，可以显著提升现有TTS架构的性能，并建立了完整的开源研究基础设施（数据、模型、评估）。结果：在Seed-TTS-Eval上，Raon-OpenTTS-1B的WER为1.78%，SIM为0.749，在开源模型中分别排名第二和第一。在CV3-Hard-EN上，其WER（6.15%）和SIM（0.775）均为最佳。在自建的Raon-OpenTTS-Eval上，Raon-OpenTTS-1B在Clean、Noisy、Wild和Expressive四个条件下的平均WER和SIM均为最佳，并在人工评估中取得第二好的CMOS分数。意义：证明了使用大规模、经过筛选的开源数据，可以训练出性能与依赖海量私有数据的SOTA模型相媲美的TTS模型，极大地促进了该领域的透明化、可复现研究。局限：模型架构本身无创新；当前研究仅限于英语；数据过滤策略可能较为保守，未来可探索数据修正；多源数据混合策略有优化空间。 🔗 开源详情代码：https://github.com/krafton-ai/RAON-OpenTTS 模型权重：论文明确承诺公开“训练代码和检查点”，因此模型权重可通过上述GitHub仓库获取。数据集：数据集名称：Raon-OpenTTS-Pool，一个包含61.5万小时英语语音的大型开放数据池，聚合自11个公开语料库和网络录制。数据集名称：Raon-OpenTTS-Core，是从Raon-OpenTTS-Pool中筛选出的高质量子集（51万小时，1.94亿语音片段）。获取方式：论文明确承诺公开“数据池和过滤流程”，因此数据集及其构建信息可能通过上述GitHub仓库提供。论文中未提及数据集的单独下载链接。 Demo：论文中未提及。复现材料：论文中提到了公开的“训练代码和检查点”，因此具体的训练配置、模型检查点等信息应可通过上述GitHub仓库获取。论文中引用的开源项目： UVR-MDX（用于音源分离）：https://github.com/Anjok07/ultimatevocalremovergui PyAnnote 3.1（用于说话人分割）：https://huggingface.co/pyannote/speaker-diarization-3.1 Silero VAD（用于语音活动检测）：https://github.com/snakers4/silero-vad Whisper-large-v3（用于自动转录）：https://huggingface.co/openai/whisper-large-v3 HiFi-GAN（用于波形合成）：https://huggingface.co/speechbrain/tts-hifigan-libritts-16kHz 🏗️ 方法概述和架构本文的贡献是一个端到端的“数据构建-模型训练-鲁棒评估”流水线，其核心流程为：聚合多源数据 → 质量过滤 → 模型训练 → 结构化评估。 ...

📄 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning for Speech and Reasoning Tasks #大语言模型 #参数高效微调 #问答 #数学推理 #开源 🔥 8.5/10 | 前25% | #大语言模型 | #参数高效微调 | #问答 #数学推理 | arxiv 学术质量 5.8/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：未说明（论文中未明确标注第一作者）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Zongqian Li（未说明所属机构），Yixuan Su（未说明所属机构），Han Zhou（未说明所属机构），Zihao Fu（未说明所属机构），Nigel Collier（未说明所属机构） 💡 毒舌点评亮点：论文的核心贡献——在训练和推理阶段均保持输入自适应的动态秩分配——被设计得非常巧妙，且通过与DyLoRA+的对照实验，清晰地论证了“训练-推理动态一致性”对复杂推理任务的重要性，这一观察颇具启发性。实验覆盖了文本理解和语音任务，展现了方法的通用潜力。短板：创新性主要在于将“动态秩”与“输入感知路由器”相结合，属于对LoRA家族的优化而非范式变革。此外，路由器的引入无疑增加了模型复杂度和训练开销，但论文对其自身的计算成本和可能引入的偏差讨论较少，理论分析稍显单薄。 🔗 开源详情代码：https://github.com/ZongqianLi/Flexi-LoRA 模型权重：论文中未提及数据集：论文中未提及 Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目：未提及补充信息 [作者与机构] 补充：论文在结尾的致谢部分明确列出了全部作者的邮箱地址。第一作者为Zongqian Li (zl452@cam.ac.uk)，通讯作者为Nigel Collier (nc293@cam.ac.uk)。所有作者均隶属于剑桥大学。 [核心摘要] 补充：论文在摘要和结论中均强调，Flexi-LoRA的输入自适应分配使其能够“成功解决一些静态LoRA即使使用等效秩也无法解决的复杂问题”（如图1所示）。此外，论文指出成功适应不仅体现在正确性上，还体现在推理质量和指令遵循上，这一点在数学推理任务中尤为明显。 ...