基准测试 | 语音/音乐/音频论文速递

EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

📄 EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation #音视频 #基准测试 #模型评估 #多模态模型 ✅ 7.1/10 | 前50% | #音视频 | #专家校准VLM评分 | #基准测试 #模型评估 | arxiv 学术质量 5.9/7 | 影响力 1/2 | 可复现性 0.2/2 | 置信度 High 👥 作者与机构作者：Songlin Yang, Haobin Zhong, Ruilin Zhang, Xiaotong Zhao, Shuai Li, Kai Zheng, Xuyi Yang, Zhe Wang, Zhenchen Tang, Yang Li, Bohai Gu, Zhengwei Peng, Yidan Huang, Mengzhou Luo, Yihang Bo, Dalu Feng, Yujia Zhang, Juntao Ma, Ruiqi Wang, Lvmin Zhang, Yuwei Guo, Frank Guan, Maneesh Agrawala, Hongbo Fu, Alan Zhao, Anyi Rao. 机构：香港科技大学，腾讯，清华大学，中国科学院自动化研究所，北京电影学院，斯坦福大学，香港中文大学，新加坡技术设计大学。 ...

语音/音乐/音频论文速递 2026-05-25

语音/音乐/音频论文速递 2026-05-25 共分析 19 篇论文 ⚡ 今日概览 📥 抓取 19 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音质量评估 3篇 ███ #语音识别 3篇 ███ #信号处理 3篇 ███ #音频分类 1篇 █ #语音编码 1篇 █ #音频深度伪造检测 1篇 █ #统一音频模型 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜（19 篇，按分数降序）排名论文评分分档主任务 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrus 10.0分前10% #语音质量评估 🥈 Evaluating the Temporal Detection Capability of Integra 10.0分前10% #音频分类 🥉 UniSRM: A Unified Speech Reward Model for Reasoning-Bas 10.0分前10% #语音质量评估 4. AffectCodec: Emotion-Preserving Neural Speech Codec wit 10.0分前10% #语音编码 5. MixFake: Benchmarking and Enhancing Audio Deepfake Dete 10.0分前10% #音频深度伪造检测 6. A study on weakly-supervised training approaches for ph 9.7分前10% #语音识别 7. Broad learning system with robust adaptive kernel 8.7分前25% #信号处理 8. Articulatory strategy as a source of variation in acous 8.5分前25% #语音识别 9. StepAudio 2.5 Technical Report 8.3分前25% #统一音频模型 10. Comprehensive Dataset and Signal Processing Framework f 8.0分前25% #医疗音频 11. Word-Level Modeling with Alignment-Aware Acoustic Fusio 7.7分前25% #语音质量评估 12. Convex Low-resource Accent-Robust Language Detection in 7.5分前25% #语音识别 13. Diffusion Domain Expansion: Learning to Coordinate Pre- 7.4分前50% #扩散模型 14. EvalVerse: Pipeline-Aware and Expert-Calibrated Benchma 7.1分前50% #音视频 15. Copula-Induced Correntropy for Robust Conjugate Gradien 7.0分前50% #信号处理 16. Cost-Effective Model Evaluation with Meta-Learning 5.4分后50% #迁移学习 17. Natural Yet Challenging to Detect: Robust In-the-Wild T 5.2分后50% #语音合成 18. Self-Calibration DOA Estimation for Movable Antenna Sys 4.0分后50% #声源定位 19. 6G Communication Networks Enabling Embodied Agents: Arc 2.7分后50% #信号处理 📋 论文列表 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrusive Intelligibility Prediction of Hearing-Aid-Processed Speech 🔥 10.0/10 | 前10% | #语音质量评估 | #模型融合 | #多模态模型 #预训练 | arxiv ...

A Survey of Audio Reasoning in Multimodal Foundation Models

📄 A Survey of Audio Reasoning in Multimodal Foundation Models #音频推理 #音频问答 #多模态模型 #强化学习 #基准测试 #语音对话 ✅ 7.7/10 | 前50% | #音频推理 | #综述 | #音频问答 #多模态模型 | arxiv 学术质量 6.0/7 | 影响力 1.7/2 | 可复现性 0.0/2 | 置信度高 👥 作者与机构第一作者：Zhihan Guo（香港中文大学计算机科学与工程系）与Wenqian Cui（香港中文大学计算机科学与工程系）共同一作。通讯作者：Irwin King（香港中文大学计算机科学与工程系）作者列表：Zhihan Guo（香港中文大学计算机科学与工程系）、Wenqian Cui（香港中文大学计算机科学与工程系）、Guan-Ting Lin（国立台湾大学通信工程研究所）、Daxin Tan（香港中文大学电子工程系）、Jingyao Li（香港中文大学计算机科学与工程系）、Qiyong Zheng（香港中文大学计算机科学与工程系）、Dingdong Wang（香港中文大学系统工程与工程管理系）、Jing Xiong（香港大学电气与计算机工程系）、Han Shi（华为基础模型部门，香港科技大学计算机科学与工程系）、Jiaya Jia（香港科技大学计算机科学与工程系）、Irwin King（香港中文大学计算机科学与工程系）。 💡 毒舌点评亮点：作为首篇专注于“音频推理”的系统性综述，它成功地将一个新兴、碎片化但至关重要的领域进行了概念化和结构化。其提出的统一形式化框架和四大范式（音频到文本、音频到语音、音视频、智能体）分类体系，为该领域的研究者提供了极有价值的导航图和共同语言。论文对音频推理独特挑战（如声学接地、延迟权衡）的深刻洞察，直接切中了当前音频AI发展的核心瓶颈。短板：作为一篇旨在定义领域的综述，其在批判性深度上仍有提升空间。部分章节对现有方法的罗列多于剖析，对不同技术路线优劣的对比分析不够系统，且未能就其提出的分类框架和未来方向提供更具体、可操作的技术路径蓝图，削弱了其作为“路线图”的锐度和指导性。 📌 核心摘要问题：尽管音频基础模型（AFM）发展迅速，但其推理能力（基于声学信号进行多步逻辑推导）仍落后于文本和视觉模型。音频的连续性、时间密集性以及包含语言、副语言和环境信息的多维特性，使其面临独特挑战，如声学-语义对齐、数据稀缺、捷径学习和模态幻觉。方法核心：本文是一篇系统性综述，核心是构建一个统一的分类和形式化框架。它将音频推理问题统一定义为基于多模态证据的条件生成过程（公式1），并将其划分为四大范式：音频到文本、音频到语音（含实时交互）、音视频推理和智能体音频推理。论文系统梳理了每个范式下的模型架构基础（编码器-投影器-LLM骨干）、训练技术（对齐预训练、SFT、RL）和具体方法。新在哪里：首次将“音频推理”作为独立核心主题进行专门综述，而非将其作为多模态或语音大模型的附属能力。提出了一个涵盖问题形式化、模型基础、推理范式、评估和未来方向的统一路线图。特别强调了音频推理独有的挑战，如实时交互中的延迟权衡、声学接地的真实性以及捷径学习问题。主要结果：作为综述论文，本文不提出新模型或新实验结果，而是对现有文献进行归纳总结。关键发现包括：1) CoT在音频推理中的效果并非总是正面（在某些RL训练或复杂任务中可能失效）；2) 基于RL的音频推理需要精心设计奖励（准确性、一致性、格式、长度、质量）并解决模态幻觉问题；3) 实时音频到语音推理存在“边听边想”与“边说边想”两类策略，各有延迟与准确性的权衡。论文系统总结了现有工作在MMAU、AVQA等基准上的表现及训练数据构建方法（表III）。实际意义：为音频/语音领域的研究者提供了清晰的领域全景图和研究方向指引，有助于推动音频推理从简单感知走向复杂认知，对构建能在真实、交互环境中可靠推理的下一代音频AI系统具有重要参考价值。主要局限性：1) 作为综述，其深度受限于篇幅，对某些复杂方法的剖析可能不够深入；2) 领域发展迅速，综述的时效性面临挑战；3) 主要聚焦于方法学讨论，缺乏对实际部署挑战的深入分析；4) 论文明确指出，其总结的训练数据合成方法存在可靠性存疑的问题（Section IX-A）。 🔗 开源详情代码：论文中未提及代码链接。本文为综述论文，未提供自身的代码仓库。 ...

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

📄 Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German #语音识别 #多语言 #基准测试 #评测协议 #数据集 ✅ 6.8/10 | 前50% | #语音识别 | #基准测试 | #多语言 #评测协议 | arxiv 学术质量 4.4/7 | 影响力 1.0/2 | 可复现性 1.4/2 | 置信度高 👥 作者与机构第一作者：Sajjad Abdoli (Perle AI) 通讯作者：Sajjad Abdoli (Perle AI) 作者列表：Sajjad Abdoli (Perle AI)、Ghassan Al-Sumaidaee (Perle AI)、Clayton W. Taylor (Perle AI)、Ahmad (MAD) ElShiekh (Perle AI)、Ahmed Rashad (Perle AI) 💡 毒舌点评亮点：论文精准地击中了商业ASR评估的一个关键盲点——代码转换场景，并提供了一个设计精良、可公开获取的基准数据集，其实用价值直接且显著。短板：论文的“技术贡献”主要停留在评估方法论和指标比较层面，缺乏对ASR模型本身的算法或架构洞察，更像一篇扎实的行业评估报告而非传统意义上的学术突破。 ...

CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering

📄 CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering #多模态问答 #多模态模型 #大语言模型 #基准测试 #视频理解 ✅ 6.6/10 | 前50% | #多模态问答 | #多模态模型 | #大语言模型 #基准测试 | arxiv 学术质量 5.0/7 | 影响力 0.3/2 | 可复现性 1.3/2 | 置信度高 👥 作者与机构第一作者：Mahesh Bhosale（University at Buffalo）通讯作者：Mahesh Bhosale（University at Buffalo）作者列表：Mahesh Bhosale（University at Buffalo）， Abdul Wasi（University at Buffalo）， Vishvesh Trivedi（New York University）， Pengyu Yan（University at Buffalo）， Akhil Gorugantu（University at Buffalo）， David Doermann（University at Buffalo） 📌 核心摘要这篇论文旨在解决真实世界新闻事件背景下，基于多视频的问答与报告生成任务，要求生成的内容不仅事实准确，还需精确引用视频证据。其核心方法CRAFT是一个多阶段流水线，包含动态关键帧选择（DKS）、ASR转录增强、基于原子声明的提取，以及一个由UNLI、DeBERTa-NLI和小型LLM构成的混合评论循环，用于迭代地验证和修复声明，最终通过引用合并生成报告。与之前方法相比，CRAFT的新颖之处在于将声明级别的验证循环深度集成到证据提取阶段，而非仅用于最终答案聚合，并强调了原子声明格式对引用对齐的重要性。实验在MAGMaR 2026（19个查询）和自建的WikiVideo转换集（52个查询）上进行，CRAFT在MAGMaR-Test上取得了最佳整体平均分（0.739）、参考召回率（0.810）和引用F1（0.635），在WikiVideo上也表现强劲（Avg 0.823）。消融研究证明了原子声明、ASR和评论循环的关键作用。该工作的实际意义是为需要高证据密度的多源视频问答（如事实核查、事件报道）提供了一个可行的系统架构。主要局限性是其评估数据集规模较小（19和52个查询），且系统流程复杂，依赖多个外部模型和组件，推理成本较高。 ...

Cross-Talk Speech Reduction, by Separation, for Separation

📄 Cross-Talk Speech Reduction, by Separation, for Separation #语音分离 #伪标签学习 #多通道 #长音频处理 #基准测试 #盲解卷积 🔥 9.1/10 | 前25% | #语音分离 | #伪标签学习 | #多通道 #长音频处理 | arxiv 学术质量 6.4/7 | 影响力 2.0/2 | 可复现性 0.8/2 | 置信度高 👥 作者与机构第一作者：未明确说明（论文中两位作者并列，但根据投稿标注，Z.-Q. Wang为通讯作者）通讯作者：Zhong-Qiu Wang（南方科技大学计算机科学与工程系）作者列表：Zhong-Qiu Wang（南方科技大学计算机科学与工程系）、Samuele Cornell（卡内基梅隆大学语言技术研究所） 💡 毒舌点评亮点：论文精准地抓住了“近场混合信号作为伪标签不干净”这个核心痛点，并用一个优雅的、物理模型驱动的盲解卷积框架（CTRnet）解决它，进而在极具挑战性的CHiME-6数据集上取得了SOTA，首次让神经网络方法在真实对话场景显著超越了统治性的GSS。其核心创新在于将“利用近场信号”这一模糊想法系统化为可解的“交叉串扰抑制”任务，并端到端地在真实数据上训练。短板：整个框架严重依赖部署场景必须同时存在近场和远场麦克风，且假设最大说话人数固定，这在某些实际应用（如纯远场部署或人数极多的会议）中可能不成立，限制了其普适性。此外，论文仅在一个数据集（CHiME-6）上进行了验证，尽管它极具代表性，但缺乏多数据集的泛化性证明。 📌 核心摘要问题：在对话语音分离任务中，训练数据常通过为每个说话者佩戴近场麦克风采集。这些近场信号能量高，是训练远场分离模型的天然监督信号，但它们含有严重的串扰噪声和环境噪音，不能直接作为伪标签。方法核心：提出一个两阶段框架。首先，训练CTRnet，将其视为一个盲解卷积问题，直接从真实的近场/远场混合信号对中，估计出每个说话者的干净近场语音。然后，用CTRnet的估计结果作为伪标签，训练一个监督式的远场语音分离模型（PuLSS）。PuLSS在训练时创新性地使用说话者活动时间戳作为输入特征，以解决置换不变问题。新意：与现有方法不同，该方法不依赖干净的模拟数据或假设近场信号足够干净。CTRnet和PuLSS均可直接在目标域的真实录制数据上训练，有效解决了模拟训练带来的域不匹配问题。其核心物理模型（混合约束）和引入的弱监督（时间戳）是关键。主要结果：在极具挑战性的CHiME-6对话数据集上，PuLSS框架取得了SOTA性能。在使用微调的Parakeet ASR模型时，其tcpWER达到28.5%，显著优于所有CHiME-7/8挑战赛提交系统及基线GSS方法（33.5%）。在oracle日志下，cpWER达到19.5%，也优于GSS（29.7%）。系统 (Diarization: Estimated) CHiME-7/8 挑战验证集 tcpWER (%) 测试集 tcpWER (%) ESPnet baseline CHiME-7 65.7 85.2 NVIDIA NeMo CHiME-7 45.9 63.8 BUT-FIT CHiME-7 61.4 77.6 NPU CHiME-7 57.4 76.9 U. of Cambridge CHiME-7 44.5 55.4 USTC CHiME-7 35.7 44.8 IACAS-Thinkit CHiME-7 30.5 33.5 NTT CHiME-8 25.5 35.3 STCON CHiME-8 22.8 33.6 GSS (24-channel) + USTC diar. – 29.4 33.5 PuLSS + USTC diar. – 26.4 28.5 意义：为在真实对话场景（“野外”语音）中训练高性能分离模型提供了一条切实可行的路径，摆脱了对模拟数据的依赖。PuLSS是首个在真实对话数据上显著超越GSS的神经分离方法，具有里程碑意义。 ...

DuplexSLA: A Full-Duplex Spoken Language Model with Synchronized Speech, Language, and Action

📄 DuplexSLA: A Full-Duplex Spoken Language Model with Synchronized Speech, Language, and Action #语音对话系统 #多模态模型 #大语言模型 #端到端 #基准测试 ✅ 7.8/10 | 前25% | #语音对话系统 | #多模态模型 | #大语言模型 #端到端 | arxiv 学术质量 5.2/7 | 影响力 1.6/2 | 可复现性 1.0/2 | 置信度高 👥 作者与机构第一作者：Haoyang Zhang (StepFun, Peking University, Nanyang Technological University) 通讯作者：Fei Tian (StepFun) 作者列表：Haoyang Zhang*（StepFun，北京大学，南洋理工大学），Jun Chen*（StepFun），Donghang Wu（南洋理工大学），Yuxin Li（StepFun，南洋理工大学），Yuxin Zhang（StepFun，上海交通大学），Xiangyu Tony Zhang（StepFun，新南威尔士大学），Che Liu（StepFun，帝国理工学院），Qingjian Lin（StepFun），Yizhou Peng（南洋理工大学），Hexin Liu（南洋理工大学），Eng Siong Chng（南洋理工大学），Chao Yan（StepFun），Boyong Wu（StepFun），Yechang Huang（StepFun），Xuerui Yang（StepFun），Fei Tian†（StepFun）（*表示同等贡献，†表示通讯作者） 💡 毒舌点评亮点：论文的“双流三通道”架构设计优雅，通过引入速率受限的文本动作通道，将规划、工具调用与语音生成解耦到独立的时钟同步通道，直观地解决了全双工对话中“边说边做”的核心矛盾。同时，构建了专用的DuplexSLA-Bench基准，弥补了现有评测体系对联合评估轮次控制和在线工具调用能力的空白。短板：尽管系统设计完整，但关键的训练细节（如损失权重、硬件、解码策略）和部分超参数（如优化器、学习率）缺失，使得一个77B参数大模型的复现门槛极高。此外，所有评估均在自建的合成基准上进行，缺乏在真实世界或通用对话基准上的验证，结论的泛化性存疑。 ...

Executable Boundary Contracts for Sound Event Traces

📄 Executable Boundary Contracts for Sound Event Traces #音频事件检测 #基准测试 #评测协议 #鲁棒性 #开源工具 🔥 8.5/10 | 前25% | #音频事件检测 | #基准测试 | #评测协议 #鲁棒性 | arxiv 学术质量 5.7/7 | 影响力 1.2/2 | 可复现性 1.6/2 | 置信度高 👥 作者与机构第一作者：Faruk Alpay（Bahcesehir University, Istanbul, Turkey 计算机工程系）通讯作者：Faruk Alpay（alpay@bahcesehir.edu.tr）作者列表：Faruk Alpay（Bahcesehir University, Istanbul, Turkey 计算机工程系）、Hamdi Alakkad（Bahcesehir University, Istanbul, Turkey 人工智能工程系） 💡 毒舌点评这篇论文将“评估”这件事做得像编译器前端一样严谨，用形式化的“合约”将声音事件追踪的边界错误（如晚触发、尾泄漏、静默污染、持续时间扭曲）分门别类，直接戳中了当前声音事件检测评测中“一个F1分数掩盖所有问题”的痛点。然而，这种严谨的代价是引入了一个比许多被评估的检测器本身还要复杂的评估框架和领域特定语言，可能让习惯传统评测的研究者望而却步。其核心价值在于提供了一个可审计、可复现、可诊断的评估协议，而非提出一个新的、性能更优的检测模型。框架的复杂性与它提供的诊断粒度之间的权衡，是它能否被社区广泛采用的关键。 📌 核心摘要解决问题：现有声音事件检测（SED）评估依赖帧F1、事件F1等标量分数，这些分数将不同的边界错误（如晚触发、尾泄漏、静默污染、持续时间扭曲、事件分块）压缩在一起，无法为下游系统提供可操作的诊断信息。方法核心：提出“可执行边界合约”框架，这是一个领域特定的评估语言和监控系统。它包含两层：帧片段层（使用可嵌入信号时序逻辑的有界布尔片段，在帧网格上评估帧级行为）和事件层（通过声明的区间匹配规则，评估事件的持续时间、分块等形状属性）。所有评估策略被解析为可执行的公式和子句，最终输出一个“守卫向量”作为结构化诊断结果。新颖之处：不同于提出新的检测模型或通用时序逻辑，本文将评估策略本身形式化、可执行化和透明化。它分离了帧逻辑和区间事件逻辑，引入了“义务约束评分”以避免蕴含式的空洞满足问题，并将区间匹配策略作为合约的一部分显式声明。主要实验结果：在可控场景、MAESTRO Real真实声景、冻结编码器探测和DCASE 2024基线四个轨道上进行了测试。关键发现包括：（1）标准分数与合约坐标存在可解释的差异；（2）在MAESTRO Real上，联合活动的高分（边界F1=0.961）隐藏了类型索引上的严重边界失败（边界F1=0.304）；（3）不同的守卫坐标（如起始误差、静默守卫）会选择不同的最优检测器；（4）不同的风险配置文件（如平衡、支持率、边缘计时）会基于同一基准输出选择不同的最优检测器。实际意义：为SED任务提供了一个更透明、可审计的评估框架，有助于诊断检测器的具体边界缺陷，指导模型改进（如针对“释放尾部”或“静默泄漏”进行优化），并为不同应用场景（如语音门控、检索分段、神经解码对齐）定制评估权重。主要局限性：框架的复杂性和引入的领域特定语言可能成为应用门槛；评估结论依赖于声明的“风险序”和“校准集”，具有一定主观性；论文中的本地检测器（除合约感知模型外）性能有限，框架的诊断价值更多体现在对比和分析上，而非提升绝对性能；与领域内顶尖SED模型的直接对比缺失。 🔗 开源详情代码：论文中声明“Code, generated tables, manifests, and Lean checks for the finite frame core are supplied as ancillary material.”（代码、生成的表格、清单和用于有限帧核心的 Lean 检查作为辅助材料提供），但未在正文给出具体的代码仓库URL。需通过arXiv页面链接跳转查找。 ...

MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

📄 MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation #基准测试 #模型评估 #音视频生成 #多模态模型 #评测协议 🔥 8.1/10 | 前25% | #基准测试 | #模型评估 | #音视频生成 #多模态模型 | arxiv 学术质量 5.5/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度高 👥 作者与机构第一作者：Yujie Wei（复旦大学）通讯作者：Hongming Shan（复旦大学），Xihui Liu（香港大学）作者列表：Yujie Wei（复旦大学），Yujin Han（香港大学），Zhekai Chen（香港大学），Yongming Li（复旦大学），Kaixun Jiang（复旦大学），Zhihang Liu（阿里巴巴通义实验室），Quanhao Li（复旦大学），Zhiwu Qing（阿里巴巴通义实验室），Xiang Wang（阿里巴巴通义实验室），Zhen Xing（阿里巴巴通义实验室），Ruihang Chu（阿里巴巴通义实验室），Lingyi Hong（复旦大学），Yefei He（浙江大学），Junjie Zhou（阿里巴巴通义实验室），Junqiu Yu（复旦大学），Yang Shi（北京大学），Difan Zou（香港大学），Kai Zhu（阿里巴巴通义实验室），Shiwei Zhang（阿里巴巴通义实验室），Yingya Zhang（阿里巴巴通义实验室），Yu Liu（阿里巴巴通义实验室），Xihui Liu（香港大学），Hongming Shan（复旦大学） 💡 毒舌点评这篇工作精准切入了多镜头音视频（MSAV）生成这一前沿任务的核心评估痛点——现有工具链在范围、多样性和评估流程上的全面缺失。其贡献在于首次构建了覆盖四维数据（视频、音频、镜头、参考条件）的系统基准，并设计了一套旨在提升鲁棒性的自适应混合评估框架，成果扎实。然而，其本质是为一个新兴领域制定“考试大纲”和“评分标准”，而非提出新的“解题思路”或“知识”，在推动生成模型核心架构创新上作用间接。更关键的是，整套评估体系严重依赖多个强大的商业/闭源基础模型（如GPT-5.4, Qwen3.5, Gemini）作为裁判或工具，这不仅抬高了使用门槛，更引入了难以量化和复现的系统性偏差风险，其评估的“元可靠性”值得商榷。 ...

Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech

📄 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech #语音合成 #扩散模型 #数据集 #基准测试 #开源 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv 学术质量 5.5/7 | 影响力 2.0/2 | 可复现性 2.0/2 | 置信度高 👥 作者与机构第一作者：Semin Kim（首尔国立大学；KRAFTON）通讯作者：未说明作者列表：Semin Kim（首尔国立大学；KRAFTON），Seungjun Chung（KRAFTON），Taehong Moon（KRAFTON），Sangheon Lee（KRAFTON；韩国科学技术院），Minyoung Ahn（KRAFTON；首尔国立大学），Keon Lee（KRAFTON），Nam Soo Kim（首尔国立大学），Jaewoong Cho（KRAFTON），Ludwig Schmidt（斯坦福大学），Kangwook Lee（KRAFTON；Ludo Robotics；威斯康星大学麦迪逊分校），Dongmin Park（KRAFTON）。 💡 毒舌点评亮点：论文在推动TTS研究开源化和可复现性方面堪称典范，提供了从数据、模型到评估基准的完整开源工具链。其构建的超大规模、多来源数据池（Raon-OpenTTS-Pool）和有效的数据过滤策略，为社区提供了宝贵的研究资源。短板：模型架构方面毫无创新，完全沿用F5-TTS的DiT框架，核心贡献高度依赖于“数据工程”和规模效应，技术深度有限。这在一定程度上削弱了其在算法层面的贡献。 📌 核心摘要问题：当前顶尖的TTS模型（如Qwen3-TTS， CosyVoice 3）性能卓越，但其训练数据和处理流程不公开，阻碍了研究的可复现性和系统性进步。现有开源TTS模型（如基于Emilia训练的F5-TTS、MaskGCT）与闭源SOTA模型在性能上仍有差距。方法核心：构建了Raon-OpenTTS-Pool（615K小时英语语音数据池，整合自11个公开数据源），并通过一个基于DNSMOS、WER和语音活动比例的模型化过滤管线，从中衍生出一个510K小时的高质量子集Raon-OpenTTS-Core。基于此数据集，作者沿用F5-TTS的扩散Transformer（DiT）架构（不作修改），训练了0.3B和1B参数的模型系列Raon-OpenTTS。此外，提出了一套名为Raon-OpenTTS-Eval的结构化鲁棒性评估基准（涵盖Clean、Noisy、Wild、Expressive四种条件）。新意：其核心新颖性在于系统性地解决开源TTS研究中的“数据”和“可复现性”瓶颈。与以往仅在单一大数据集上训练的开源模型不同，本文证明了通过精心构建、过滤的大规模多源开源数据，可以显著提升现有TTS架构的性能，并建立了完整的开源研究基础设施（数据、模型、评估）。结果：在Seed-TTS-Eval上，Raon-OpenTTS-1B的WER为1.78%，SIM为0.749，在开源模型中分别排名第二和第一。在CV3-Hard-EN上，其WER（6.15%）和SIM（0.775）均为最佳。在自建的Raon-OpenTTS-Eval上，Raon-OpenTTS-1B在Clean、Noisy、Wild和Expressive四个条件下的平均WER和SIM均为最佳，并在人工评估中取得第二好的CMOS分数。意义：证明了使用大规模、经过筛选的开源数据，可以训练出性能与依赖海量私有数据的SOTA模型相媲美的TTS模型，极大地促进了该领域的透明化、可复现研究。局限：模型架构本身无创新；当前研究仅限于英语；数据过滤策略可能较为保守，未来可探索数据修正；多源数据混合策略有优化空间。 🔗 开源详情代码：https://github.com/krafton-ai/RAON-OpenTTS 模型权重：论文明确承诺公开“训练代码和检查点”，因此模型权重可通过上述GitHub仓库获取。数据集：数据集名称：Raon-OpenTTS-Pool，一个包含61.5万小时英语语音的大型开放数据池，聚合自11个公开语料库和网络录制。数据集名称：Raon-OpenTTS-Core，是从Raon-OpenTTS-Pool中筛选出的高质量子集（51万小时，1.94亿语音片段）。获取方式：论文明确承诺公开“数据池和过滤流程”，因此数据集及其构建信息可能通过上述GitHub仓库提供。论文中未提及数据集的单独下载链接。 Demo：论文中未提及。复现材料：论文中提到了公开的“训练代码和检查点”，因此具体的训练配置、模型检查点等信息应可通过上述GitHub仓库获取。论文中引用的开源项目： UVR-MDX（用于音源分离）：https://github.com/Anjok07/ultimatevocalremovergui PyAnnote 3.1（用于说话人分割）：https://huggingface.co/pyannote/speaker-diarization-3.1 Silero VAD（用于语音活动检测）：https://github.com/snakers4/silero-vad Whisper-large-v3（用于自动转录）：https://huggingface.co/openai/whisper-large-v3 HiFi-GAN（用于波形合成）：https://huggingface.co/speechbrain/tts-hifigan-libritts-16kHz 🏗️ 方法概述和架构本文的贡献是一个端到端的“数据构建-模型训练-鲁棒评估”流水线，其核心流程为：聚合多源数据 → 质量过滤 → 模型训练 → 结构化评估。 ...