语音合成 | 语音/音乐/音频论文速递

Inference-Time Scaling for Joint Audio-Video Generation

📄 Inference-Time Scaling for Joint Audio-Video Generation #语音合成 6.9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.9/10 | 前50% | #语音合成 | #语音合成 | arxiv 👥 作者与机构作者：Jaemin Jung, Kyeongha Rho, Inkyu Shin, Joon Son Chung 机构：Korea Advanced Institute of Science and Technology (KAIST), Luma AI 💡 毒舌点评这篇论文选了一个非常实际且重要的多模态生成问题——如何在推理时提升联合音视频生成的质量，而不是单纯增加训练成本。它指出了“单一验证器黑客”这个观察很有趣，且提出的多验证器组合选择和自适应奖励加权（ARW）思路有一定工程价值。然而，论文的局限性同样明显：1) 创新性有限，核心思想（ITS，多目标聚合）在单模态领域已有大量研究，本文更多是将现有范式“移植”到多模态场景并做了一些调参和组合实验，缺乏理论层面的突破。2) 实验虽然全面，但评估完全依赖现有的自动化指标，而这些指标本身可能无法完全捕捉人类对音频-视频同步和质量的感知，人类评估部分也过于简单。3) 所提方法的计算开销依然巨大，限制了其实际应用，论文也未能提出真正有效的效率优化方案。4) 影响力受限于领域，核心贡献在音频-视频生成，对更广泛的语音处理社区直接启示有限。 ...

The DeepSpeak-Agentic Dataset

📄 The DeepSpeak-Agentic Dataset #语音合成 #语音识别 #多模态模型 8.7/10 | 创新 1.6/2 | 严谨 1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前50% | #语音合成 | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 Sarah Barrington (University of California, Berkeley), Maty Bohacek (Stanford University), Hany Farid (University of California, Berkeley). *表示共同第一作者。 💡 毒舌点评这篇论文做了一件重要且及时的事：为快速兴起的实时交互式AI代理建立一个大规模、多模态的数据集。数据集本身（37小时视听对话）和为构建它而设计的自动化系统是主要贡献。然而，审稿人必须指出几个显著的短板。首先，论文的核心技术挑战——代理的响应延迟（平均3.79秒）——只是被报告了，却没有进行任何优化尝试或深入分析其对交互质量和检测的影响，这使其“基准”意义打折扣。其次，实验评估部分虽全面，但对数据集特性的挖掘不够深入。例如，论文提到了人类判断的线索，但未深入分析不同线索（如视觉、听觉、对话模式）在不同代理配置或场景下的出现频率差异。再者，论文自称解决了“实时交互”的记录问题，但方法概述部分对系统架构的描述过于简略，缺乏关键组件（如会话同步、错误处理、延迟补偿）的细节，使得“可扩展自动化系统”的 claim 缺乏足够的技术支撑。最后，关于隐私、伦理的讨论仅停留在“IRB批准”和“内容审核”层面，对于公开发布包含人脸、声音的对话数据可能引发的长期风险（如声音克隆、行为模仿）的深入探讨缺失。总体而言，这是一个好的资源论文，但在技术深度和反思性上仍有不足。 📌 核心摘要本文介绍了DeepSpeak-Agentic数据集，这是一个包含200个、超过37小时实时交互式人机对话的视听数据集，旨在为研究快速发展的具身AI代理提供一个基准。作者构建了一个可扩展的自动化数据采集系统，该系统能随机组合不同的LLM（如Llama-4, GPT-4o）、合成语音（ElevenLabs等）和视觉形象（Tavus, HeyGen）来创建AI代理，并与通过Prolific招募的人类参与者进行随机配对对话。对话内容涵盖四种场景。基于该数据集的分析表明：1）人类能快速识别AI代理（80.5%在10秒内），主要线索是不自然的动作和声音；2）现有取证检测器表现不佳，最佳音频和视频检测器的等错误率（EER）分别高达23%和33%，仅文本检测器（Desklib）表现良好（EER 8%）。该数据集公开发布，可用于多模态取证评估、人机交互研究以及未来AI代理的基准测试。 ...

WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling

📄 WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling #语音合成 #端到端 #扩散模型 #流匹配 #语音生成 #多模态模型 9.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 9.2/10 | 前25% | #语音合成 | #端到端 | #扩散模型 #流匹配 | arxiv 👥 作者与机构作者: Wenxi Chen, Dongya Jia, Yushen Chen, Zhikang Niu, Yuzhe Liang, Xiquan Li, Ruiqi Yan, Ziyang Ma, Guanrou Yang, Sanyuan Chen, Yue Wang, Zhuo Chen, Kai Yu, Xie Chen. 机构: 1) 上海交通大学, 2) 上海创新研究院, 3) 字节跳动 Seed. ...

DUET: Unified Dual-Space Emotion Control for Diffusion and Flow-Matching Driven Text-to-Speech

📄 DUET: Unified Dual-Space Emotion Control for Diffusion and Flow-Matching Driven Text-to-Speech #语音合成 #扩散模型 #流匹配 7.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7.1/10 | 前25% | #语音合成 | #扩散模型 | #流匹配 | arxiv 👥 作者与机构 Xu Zhang, Longbing Cao, Zhangkai Wu。三人均来自麦考瑞大学前沿人工智能研究中心（Frontier AI Research Centre, Macquarie University）。 💡 毒舌点评这篇工作想法巧妙，将表示工程（representation engineering）的概念移植到了语音合成领域，且实验范围很广。但几个问题不容忽视：1）梅尔空间引导部分的核心公式（Eq.5）中梯度计算细节模糊，例如如何通过可微分声码器计算\(\nabla_{\widehat{\mathbf{x}}_{0}}\,\mathcal{L}_{\mathrm{emo}}\)，是端到端微分还是代理梯度？这严重影响方法的可复现性和严谨性。2）主观评估的样本量（36样本×20人）对于支撑“最高情感适度性”的结论略显单薄。3）尽管实验了五个骨干，但StableTTS上的性能（平均48.8%）与其它骨干差距明显，且该骨干架构相对简单，是否暗示DUET对模型容量或架构复杂度有隐含依赖？论文对此讨论不足。4）开源仅提供了引用项目的链接，DUET本身无任何开源材料，这在声称“plug-and-play”和“复现性”的今天是重大减分项。 📌 核心摘要本文发现，在未经情感监督预训练的扩散与流匹配TTS模型中，情感信息在隐藏状态里表现为一个可线性解码的方向，且该方向与编码说话人身份的方向近似正交。基于此发现，本文提出了DUET框架，这是一个即插即用的方法，通过在去噪的每一步统一执行双空间控制来实现情感生成：1) 在隐藏空间，沿探测得到的情感方向对特定层的隐藏状态进行范数自适应的引导；2) 在梅尔空间，通过将外部情感识别器的损失梯度经由可微分声码器反向传播，对清洁梅尔频谱估计进行引导。实验表明，在五个不同的预训练TTS骨干上，DUET在三个数据集上的平均情感识别准确率超过了10个监督学习基线模型，并在主观评价中获得了最高的情感适度性评分。此外，DUET在Ameca人形机器人上的部署展示了其在具身情感交互中的应用潜力。 ...

Local Diagnostics of Continuous Normalizing Flow for Out-of-Distribution Detection

📄 Local Diagnostics of Continuous Normalizing Flow for Out-of-Distribution Detection #语音合成 #生成模型 8.1/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 🔥 8.1/10 | 前50% | #语音合成 | #生成模型 | arxiv 👥 作者与机构 Xinwei Cao, Mengxuan Lu, Torbjørn Svendsen, Giampiero Salvi。作者机构包括：挪威科技大学电子系（NTNU）与清华大学。 💡 毒舌点评这篇论文的“拉格朗日子流”和“运动学密封”概念包装得挺花哨，本质上是在CNF中通过掩码对子空间向量场进行“外科手术式”的截断，以期获得更干净的诊断信号。想法有一定启发性，理论推导也算自圆其说。然而，实验部分堪称“单点支撑”：所有验证都局限在“语音发音错误检测”这一个任务、CMU Kids这一个小数据集上，且与SOTA判别方法（GOP-CTC-SF，AUC=0.915）的性能差距巨大（本文最好AUC=0.738）。论文声称“可与传统判别模型方法相当”，但这仅在与过时的GMM基线对比时成立，在顶会语境下这种claim显得底气不足。方法的核心优势——规避全局耦合——是否在其他领域（如图像）成立，完全是一个未解之谜。此外，论文将流匹配的“直线路径”假设作为几何度量的基础，但未深入分析该假设的普适性。整体而言，这是一篇有初步想法、但验证严重不足的工作，更像一篇领域内的初步探索报告，距离证明一个通用、强大的OOD检测方法还有很长的路要走。 📌 核心摘要本文针对高维数据中目标观测嵌入子空间的分布外检测问题，提出了一种基于连续归一化流（CNF）的拉格朗日子流（LSF）框架。该框架通过“运动学密封”（Kinematic Sealing）隔离目标子空间的动力学，以分析其局部轨迹，从而规避全局流耦合带来的“维间密度泄漏”（inter-dimensional density leakage）干扰。论文进而定义了基于速度场和子流雅可比矩阵轨迹的几何诊断信号（如DISP, COS），并应用于CNF生成模型的“似然悖论”问题。在基于CNF的语音合成模型（F5-TTS）上的零样本音素级发音错误检测任务中，所提出的几何度量（如GOP-COS）在相对度量下表现出优于传统基于似然度量的性能，并接近但未超越基于判别模型的基线方法。 🔗 开源详情代码：论文未提供作者代码仓库的链接。模型权重：使用了公开预训练模型 F5-TTS，具体检查点为 F5TTS_v1_Base/1250000，可在 HuggingFace Hub 获取（https://huggingface.co/F5-TTS）。数据集：使用了 CMU Kids 数据集（CMU Kids corpus），为公开语音数据集。复现材料：论文在附录中提供了详细的实验设置：模型：F5-TTS，检查点 F5TTS_v1_Base/1250000。强制对齐工具：使用 Kaldi 训练的单音素强制对齐器。 ODE求解器：Euler方法，32步积分。采样策略：摆动因子 SF=-1，禁用分类器自由引导（CFG）。硬件环境：AMD Ryzen Threadripper 3960X CPU, 126 GB RAM, 2x NVIDIA GeForce RTX 3090 GPUs。度量定义：所有MDD指标的数学定义及相对版本计算方法在附录B中给出。引用的开源项目： F5-TTS：https://github.com/SWivid/F5-TTS Kaldi：https://github.com/kaldi-asr/kaldi PyTorch：https://github.com/pytorch/pytorch diffusions library：https://pypi.org/project/diffusions/ 🏗️ 方法概述和架构本文提出的“拉格朗日子流（LSF）框架”旨在对预训练CNF生成模型进行事后（post-hoc）的局部诊断分析，以进行子空间OOD检测。其核心架构和组件如下： ...

PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects

📄 PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects #多语言 #低资源 #语音识别 #语音合成 8.8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.8/10 | 前50% | #语音识别 | #多语言 | #低资源 #语音合成 | arxiv 👥 作者与机构论文作者为 Sicheng Yang, Shulan Ruan, Shiwei Wu, Yu Liu, Lu Fan, Zhi Li, You He。主要机构包括清华大学深圳国际研究生院、清华大学电子工程系以及京东AI研究。 ...

SN-WER: Script-Normalized WER for Multi-Script Indic ASR Evaluation

📄 SN-WER: Script-Normalized WER for Multi-Script Indic ASR Evaluation #语音识别 #多语言 #语音合成 #预训练 5.3/10 | 创新 0.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0/1.5 📝 5.3/10 | 前50% | #语音识别 | #预训练 | #多语言 #语音合成 | arxiv 👥 作者与机构作者：Priyaranjan Pattnayak 单位：Oracle America Inc. 联系邮箱：priyaranjanpattnayak@gmail.com 领域：cs.CL (计算语言学) 💡 毒舌点评这是一篇典型的“解决问题比方法创新更重要”的论文。核心思想——计算WER前先统一脚本——在业界实践中早已是常识，作者自己也承认不是新概念。论文的贡献主要在于系统性地量化了印度语言ASR中脚本不匹配效应，并为一个实用的评估补充指标提供了详尽的实证依据。它就像一个精心制作的工具说明书，虽然工具本身（标准化后再计算）不复杂，但说明书（实验设计和验证）非常扎实。对于顶会来说，缺乏方法论的突破或理论深度是一个明显短板。不过，其清晰的定位（伴侣指标）和严谨的验证过程，使其在特定应用场景（多语言ASR评估）中仍有一定价值。 📌 核心摘要本文针对多语言ASR评估中，假设文本为罗马化而参考文本为原生脚本时传统WER被高估的问题，提出了Script-Normalized WER (SN-WER)。这是一个仅用于评估的伴侣指标，其核心是在计算WER前，使用确定性转写器将参考和假设文本都转换为该语言的规范脚本（通常为原生脚本）。通过在5种印度语言、2个数据集和3个ASR模型上的系统评估，论文证明：1）SN-WER能在干净数据集（FLEURS）上显著缩小因脚本不匹配造成的模型评估差距（最高达12%）；2）在噪声数据集（Common Voice）上，SN-WER效果较小，能更好地暴露真实的识别缺陷；3）SN-WER对真正的识别错误保持与WER几乎相同的敏感性；4）方法对转写器选择和规范化选项鲁棒。作者强调SN-WER应作为WER/CER的补充报告，而非替代品，特别适用于脚本选择与下游任务无关的场景（如搜索、索引）。 🔗 开源详情代码：论文中未提及提供SN-WER的实现代码或评估脚本。模型权重：论文中使用的ASR模型（Whisper-large-v3, Whisper-small, MMS）均为公开模型，可通过HuggingFace Hub等平台获取，但论文本身未提供直接链接或特定版本。数据集： FLEURS: https://huggingface.co/datasets/google/fleurs Common Voice v17: https://commonvoice.mozilla.org/en/datasets 论文明确使用了这些数据集。 Demo：未提及。复现材料：未提供训练配置、检查点、附录等详细复现材料。论文重点在于提出评估方法（SN-WER），并提供了完整的评估框架描述（转写工具、归一化步骤）和结果分析表格，为自行实现提供了蓝图。论文中引用的开源项目： Whisper (OpenAI)：https://github.com/openai/whisper Massively Multilingual Speech (MMS, Meta AI)：https://github.com/facebookresearch/fairseq/tree/main/examples/mms ICU (International Components for Unicode)：https://icu.unicode.org/ FLEURS 数据集：https://huggingface.co/datasets/google/fleurs Common Voice 数据集：https://commonvoice.mozilla.org/en/datasets IAST-style和ITRANS-style转写方案的具体实现通常集成在ICU或如indic-transliteration等开源库中，但论文未提供特定库链接。 🏗️ 方法概述和架构 SN-WER是一个评估流水线，旨在量化多语言ASR评估中由脚本不匹配导致的WER失真。其核心架构可拆分为以下几个关键组件： ...

Sympatheia: Emotionally Adaptive Voice Assistant with Continuous Affect Conditioning

📄 Sympatheia: Emotionally Adaptive Voice Assistant with Continuous Affect Conditioning #参数高效微调 #语音合成 #语音识别 9.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.6/10 | 前25% | #语音合成 | #参数高效微调 | #语音识别 | arxiv 👥 作者与机构 Sukru Samet Dindar, Riki Shimizu, Xilin Jiang, Nima Mesgarani。单位：Columbia University。未在论文中注明具体会议或期刊，仅为arXiv预印本。 💡 毒舌点评论文提出的框架在理念上清晰且有实际意义，试图解决语音助手缺乏情感适应性的痛点。其模块化接口的设计思路值得肯定，为整合多模态情感信号提供了灵活方案。然而，论文的“主要贡献”中，声称构建了“首个”用于情感条件语音对话的合成数据集，这一说法可能需要更严谨的文献调研来支撑，因为近期类似工作（如BLSP-Emo的配套数据构建）已在该方向上有所探索。此外，所有实验均基于合成数据构建、合成数据训练、合成语音评估的闭环，虽然论文提供了真实语音的评估，但核心结论的普适性仍需在更复杂、更真实的交互场景中得到验证。方法部分对连续VA控制信号的“连续性”优势有所强调，但消融实验仅展示了对锚点加噪的鲁棒性，未能充分展示在连续空间内插值或外推时的生成行为变化，对于“连续”这一核心主张的验证略显不足。 📌 核心摘要本文提出了Sympatheia，一个情感自适应语音对话框架，旨在解决日常对话中情感线索微弱或模糊的挑战。该框架结合了从用户语音中隐式推断情感，以及通过连续效价-唤醒度（VA）控制信号进行显式情感调节的能力。VA信号可来自外部多模态感知模块（如面部表情、生物信号、文本描述）或用户界面。为训练模型，作者构建并开源了Sympatheia-18k数据集，包含约18,000个情感条件合成语音对话对，分为情感子集（约12k样本）和中性子集（500个中性查询各对应12种情感响应）。模型基于GLM-4-Voice-9B，通过LoRA进行微调。实验表明，Sympatheia在情感适配度、情感MOS及韵律控制等方面优于多个强语音对话基线。论文还证明了其模块化接口能有效集成多种外部情感感知模块的输出，提升在用户语音情感模糊时的响应对齐度。 🔗 开源详情代码：https://github.com/susameddin/sympatheia （Apache 2.0）模型权重：https://huggingface.co/susameddin/Sympatheia （Apache 2.0，与GLM-4-Voice基础模型许可绑定）数据集：Sympatheia-18k， https://huggingface.co/datasets/susameddin/Sympatheia-18k （CC BY 4.0） Demo：https://susameddin.github.io/sympatheia/ 复现材料：论文提供了极其详细的复现信息，包括：训练配置：LoRA参数（rank 32, \(\alpha\)=32, dropout 0.1），优化器（AdamW, \(\beta_1\)=0.9, \(\beta_2\)=0.999），学习率（\(10^{-4}\)），批大小（16），训练轮次（5 epochs），检查点选择（基于验证损失和人工检查，步数2800）。数据集创建细节：提供了用于生成查询和响应的完整提示模板（表5，表6，表7），以及情感风格控制策略。 VA锚点坐标：表4列出了12个情感锚点的具体VA坐标。评估协议：提供了LLM评判官的提示模板（表8，表9）和人类评估的详细方案。计算资源：描述了训练和评估所用的GPU类型及时间估计。论文中引用的开源项目：基础模型：GLM-4-Voice-9B, Qwen3-32B-Instruct, Qwen3-TTS, Qwen3-Omni, Qwen2.5-Omni, Kimi-Audio 评估基线与数据集：VoiceBench CommonEval, AffectNet+, SEED-VII, YAAD, ISEAR 工具模型：HSEmotion, Emotion English DistilRoBERTa-base, all-MiniLM-L6-v2, UTMOS, BERTScore, ROUGE-L, LoRA (PEFT), DeepSpeed ZeRO 许可证与使用条款：论文明确列出了所有外部资产（表20）的许可证或访问条款，并声明仅用于研究目的。 🏗️ 方法概述和架构 Sympatheia框架是一个端到端的语音到语音对话系统，其核心目标是生成语义合适且情感对齐的语音响应。系统由两大部分组成：(1) Sympatheia核心语音对话模型；(2) 可插拔的上游情感感知模块。二者通过一个简洁的连续效价-唤醒度（VA）接口解耦。 ...

UniVocal: Unified Speech-Singing Code-Switching Synthesis

📄 UniVocal: Unified Speech-Singing Code-Switching Synthesis #语音合成 #语音生成 #音频生成 #音乐生成 #自监督学习 #课程学习 #数据增强 8.9/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 0/1.5 🔥 8.9/10 | 前25% | #语音合成 | #自监督学习 | #语音生成 #音频生成 | arxiv 👥 作者与机构作者: Yufei Shi, Qian Chen, Wen Wang, Xiangang Li, Zhen-Hua Ling, Yang Ai 机构: Tongyi Fun Team, Alibaba Group; Independent Researcher ...

A Unified and Reproducible Experimentation Framework for Speech Understanding

📄 A Unified and Reproducible Experimentation Framework for Speech Understanding #语音识别 #语音合成 #语音情感识别 #语音翻译 #低资源 #基准测试 📝 5.5/10 | 前50% | #语音识别 | #语音合成 | #语音情感识别 #语音翻译 | arxiv 学术质量 5.5/7 | 影响力 5.0/2 | 可复现性 1.5/2 | 置信度中 👥 作者与机构论文作者来自上海交通大学X-LANCE实验室、南京大学、杭州电子科技大学、香港中文大学（深圳）以及AISpeech Ltd。主要联系人为上海交通大学的Peng Du和Kai Yu。 💡 毒舌点评这篇工作本质上是一份详尽的“实验工具使用说明”和“初步评测报告”，而非一篇技术方法论或系统性突破的论文。它正确地指出了语音理解领域评测标准不统一、结果不可比和训练难复现的痛点，但给出的解决方案——一个评测框架和一套转换脚本——更像是一个工程团队或社区维护的“基础设施”，而非NeurIPS级别论文应有的理论或算法贡献。核心“创新”在于“统一”和“标准化”，但这些都是朴素且早该做的事情。最大的亮点是那个“智能体辅助转换流水线”，这听起来很时髦，但论文里只用了两个模型做了个“概念验证”，说服力严重不足。整篇论文读起来像是一个大型项目README的学术化版本，充满了链接、格式说明和“我们发布了…”的宣告。给5.5分，是对其指出正确问题并迈出第一步的鼓励，但其学术贡献的深度和广度远未达到顶会论文的标准。 📌 核心摘要针对语音理解领域模型评估标准不统一、结果不可比以及训练过程难以复现的问题，本文提出了一个名为SURE的统一实验框架。该框架通过三个核心赛道进行设计：1) 面向真实场景的前端语音任务压力测试（Track I）；2) 全栈语音理解能力的横向对比评估（Track II）；3) 通过智能体辅助的代码转换流程，实现基于统一协议和开源数据的受控从头训练初步探索（Track III）。框架提供了统一的预测格式、归一化方法、评分脚本及动态的相对性能评分（RPS）指标。实验发现，在干净条件下级联管道在核心感知任务上仍有竞争力，情感识别是普遍挑战，且初步的受控训练结果显示不同模型在各任务上表现与其设计重点相关。 🔗 开源详情代码：项目主页：https://sure-eval-framework.github.io/speechllm_series/ 统一评估流水线：https://anonymous.4open.science/r/evaluation-pipeline-839C 代理辅助训练转换流水线：https://anonymous.4open.science/r/ReproAgent-9898 模型权重：论文中未提及开源模型权重。数据集：论文中提及了多个开源数据集（VoxPopuli-en, AISHELL-5, AMI, AliMeeting, CS-Dialogue, KeSpeech, ContextASR, LibriSpeech, AISHELL-1, CoVoST2, IEMOCAP, MELD, SLURP, MMSU-Reason），并指出测试和训练套件已发布在ModelScope：https://modelscope.cn/datasets/SUREBenchmark/SURE_Test_Suites。 Demo：论文中未提及。复现材料：论文未提供具体的训练配置、检查点或附录链接。但论文详细描述了代理辅助转换流程，该流程可将论文和代码转换为可运行的swift训练流程，并提供版本化的转换计划和验证报告。论文中引用的开源项目： meeteval：用于计算DER和cpWER的后端工具。 sacrebleu：用于计算BLEU和chrF2的工具。 swift：用于可控训练的开源框架。（注：以上工具在论文脚注中提供了链接） 🏗️ 方法概述和架构 SURE是一个端到端的实验套件，其核心架构分为统一评估流水线和智能体辅助训练转换流水线两大部分。 ...