数据集 | 语音/音乐/音频论文速递

Text2Move: Text-To-Moving Sound Generation via Trajectory Prediction and Temporal Alignment

📄 Text2Move: Text-To-Moving Sound Generation via Trajectory Prediction and Temporal Alignment #空间音频 #音频生成 #预训练 #多任务学习 #数据集 🔥 8.0/10 | 前25% | #空间音频 | #多任务学习 | #音频生成 #预训练学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yunyi Liu（悉尼大学 University of Sydney）通讯作者：未说明作者列表：Yunyi Liu（悉尼大学）、Shaofan Yang（杜比实验室 Dolby Laboratories）、Kai Li（杜比实验室）、Xu Li（杜比实验室） 💡 毒舌点评论文的亮点在于其巧妙的“分解”思想，将复杂的移动声音生成问题拆解为可控的轨迹预测、单声道音频生成与基于对象的音频空间化，框架清晰且具有很好的模块化扩展性。但短板在于，为了评估轨迹预测模块，构建了一个基于线性匀速运动的简化合成数据集，这可能无法充分代表真实世界中声音轨迹的复杂性和音频的多样性，使得方法在泛化到真实场景时的有效性存疑。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：论文中明确说明构建了合成数据集（76,850个样本），但未提供公开下载或获取方式。 Demo：提供了在线演示网站链接：https://reinliu.github.io/text2move/。复现材料：论文给出了部分训练细节（优化器、学习率、轮数、批次大小等），但未提供完整的配置、检查点或附录说明。论文中引用的开源项目：使用了DistilBERT文本编码器[14]、Make-An-Audio 2扩散模型[16]、AudioTime数据集[17]和HRTF库[18]。 📌 核心摘要问题：现有文本驱动的空间音频生成主要聚焦于静态声源，无法有效生成具有动态空间运动的声音，限制了沉浸式体验。方法核心：提出一种混合框架，将生成过程分解为：a) 从文本预测声源的三维时空轨迹；b) 微调一个预训练的文本到音频模型以生成与该轨迹时间对齐的单声道音频；c) 基于预测的轨迹对单声道音频进行基于对象的空间化模拟。新意：首次在统一框架中显式地连接了文本、轨迹和音频，利用了“轨迹”作为中间表示来提供精确的空间和时间控制，区别于端到端生成FOA或双耳音频的方法。主要结果：文本到轨迹模型在合成测试集上表现出合理的预测能力（例如，方位角MAE为18.53°，范围感知MAE为15.52°）。轨迹预测器和时间调整器均能实现高精度的时间对齐（起止点MAE均低于0.01秒，重叠率OLR分别为0.86和0.94）。与仅预测端点的基线模型相比，全轨迹预测模型的绝对精度较低，但预测结果仍落在预定义的空间范围内。实际意义：为可控的移动声音生成提供了新思路，可集成到现有的文本到音频工作流中，应用于VR/AR、游戏、电影音效等需要动态空间音频的领域。主要局限性：完全依赖于构建的合成数据集进行训练和评估，数据集中的运动轨迹为简单的线性匀速运动，音频与空间属性是解耦合成的，可能无法完全反映真实世界数据的复杂性；未与现有的端到端空间音频生成方法在生成质量（如听感自然度、空间准确性）上进行直接对比。 🏗️ 模型架构本文提出的Text2Move框架由两个主要部分构成，其整体架构如图1所示。 ...

The 3rd Clarity Prediction Challenge: A Machine Learning Challenge for Hearing aid Speech Intelligibility Prediction

📄 The 3rd Clarity Prediction Challenge: A Machine Learning Challenge for Hearing aid Speech Intelligibility Prediction #语音增强 #预训练 #基准测试 #模型评估 #数据集 ✅ 7.5/10 | 前25% | #语音增强 | #预训练 | #基准测试 #模型评估学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jon Barker (谢菲尔夫大学计算机系) 通讯作者：未说明作者列表：Jon Barker (谢菲尔夫大学计算机系), Michael A. Akeroyd (诺丁汉大学医学院), Trevor J. Cox (索尔福德大学声学研究中心), John F. Culling (卡迪夫大学心理学系), Jennifer Firth (诺丁汉大学医学院), Simone Graetzer (索尔福德大学声学研究中心), Graham Naylor (诺丁汉大学医学院) 💡 毒舌点评亮点：该论文最大的贡献是构建并开源了一个目前规模最大、最具生态效度的助听器语音可懂度预测数据集与基准，其精心设计的“三轮渐进式挑战”和“评估集完全未见”模式，为评估模型的真实泛化能力设立了黄金标准。短板：作为一篇挑战赛总结报告，它更侧重于结果汇编与现象分析（如听众变异），而对顶尖系统的具体技术路径、失败案例的深层原因挖掘深度有限，更像是一份详尽的“官方赛事白皮书”，而非一篇聚焦于某个算法突破的学术论文。 ...

The Singing Voice Conversion Challenge 2025: From Singer Identity Conversion to Singing Style Conversion

📄 The Singing Voice Conversion Challenge 2025: From Singer Identity Conversion to Singing Style Conversion #歌唱语音转换 #基准测试 #数据集 #开源工具 ✅ 7.0/10 | 前50% | #歌唱语音转换 | #基准测试 | #数据集 #开源工具学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Lester Phillip Violeta（Nagoya University, Japan）通讯作者：未说明作者列表：Lester Phillip Violeta（Nagoya University, Japan），Xueyao Zhang（The Chinese University of Hong Kong, Shenzhen, China），Jiatong Shi（Carnegie Mellon University, USA），Yusuke Yasuda（National Institute of Informatics, Japan），Wen-Chin Huang（Nagoya University, Japan），Zhizheng Wu（The Chinese University of Hong Kong, Shenzhen, China），Tomoki Toda（Nagoya University, Japan） 💡 毒舌点评这篇论文的核心价值在于清晰地将“歌唱风格转换”确立为一个独立的、系统性的研究基准，并提供了精心设计的任务和评估框架，这对推动领域从单纯的“歌手克隆”向更精细的控制迈进具有导航意义。然而，作为一项挑战赛报告，其主要贡献在于提出问题、组织比赛和总结现有方法的表现，而非提出一个能显著超越现有技术的新模型或算法，论文中也坦承“歌唱风格转换仍然挑战重重”，未能给出引领性的解决方案。 ...

The Structured Output Benchmark: A Multi-Source Benchmark for Evaluating Structured Output Quality in Large Language Models

📄 The Structured Output Benchmark: A Multi-Source Benchmark for Evaluating Structured Output Quality in Large Language Models #基准测试 #模型评估 #大语言模型 #数据集 #跨模态 ✅ 7.0/10 | 前25% | #基准测试 | #大语言模型 | #模型评估 #数据集 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Abhinav Kumar Singh（JigsawStack, Inc.）通讯作者：未说明作者列表：Abhinav Kumar Singh（JigsawStack, Inc., New Delhi, India），Harsha Vardhan Khurdula（JigsawStack, Inc., San Francisco, CA, USA），Yoeven D Khemlani（JigsawStack, Inc., San Francisco, CA, USA），Vineet Agarwal（JigsawStack, Inc., Durgapur, WB, India） 💡 毒舌点评这篇论文直击了大模型应用中的一个真实痛点：生成的JSON格式完美但内容胡说八道，并提供了迄今最系统的跨模态评估框架。不过，其“多模态”评估实则是把图像和音频先转成文本再喂给模型，相当于跳过了最关键、最容易出错的视觉和语音理解环节，这使得对多模态大模型的直接评估力度大打折扣。 ...

Time vs. Layer: Locating Predictive Cues for Dysarthric Speech Descriptors in Wav2vec 2.0

📄 Time vs. Layer: Locating Predictive Cues for Dysarthric Speech Descriptors in Wav2vec 2.0 #语音质量评估 #注意力机制 #预训练模型 #病理语音 #数据集 ✅ 7.5/10 | 前50% | #语音质量评估 | #注意力机制 | #预训练模型 #病理语音学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Natalie Engert（Technische Hochschule Nürnberg Georg Simon Ohm, Germany）通讯作者：未说明作者列表：Natalie Engert（Technische Hochschule Nürnberg Georg Simon Ohm, Germany）、Dominik Wagner（Technische Hochschule Nürnberg Georg Simon Ohm, Germany）、Korbinian Riedhammer（Technische Hochschule Nürnberg Georg Simon Ohm, Germany）、Tobias Bocklet（Technische Hochschule Nürnberg Georg Simon Ohm, Germany） 💡 毒舌点评亮点：研究设计非常系统，对“时间 vs. 层”这个核心问题的分析很到位，不仅给出了整体结论，还通过注意力权重可视化揭示了不同严重程度下层重要性的变化，这种临床视角下的可解释性分析是加分项。短板：作为一篇发表在顶会的论文，方法上的创新显得有些“温和”，更像是对现有工具（Wav2vec 2.0 + ASP）的一次精心设计的应用研究，缺乏一个更强大的、统一的模型架构来同时建模时间与层信息（尽管结论中提到了这是未来工作）。 ...

TinyMU: A Compact Audio-Language Model for Music Understanding

📄 TinyMU: A Compact Audio-Language Model for Music Understanding #音乐理解 #多模态模型 #自监督学习 #数据集 #音频问答 ✅ 7.5/10 | 前25% | #音乐理解 | #多模态模型 | #自监督学习 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xiquan Li（LTCI, Télécom Paris, Institut Polytechnique de Paris；上海交通大学）通讯作者：未说明（论文未明确标注通讯作者）作者列表：Xiquan Li（LTCI, Télécom Paris, Institut Polytechnique de Paris；上海交通大学），Aurian Quelennec（LTCI, Télécom Paris, Institut Polytechnique de Paris），Slim Essid（LTCI, Télécom Paris, Institut Polytechnique de Paris；NVIDIA） 💡 毒舌点评本文最大的亮点在于系统性地探索了如何“经济高效”地训练音乐语言模型，不仅提供了229M参数的紧凑模型，还贡献了配套的高质量数据集MusicSkills-3.5M，并通过大量消融研究（编码器、微调策略、数据构成）给出了清晰的设计指南。但短板同样明显：论文将主要精力用于证明“以小博大”在性能数字上的可行性，却缺乏对真实边缘设备部署的推理速度、功耗等实际约束的验证，使得“Compact”一词的实践意义打了折扣；此外，实验部分主要对标通用的音频-语言大模型，在与传统音乐信息检索（MIR）基线方法的深入对比上有所欠缺，削弱了其在专业音乐领域的说服力。 ...

TMD-TTS: A Unified Tibetan Multi-Dialect Text-to-Speech Framework for Ü-Tsang, Amdo and Kham Speech Dataset Generation

📄 TMD-TTS: A Unified Tibetan Multi-Dialect Text-to-Speech Framework for Ü-Tsang, Amdo and Kham Speech Dataset Generation #语音合成 #流匹配 #方言建模 #低资源 #数据集 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #方言建模 #低资源学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yutong Liu（电子科技大学信息与软件工程学院）、Ziyue Zhang（电子科技大学信息与软件工程学院）（论文显示两人贡献相等，标注为†）通讯作者：Yongbin Yu（电子科技大学信息与软件工程学院）、Xiangxiang Wang（电子科技大学信息与软件工程学院）、Nyima Tashi（电子科技大学信息与软件工程学院 & 西藏大学信息科学技术学院）作者列表：Yutong Liu（电子科技大学信息与软件工程学院），Ziyue Zhang（电子科技大学信息与软件工程学院），Ban Ma-bao（电子科技大学信息与软件工程学院），Renzeng Duojie（西藏大学信息科学技术学院），Yuqing Cai（电子科技大学信息与软件工程学院），Yongbin Yu（电子科技大学信息与软件工程学院），Xiangxiang Wang（电子科技大学信息与软件工程学院），Fan Gao（电子科技大学信息与软件工程学院），Cheng Huang（美国德克萨斯大学西南医学中心眼科），Nyima Tashi（电子科技大学信息与软件工程学院 & 西藏大学信息科学技术学院） 💡 毒舌点评亮点在于其问题定义精准——直接针对藏语三大方言互不相通的现实痛点，并设计了端到端的解决方案与数据生成管线，形成了从模型到数据集的完整闭环。短板在于其核心方法DSDR-Net的本质是在Transformer的FFN中引入了基于方言ID的条件计算，这属于对标准架构的合理扩展，理论创新深度有限，且论文对训练损失等细节描述不足。 ...

Towards Robust Dysarthric Speech Recognition: LLM-Agent Post-ASR Correction Beyond WER

📄 Towards Robust Dysarthric Speech Recognition: LLM-Agent Post-ASR Correction Beyond WER #语音识别 #大语言模型 #鲁棒性 #数据集 #模型评估 🔥 9.0/10 | 前25% | #语音识别 | #大语言模型 | #鲁棒性 #数据集学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Xiuwen Zheng（UIUC， Dept. of ECE）通讯作者：未说明作者列表：Xiuwen Zheng（UIUC， Dept. of ECE）、Sixun Dong（独立研究者）、Bornali Phukon（UIUC， Dept. of ECE）、Mark Hasegawa-Johnson（UIUC， Dept. of ECE）、Chang D. Yoo（KAIST， Dept. of EE） 💡 毒舌点评这篇论文的亮点在于它精准地指出了语音识别领域“唯WER论”在特定场景（构音障碍语音）下的失效，并务实提出了一个训练成本低、可即插即用的LLM智能体解决方案和配套的基准数据集。不过，其“智能体”的核心本质仍是给定上下文的纠错模型，对LLM更复杂的自主规划、多轮工具调用等“智能体”特性探索有限，更像是一个精巧的后处理模块。 🔗 开源详情代码：论文中未提及明确的代码仓库链接。模型权重：提供了公开权重。包括：1) 基准模型：来自GenSEC Challenge的Llama-2-7B-H（在HyPoradise上微调）；2) 部分本文微调的模型（链接指向Hugging Face）。数据集：公开。SAP-Hypo5数据集可通过Hugging Face获取（链接：https://huggingface.co/datasets/xiuwenz2/SAP-Hypo5）。 Demo：未提及。复现材料：提供了详细的训练细节（LoRA参数、量化、硬件、时长）、数据预处理步骤和评估指标计算方法，复现信息较为充分。论文中引用的开源项目：依赖的开源工具/模型包括：Qwen2.5、Qwen3、Llama-2、Llama-3系列模型；LoRA库；Hugging Face Transformers库；用于SLU评估的预训练模型（XLM-RoBERTa on MASSIVE）。 📌 核心摘要要解决的问题：针对构音障碍（Dysarthric）语音识别，传统词错误率（WER）无法准确衡量系统在实际应用中对语义的保真度，导致评估与实用需求脱节。方法核心：将后处理ASR输出重新定义为智能体决策问题。提出一个Judge-Editor智能体（JEA），它接收ASR系统输出的top-k个候选假设，由“法官”（Judge）组件评估每个片段的跨假设一致性和置信度，“编辑器”（Editor）组件则对不确定片段进行重写或融合，最终生成一个保持原意的转录。与已有方法相比新在哪里：1) 首次针对构音障碍语音，将LLM后处理建模为明确的“判断-编辑”智能体流程。2) 发布了最大的构音障碍语音纠正基准数据集SAP-Hypo5（35k语句）。3) 设计了超越WER的细粒度、多维度评估协议，整合了语义相似度和下游口语理解任务指标。主要实验结果：在SAP-Hypo5测试集（易错样本）上，微调后的JEA相比ASR基线实现了：WER降低14.51%（从21.98%降至18.79%），MENLI（自然语言推理）提升7.66个百分点（至63.21%），Slot Micro F1提升7.66个百分点（至59.81%）。消融实验证明Judge和Editor组件结合使用效果最佳。方法/模型 WER ↓ Q-Emb ↑ BERT F1 ↑ MENLI ↑ Intent Acc. ↑ Slot F1 ↑ ASR基线 21.98 88.18 74.51 55.62 82.51 52.15 + JEA (零样本) Qwen2-7B-I 21.74 88.22 74.65 55.90 82.64 52.70 Llama-2-7B-H 24.25 88.80 75.39 59.90 83.34 53.45 + JEA (微调) Qwen2-7B 18.79 89.84 77.92 62.88 85.45 57.85 Qwen3-8B 19.26 89.57 77.53 62.03 84.24 57.99 Llama-2-7B 19.23 89.77 78.06 63.21 85.00 59.43 Llama-3.1-8B 18.89 89.97 78.35 63.21 84.94 59.81 (表：SAP-Hypo5测试集（Err样本组）上各Judge-Editor智能体的多指标结果) ...

Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction

📄 Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction #语音分离 #课程学习 #音频安全 #数据集 ✅ 7.0/10 | 前25% | #语音分离 | #课程学习 | #音频安全 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Yun Liu（日本国立信息学研究所；综合研究大学院大学）通讯作者：未说明（论文未明确指定通讯作者，通常根据邮箱判断，此处多个邮箱并列）作者列表：Yun Liu（日本国立信息学研究所 & 综合研究大学院大学）、Xuechen Liu（日本国立信息学研究所）、Xiaoxiao Miao（昆山杜克大学自然科学与应用科学部）、Junichi Yamagishi（日本国立信息学研究所 & 综合研究大学院大学） 💡 毒舌点评亮点：将“训练动态可视化”（Dataset Cartography）引入TSE任务，并创新性地结合多因子（SNR、说话人数、重叠率、数据来源）联合调度，克服了传统课程学习依赖预设单一难度指标的缺陷，在复杂多说话人场景下取得了显著的性能增益。短板：实验仅在单一数据集（Libri2Vox）和一种相对简单的BLSTM模型上验证，未在更先进的模型架构（如基于Transformer的）和更多元的数据集上测试其通用性；TSE-Datamap区域的划分比例（30%，50%，20%）是经验值，缺乏理论支撑或自动优化机制。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：提及了使用Libri2Vox数据集及其合成变体，并引用了相关数据集论文，但未提供本工作生成的数据或脚本。 Demo：未提及。复现材料：提供了较详细的训练配置（优化器、学习率调度、早停）、数据采样参数、模型架构描述，但缺少超参数网格搜索细节、具体的数据预处理脚本和硬件信息。论文中引用的开源项目：ECAPA-TDNN（预训练说话人模型）、SALT（语音合成模型）、SynVox2（语音匿名化/合成模型）。论文中未提及开源计划。 📌 核心摘要问题：现有针对目标说话人提取（TSE）的课程学习方法通常单独处理不同难度因子（如SNR、说话人数），无法建模因子间的复杂交互，且依赖可能不符合模型实际学习情况的预设难度指标。方法核心：提出多因子课程学习策略，联合调度SNR、干扰说话人数、时间重叠比和干扰源类型（真实/合成）四个因子；同时提出TSE-Datamap框架，通过跟踪训练过程中每个样本的损失置信度和变异性，在二维空间将数据分为“易学习”、“模糊”和“难学习”三个区域，以指导数据选择。创新：相较于传统单因子、预设规则的课程学习，本文方法实现了多因子协同渐进式学习，并首次将训练动态可视化（TSE-Datamap）应用于TSE，使课程设计基于模型实际学习行为。 ...

Training Flow Matching Models with Reliable Labels via Self-Purification

📄 Training Flow Matching Models with Reliable Labels via Self-Purification #语音合成 #流匹配 #数据集 #鲁棒性 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #数据集 #鲁棒性学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hyeongju Kim（Supertone, Inc.；通讯邮箱：login588@snu.ac.kr，机构可能与首尔大学相关）通讯作者：Hyeongju Kim（Supertone, Inc.）作者列表：Hyeongju Kim（Supertone, Inc.）、Yechan Yu（Supertone, Inc.）、June Young Yi（Supertone, Inc.）、Juheon Lee（Supertone, Inc.） 💡 毒舌点评亮点在于其“自我净化”的哲学——让模型在训练中自己学会识别并“扔掉”错误的标签，这种无需外部模块的简洁设计在嘈杂数据时代颇具吸引力。短板是其核心机制（L_cond > L_uncond 作为过滤阈值）的普适性和鲁棒性边界尚未在更广泛的生成任务（如图像生成）上得到充分验证，显得有些“TTS-centric”。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/supertone-inc/self-purifying-flow-matching。模型权重：论文中未提及公开预训练模型权重。数据集：论文使用了公开的TITW数据集，但未提及是否提供了处理后的版本或获取方式。合成数据实验的代码已开源。 Demo：论文中未提及在线演示。复现材料：论文提供了代码，并在正文中描述了关键的训练超参数（如学习率、batch size、迭代次数、warm-up步数等），有助于复现。论文中引用的开源项目：基线模型：SupertonicTTS 评估工具：VERSA toolkit 语音质量评估：UTMOS, DNSMOS 语音识别：Whisper large-v2 数据处理：WhisperX, DEMUCS 📌 核心摘要要解决什么问题：条件生成模型（如TTS）训练时，数据集中的错误标签（噪声标签）会严重损害模型性能，而人工清洗大规模数据集成本高昂。方法核心是什么：提出自净化流匹配（SPFM）方法。其核心思想是，在训练过程中，对于一个数据样本(x, c)，如果提供其标签c的条件流匹配损失L_cond高于不提供任何标签的无条件损失L_uncond，则认为标签c不可靠。对于这类样本，模型仅使用数据x进行无条件训练，从而过滤掉噪声标签的影响。与已有方法相比新在哪里：现有方法大多需要预训练模型、额外的分类器或复杂的标签校正模块。SPFM则完全在训练过程中进行，利用模型自身的条件和无条件损失差异作为“检测器”，无需任何外部组件，实现简单且易于集成。主要实验结果如何：在合成二维数据集（40%标签噪声）上，SPFM显著提升了生成样本对指定条件的忠实度（见图2）。在真实的TTS任务上，基于TITW数据集（包含噪声的真实语音数据），SPFM在SupertonicTTS基线上进一步提升了性能。具体地，在更嘈杂的TITW-Hard训练集上，加入SPFM后，语音质量指标UTMOS从3.50提升至3.55，DNSMOS从2.88提升至2.91，词错误率(WER)从7.60%显著降低至6.86%。论文声称建立了该数据集上的新基准。实际意义是什么：提供了一种在模型训练阶段动态、自动地处理噪声标签的有效策略，能提升模型在真实嘈杂数据上的鲁棒性和最终性能，对于依赖大规模网络爬取或自动标注数据的生成式AI任务具有实用价值。主要局限性是什么：论文自述，当前仅使用简单的固定阈值（L_cond - L_uncond > 0）和单一时间步（t’=0.5）进行判断，更复杂的自适应阈值或多时间步评估未被探索。此外，验证主要集中在语音合成领域，其在更广泛的条件生成任务中的泛化能力有待进一步研究。 🏗️ 模型架构 SPFM并非一个全新的模型架构，而是一种可以即插即用的训练策略，用于提升现有条件流匹配模型对噪声标签的鲁棒性。它被集成到标准的条件流匹配训练流程中。 ...