数据清洗 | 语音/音乐/音频论文速递

From a Multilingual Streaming ASR Backbone to Kenyan-Language Systems: Data-Centric Adaptation of Nemotron 3.5 for Kikuyu, Dholuo, and Kalenjin

📄 From a Multilingual Streaming ASR Backbone to Kenyan-Language Systems: Data-Centric Adaptation of Nemotron 3.5 for Kikuyu, Dholuo, and Kalenjin 标签：#语音识别 #低资源 #流式处理 #数据清洗 #音频理解 6.5/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 6.5/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音识别 | #低资源 | #流式处理 #数据清洗 | arxiv 👥 作者与机构第一作者：Mark Gatere（C-elo Labs）通讯作者：Mark Gatere（C-elo Labs）作者列表：Mark Gatere（C-elo Labs） 💡 毒舌点评这篇论文堪称低资源语音识别领域‘数据清洁工’的典范，其对工程流程、数据审计和部署细节的记录之详尽，足以成为一份高质量的内部技术文档，对复现和构建类似系统极具参考价值。然而，其最大的短板在于核心模型与数据均未开源，评估局限于内部且被多次审视的集合，使得其声称的‘工程贡献’的外部可验证性和影响力大打折扣，更像是一份精良的私有项目日志而非推动社区进步的开放研究。 ...

From Continuous Deployment to Queryable Dataset: Terabyte-Scale AIS-Aligned Passive Acoustic Labelling

📄 From Continuous Deployment to Queryable Dataset: Terabyte-Scale AIS-Aligned Passive Acoustic Labelling 标签：#音频理解 #数据清洗 #数据集 #声源定位 #长音频处理 6.1/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.4/1.5 ✅ 6.1/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #音频理解 | #数据清洗 | #数据集 #声源定位 | arxiv 👥 作者与机构第一作者：Wayne Renaud（达尔豪斯大学）通讯作者：未说明作者列表：Wayne Renaud（达尔豪斯大学）、Priyanka Aravindan（达尔豪斯大学）、Gabriel Spadon（达尔豪斯大学） 💡 毒舌点评亮点在于将数据库工程与被动声学监测深度结合，为TB级声学档案的关联查询和弱标签构建提供了可扩展的工业级解决方案，这比许多停留在小数据集的算法论文更贴近实际部署。短板同样明显：论文过于聚焦于系统构建和数据处理，却未能将其数据集与任何现有的声学检测/分类算法进行端到端的对比验证，使得这个精心构建的数据产品的实际机器学习价值尚停留在“可能性”而非“证明”阶段。 ...

CHILDES-Aligned: A Curated Children's Speech Dataset via Multi-Model Timestamp Ensembling

📄 CHILDES-Aligned: A Curated Children's Speech Dataset via Multi-Model Timestamp Ensembling #语音识别 #模型集成 #数据集 #数据清洗 #低资源 7.2/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #模型集成 | #数据集 #数据清洗 | arxiv 👥 作者与机构第一作者：Haolong Zheng（University of Illinois Urbana-Champaign）通讯作者：Mark A. Hasegawa-Johnson（University of Illinois Urbana-Champaign）作者列表：Haolong Zheng（UIUC）、Yuanzhuo Hu（CUHK, Shenzhen）、Xinyu Liang（CUHK, Shenzhen）、Vishal Sunder（IBM Research）、Dancheng Liu（University at Buffalo, SUNY）、Jinjun Xiong（University at Buffalo, SUNY）、Samuel Thomas（IBM Research）、Brian Kingsbury（IBM Research）、Zhizheng Wu（CUHK, Shenzhen）、Mark A. Hasegawa-Johnson（UIUC） 💡 毒舌点评这篇论文把一个务实的工程问题解决得相当漂亮：用多模型集成投票替代脆弱的单系统对齐，把那个乱糟糟的 CHILDES 时间戳修到可用水平，并且大方地放出了数据和代码。不过方法本身的创新深度有限，本质上是对齐+投票的组合拳，缺少对组件或超参数的深入消融分析，实验部分更像是产品交付报告而非严格的研究验证，微调实验关键细节的缺失让复现性打了折扣。 ...

Deriving Benchmarking Datasets from Long-Form Recordings: Challenges and Opportunities

📄 Deriving Benchmarking Datasets from Long-Form Recordings: Challenges and Opportunities #基准测试 #数据集 #开源工具 #数据清洗 7.7/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.5/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.7/10 | 前25% | #基准测试 | #数据集 | #开源工具 #数据清洗 | arxiv 👥 作者与机构第一作者：Kaveri K. Sheth (LAAC, LSCP, DEC, ENS, EHESS, CNRS, PSL University, Paris, France) 通讯作者：Kaveri K. Sheth (ksheth@ens.psl.eu) 作者列表：Kaveri K. Sheth (1); Lawrence Borst (未说明, 推测1); Tarek Kunze (未说明, 推测1); Marvin Lavechin (2, Laboratoire d’Informatique et Systèmes, Université Aix-Marseille, CNRS, France); Okko Räsänen (3, Signal Processing Research Centre, Tampere University, Finland); Sho Tsuji (未说明, 推测1); Loann Peurey (未说明, 推测1); Alix Bourrée (未说明, 推测1); Alejandrina Cristia (1, LAAC, LSCP, DEC, ENS, EHESS, CNRS, PSL University, Paris, France) 💡 毒舌点评这篇论文做了一件领域内亟需的“脏活累活”——标准化并整合27个异构儿童语言数据集，并配套设计一个治理框架。工程和社区贡献是其最大价值，对隐私层级的思考也有见地。但作为顶会论文，其技术“硬货”严重不足：方法本质是整合现有工具，仅有的VTC案例也只展现出标准微调实验的深度，且缺乏统计检验。更致命的是，论文未对辛苦构建的基准本身进行深入剖析，仿佛建好舞台后只唱了一出折子戏。实验深度和洞察远无法支撑其所声称的平台级意义。 ...

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

📄 A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation #音频分离 #数据集 #低资源 #数据清洗 9.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.2/10 | 前10% | #音频分离 | #数据集 | #低资源 #数据清洗 | arxiv 👥 作者与机构第一作者：Kai Li（清华大学计算机系 / IDG/McGovern Institute for Brain Research, 清华大学）、Jintao Cheng（清华大学计算机系）（*共同第一）通讯作者：Xiaolin Hu（清华大学计算机系 / IDG/McGovern Institute for Brain Research / 中国脑与认知科学研究所 (CIBR)）作者列表：Kai Li, Jintao Cheng, Chang Zeng (Shanda AI Research Tokyo), Zijun Yan (清华大学), Helin Wang (Johns Hopkins University), Zixiong Su (Shanda AI Research Tokyo), Bo Zheng (Shanda AI Research Tokyo), Xiaolin Hu (清华大学) 💡 毒舌点评这篇论文用一个精心设计的数据清洗管道，优雅地证明了“数据纯度远比数据规模重要”这一反直觉结论——Hive 仅凭 0.2% 的训练数据量，就让模型在多项指标上媲美甚至超越百万小时级的 SAM-Audio，说服力极强。但管道核心的语义对齐和兼容性判断完全依赖 Qwen3-Omni 零样本能力，这种对单一黑盒模型的深度绑定，可能让数据集系统性地继承了该模型的偏见，而作者对这种“近亲繁殖”风险的审计仍显不足。 ...

Natural Yet Challenging to Detect: Robust In-the-Wild TTS through EMA and Dual-Scoring Prompt Selection -- Submission for WildSpoof 2026 TTS Track

📄 Natural Yet Challenging to Detect: Robust In-the-Wild TTS through EMA and Dual-Scoring Prompt Selection – Submission for WildSpoof 2026 TTS Track #语音合成 #语音伪造检测 #迁移学习 #数据清洗 #鲁棒性 📝 5.2/10 | 后50% | #语音合成 | #迁移学习 | #语音伪造检测 #数据清洗 | arxiv 学术质量 3.7/7 | 影响力 0.8/2 | 可复现性 0.7/2 | 置信度 0.8 👥 作者与机构未提及。 💡 毒舌点评首先，作为一篇提交给特定挑战赛的技术报告，其定位本就偏向工程实现和结果汇报，而非追求根本性的算法创新。最大的槽点在于信息完整性缺失严重：作者、所属机构等基本信息均未披露，这对于一篇正式学术论文而言是不可接受的，严重损害了工作的可信度和可追溯性。其次，论文虽然声称“novel”，但其核心贡献——在微调中加入EMA和基于LLM/LALM的数据筛选——在TTS或更广泛的深度学习领域中都已是成熟技术，创新性有限。论文最大的亮点是挑战赛榜单上的最佳a-DCF分数，但这高度依赖于特定的挑战赛设置和评估系统，其普适价值需要更多验证。写作清晰，但部分关键评估细节（如其他参赛模型具体架构）的缺失，使得对比分析的深度大打折扣。 📌 核心摘要本文为WildSpoof 2026挑战赛TTS赛道的技术报告，提出了F5-TTS-DPS模型。该模型在F5-TTS基础上，通过两项改进提升在真实场景数据上的合成鲁棒性：1）在监督微调中引入指数移动平均（EMA）以稳定训练过程；2）提出双重评分提示选择（DPS）机制，利用大型音频语言模型（LALM，即Qwen2.5-Omni）和大型语言模型（LLM，即Qwen3-30B-A3B）对参考音频和文本提示进行两阶段筛选，以确保输入质量。实验在挑战赛官方开发集上进行，消融实验显示各组件带来性能渐进提升。最终模型在主要评估指标a-DCF上取得所有参赛模型中的最佳成绩，表明其合成语音最难被反欺骗系统检测。 🔗 开源详情代码：未提供。模型权重：论文中使用并提供了基线模型F5-TTS v1的权重链接：https://huggingface.co/SWivid/F5-TTS/tree/main/F5TTS_v1_Base。未提供微调后F5-TTS-DPS模型的权重。数据集：使用了WildSpoof Challenge官方发布的TITW-easy和TITW-hard数据集子集，未提供独立下载链接或开源协议。 Demo：未提及在线演示。复现材料：训练配置：提供了详细的超参数设置（见“细节详述”部分）。评估工具：使用VERSA工具进行评估。提示模板：在附录A中提供了用于音频和文本筛选的完整提示模板（Prompt）。论文中引用的开源项目： F5-TTS：基础模型，提供了链接。 Qwen2.5-Omni：用于音频评分的LALM，未提供链接。 Qwen3-30B-A3B：用于文本评分的LLM，未提供链接。 Whisper：用于计算WER的ASR系统，未提供链接。 ESPnet2：用于提取说话人嵌入，未提供链接。 AASIST：用于计算SDS的反欺骗系统，未提供链接。 VERSA：评估工具，未提供链接。 🏗️ 方法概述和架构本文方法建立在F5-TTS基座模型之上，针对“野外”数据（TITW）的噪声和多样性特点，引入了训练稳定性增强和输入质量优化两个核心组件。 ...

UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations

📄 UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations #语音识别 #数据集 #多语言 #低资源 #数据清洗 ✅ 7/10 | 前25% | #语音识别 | #数据集 | #多语言 #低资源 | arxiv 学术质量 5.8/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Attia Nafees ul Haq (Audio, Speech and Language Processing Group (ASLP@NPU), Northwestern Polytechnical University) 通讯作者：Attia Nafees ul Haq, Lei Xie (邮箱：attianafees@mail.nwpu.edu.cn, lxie@nwpu.edu.cn) 作者列表：Attia Nafees ul Haq (ASLP@NPU, Northwestern Polytechnical University), Zeyu Zhu (ASLP@NPU, Northwestern Polytechnical University), Jingbin Hu (ASLP@NPU, Northwestern Polytechnical University), ChunJiang He (ASLP@NPU, Northwestern Polytechnical University), Lei Xie (ASLP@NPU, Northwestern Polytechnical University) 💡 毒舌点评亮点：针对乌尔都语这一“高人口、低资源”语言，首次系统构建了包含156小时音频、12维副语言标注的大规模开放语料库，有效解决了RTL脚本和代码切换两大处理难题，为相关研究提供了关键基础设施。短板：论文核心贡献是数据集及数据整理流水线，但对流水线核心组件（尤其是基于Gemini的提示工程）的细节描述和消融分析不足，更像一份详尽的工程报告。更关键的是，所有转录和标注质量都深度绑定一个闭源商业模型（Gemini 2.5 Pro），其长期可及性、结果一致性和完全可复现性存疑，这构成了方法论上的根本性弱点。 ...

FSD50K-Solo: Automated Curation of Single-Source Sound Events

📄 FSD50K-Solo: Automated Curation of Single-Source Sound Events #数据清洗 #数据集 #音频事件检测 #预训练 #扩散模型 #音频生成 #自监督学习 📝 5.5/10 | 前50% | #数据清洗 | #扩散模型 #预训练 | #数据集 #音频事件检测 | arxiv 学术质量 4.3/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度中 👥 作者与机构第一作者：Ningyuan Yang（论文指出工作在Bose Corporation实习期间完成）通讯作者：未提及作者列表：Ningyuan Yang, Sile Yin, Li-Chia Yang, Bryce Irvin, Xiao Quan, Marko Stamenovic, Shuo Zhang（论文未单独列出各作者机构，仅说明第一作者实习于Bose） 💡 毒舌点评本文针对大规模音频数据集FSD50K中普遍存在的标签噪声（多源样本）问题，提出了一个结合扩散模型生成与预训练编码器判别的自动化清洗流水线。其工程思路清晰，发布的FSD50K-Solo数据集可能对社区有一定实用价值。然而，论文的核心缺陷在于创新性不足（仅为现有模块的组合应用）与评估的严重封闭性（关键验证依赖于未公开的内部数据集BSE）。这使得论文的贡献更接近一项有限的系统集成工作，而非具有广泛影响力的算法突破，其宣称的“可扩展范式”因缺乏充分、公开的验证而显得说服力不足。 📌 核心摘要问题：大规模开源音频数据集（如FSD50K）普遍存在标签噪声，包含大量背景干扰或事件重叠的多源样本，影响下游模型训练。目前缺乏大规模、强标注的单源声音事件数据集。方法：提出一个自动化数据清洗框架。首先，利用生成式扩散模型（Stable Audio Open）基于单源类别标签合成干净音频，并构建可控噪声混合物作为训练数据；其次，使用在AudioSet上自监督预训练的BEATs音频编码器提取特征，结合Bi-LSTM和MLP训练一个二分类器，用于区分单源与多源样本；最终，用该分类器过滤FSD50K，得到子集FSD50K-Solo。新意：与以往依赖众包人工评分（如PP）或特定领域信号处理（如WADA）的方法不同，本文提出了一种结合生成模型创造监督信号与预训练模型强大表征能力的通用数据清洗框架，旨在适用于一般声音事件。实验结果：在内部专家标注的BSE测试集上，分类器达到95.51%准确率、98.58%精确率。在FSD50K上，被模型判定为单源的样本在Audiobox Aesthetics的复杂度（PC）和质量（PQ）分数上显著优于多源样本（Table II）。FSD50K-Solo最终包含约32,880个样本。意义：为音频领域提供了一种自动清洗数据集的可行方案，发布了FSD50K-Solo元数据，可能为声源分离、可控音频生成等需要干净音频的任务提供更高质的资源。局限性：方法组件为现有技术组合，创新有限；评估严重依赖非公开的内部数据集，可复现性与可比性差；未探索模型在未见类别上的泛化能力。 🔗 开源详情代码：论文未提供当前可下载的代码仓库。论文中提到使用的BEATs模型引用自https://github.com/microsoft/unilm/tree/master/beats。模型权重：论文未提供其训练的分类器模型的权重。使用的BEATs和Stable Audio Open 1.0为第三方模型。数据集： FSD50K-Solo：论文明确表示将在论文被接受后公开数据集及其完整片段级元数据。当前未提供下载链接。 BSE数据集：内部数据集，未公开。 TAU Urban Acoustic Scenes 数据集：论文引用并提供了出处链接：https://zenodo.org/record/45739。 FSD50K：论文中研究的主要数据集，提供了项目主页链接：https://zenodo.org/record/4060432。 Demo：未提及。复现材料：论文提供了详细的训练配置（优化器、学习率、损失函数等）和评估指标。但未提及是否提供训练检查点或完整复现脚本。当前信息不足以独立复现。 🏗️ 方法概述和架构整体流程概述：这是一个多阶段的自动化数据清洗流水线，核心目标是训练一个能够区分“单源声音事件”和“多源声音事件”的二分类器。流水线分为两大阶段：(1) 合成带有已知标签的训练数据；(2) 基于预训练编码器的分类器设计与训练，最终应用于真实数据集清洗。 ...

Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

📄 Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation #多模态模型 #基准测试 #数据清洗 #后训练 #评测协议 📝 5.5/10 | 前50% | #多模态模型评估 | #后训练 #自蒸馏 | #多模态模型 #基准测试 | arxiv 学术质量 5.0/8 | 影响力 0.7/2 | 可复现性 0.1/1 | 置信度中 👥 作者与机构第一作者：Che Liu (根据作者列表顺序推断) 通讯作者：Fei Tian (tianfei@stepfun.com， StepFun) 作者列表：Che Liu (StepFun, Imperial College London)， Lichao Ma (StepFun, Peking University)， Xiangyu Tony Zhang (StepFun, The University of New South Wales)， Yuxin Zhang (StepFun, Shanghai Jiao Tong University)， Haoyang Zhang (StepFun, Peking University)， Xuerui Yang (StepFun)， Fei Tian (StepFun，通讯作者) 💡 毒舌点评论文直击全模态模型评测的核心痛点——视觉捷径导致的性能虚高，并为此提出了系统化的去偏评测协议(OmniClean)，这为社区提供了急需的、更干净的评估工具，具有明确的实用价值；然而，作为核心方法贡献的OmniBoost方案，本质上是将现有的SFT、RLVR和自蒸馏技术按固定顺序进行组合与调优，缺乏在算法或模型架构层面的根本性创新，且整个实证研究被严格限制在一个特定模型家族(Qwen2.5-Omni-3B)上，极大地削弱了其结论的普适性与指导意义。 ...

PianoCoRe: Combined and Refined Piano MIDI Dataset

📄 PianoCoRe: Combined and Refined Piano MIDI Dataset #数据集 #数据清洗 #音乐信息检索 #钢琴表演建模 ✅ 7.5/10 | 前25% | #数据集 | #数据清洗 | #音乐信息检索 #钢琴表演建模 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Ilya Borovik（Skolkovo Institute of Science and Technology, Moscow, Russia）通讯作者：未说明（论文中未明确指定通讯作者）作者列表：Ilya Borovik（Skolkovo Institute of Science and Technology, Moscow, Russia） 💡 毒舌点评亮点：该工作最大的价值在于其卓越的系统工程和开源精神——将零散、杂乱的现有钢琴MIDI语料库整合、清洗、对齐成一个开箱即用、分层合理的数据集，并配套发布了高质量的质量分类器和对齐优化工具，极大地降低了后续研究者的门槛。短板：核心创新更偏向“数据料理”而非“算法突破”，例如质量分类器和对齐精炼的启发式规则虽然有效，但方法本身缺乏更强的理论深度或新颖性，在某种程度上更像是一篇详尽的“技术手册”或“最佳实践指南”。 📌 核心摘要要解决什么问题：现有的钢琴符号音乐数据集存在覆盖范围窄、缺乏多样性、缺少音符级对齐、命名格式不一致等问题，阻碍了大规模、高质量的钢琴表演分析与建模研究。方法核心是什么：论文构建了PianoCoRe数据集，其核心方法包括：a) 一套多阶段、自动化的数据匹配与整合流程，将多个现有数据集（ASAP, ATEPP, GiantMIDI-Piano, PERiScoPe, Aria-MIDI）合并；b) 一个训练的MIDI质量分类器，用于识别损坏和类乐谱的转录；c) 一个名为RAScoP的对齐精炼流水线，用于清理时间对齐错误并插值缺失音符。与已有方法相比新在哪里：新在首次将多个主流开源钢琴数据集整合并去重，发布为具有清晰层级（C/B/A/A*）的数据集，覆盖不同应用场景需求，这是之前不存在的。同时，配套的质量分类和对齐精炼工具链是此前缺乏的、易用的开源解决方案。主要实验结果： MIDI质量分类器在平衡测试集上的宏平均F1分数达到89.1%。 ...