歌唱语音合成

SingMOS-Pro: An Comprehensive Benchmark For Singing Quality Assessment

📄 SingMOS-Pro: An Comprehensive Benchmark For Singing Quality Assessment #歌唱语音合成 #基准测试 #数据集 #模型评估 #自监督学习 ✅ 7.5/10 | 前25% | #歌唱语音合成 | #基准测试 | #数据集 #模型评估学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuxun Tang (中国人民大学) 通讯作者：Qin Jin (中国人民大学) 作者列表：Yuxun Tang (中国人民大学), Lan Liu (Sun Yat-sen University), Wenhao Feng (中国人民大学), Yiwen Zhao (Carnegie Mellon University), Jionghao Han (Carnegie Mellon University), Yifeng Yu (Georgia Institute of Technology), Jiatong Shi (Carnegie Mellon University), Qin Jin (中国人民大学) 💡 毒舌点评亮点：数据集构建工作堪称“基建狂魔”，从任务、语言、模型、标注维度上实现了对SQA领域前所未有的全面覆盖，为后续研究扫清了最大的障碍——数据。短板：在自动评估模型的创新上略显保守，主要是将语音领域的SSL模型和特征“搬”过来验证，缺乏针对歌唱特有属性（如音高、节奏、气息）的深度建模创新。 ...

Sparse Autoencoders Make Audio Foundation Models More Explainable

📄 Sparse Autoencoders Make Audio Foundation Models More Explainable #音频大模型 #自监督学习 #模型评估 #歌唱语音合成 ✅ 6.5/10 | 前50% | #模型评估 | #自监督学习 | #音频大模型 #歌唱语音合成学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Théo Mariotte（LIUM, Le Mans Université）通讯作者：论文中未明确标注通讯作者。从作者列表顺序和贡献描述看，第一作者和最后一位作者Nicolas Dugué（LIUM, Le Mans Université）可能承担主要工作。作者列表： Théo Mariotte（LIUM, Le Mans Université） Martin Lebourdais（LIUM, Le Mans Université） Antonio Almudévar（VivoLab, I3A, University of Zaragoza） Marie Tahon（LIUM, Le Mans Université） Alfonso Ortega（VivoLab, I3A, University of Zaragoza） Nicolas Dugué（LIUM, Le Mans Université） 💡 毒舌点评亮点：本文系统性地将NLP和CV领域热门的可解释性工具（SAEs）引入音频模型分析，实验设计全面（从宏观任务到微观因素），清晰地揭示了不同模型层编码信息的差异性（如HuBERT早期层编码音高，晚期层编码共振峰），为理解音频“黑盒”提供了有价值的实证地图。短板：研究本质上是将已有工具应用于已知问题，缺乏在算法或理论层面的原创突破；所选案例任务（歌唱技巧分类）较为小众，结论的普适性有待在更广泛的音频任务上验证。 ...

StylePitcher: Generating Style-Following and Expressive Pitch Curves for Versatile Singing Tasks

📄 StylePitcher: Generating Style-Following and Expressive Pitch Curves for Versatile Singing Tasks #歌唱语音合成 #流匹配 #音频生成 #语音转换 #零样本 ✅ 7.5/10 | 前25% | #歌唱语音合成 | #流匹配 | #音频生成 #语音转换学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jingyue Huang (University of California San Diego, Smule Labs) 通讯作者：未说明作者列表：Jingyue Huang（△University of California San Diego, ◦Smule Labs）、Qihui Yang（△University of California San Diego, ◦Smule Labs）、Fei-Yueh Chen（†University of Rochester, ◦Smule Labs）、Julian McAuley（△University of California San Diego）、Randal Leistikow（◦Smule Labs）、Perry R. Cook（◦Smule Labs）、Yongyi Zang（◦Smule Labs） 💡 毒舌点评亮点在于它敏锐地抓住了唱歌音高曲线“既要符合乐谱，又要保留歌手个人风格”这个核心矛盾，并用一个优雅的掩码填充框架将其统一解决，体现了扎实的工程直觉和对音乐的理解。短板是，虽然实验覆盖了多个任务，但其作为“通用模块”的潜力在很大程度上依赖于下游系统本身，论文并未深入探讨在极端风格差异或复杂旋律转移场景下的鲁棒性边界。 ...

UNMIXX: Untangling Highly Correlated Singing Voices Mixtures

📄 UNMIXX: Untangling Highly Correlated Singing Voices Mixtures #语音分离 #时频分析 #歌唱语音合成 #数据增强 #低资源 🔥 8.5/10 | 前25% | #语音分离 | #时频分析 | #歌唱语音合成 #数据增强学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jihoo Jung（韩国科学技术院， Korea Advanced Institute of Science and Technology, South Korea）通讯作者：未说明（论文中未明确标注）作者列表：Jihoo Jung（韩国科学技术院）、Ji-Hoon Kim（韩国科学技术院）、Doyeop Kwak（韩国科学技术院）、Junwon Lee（韩国科学技术院）、Juhan Nam（韩国科学技术院）、Joon Son Chung（韩国科学技术院） 💡 毒舌点评亮点：论文对问题（高相关、数据稀缺）的洞察和解决方案设计（MIM生成相关数据、CS Attention解耦表示）非常系统且直击要害，实验验证也堪称范本，尤其是提出了HSSNR这个更合理的评估指标来应对同歌手场景。短板：依赖合成数据（MIM）来解决数据问题，与真实多轨录音的差距未充分探讨；且所有对比实验均在单一的MedleyVox数据集上进行，未见其他公开数据集上的验证，说服力略打折扣。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：论文中使用了多个公开歌唱语音数据集（见参考文献[17-25]），但未提及UNMIXX合成的训练集是否开源。 Demo：提供音频演示链接：https://unmixx.github.io/ 复现材料：提供了详细的训练参数（学习率、优化器、批大小、损失函数权重、阈值、训练步数等），但未提供完整的配置文件或训练日志。论文中引用的开源项目：引用了TIGER [14] 作为架构基础，以及Beat Tracking模型 [16] 用于MIM。 📌 核心摘要问题：本文旨在解决多人歌唱语音分离（MSVS）任务，该任务面临两大独特挑战：可用的训练数据极度稀缺，且混合的歌唱语音本身具有高度相关性（如共享歌词、和声、时间对齐），这使得现有语音分离方法效果不佳。方法核心：提出UNMIXX框架，包含三个关键组件：（1）音乐信息混合（MIM）策略，通过选择时间节奏和音高和谐的歌曲进行配对，合成高度相关且逼真的训练数据，以缓解数据稀缺；（2）跨源注意力（CS Attention），通过“反向注意力”机制主动抑制两个歌手表示中的相似区域，强制表示分离；（3）幅度惩罚损失（Magnitude Penalty Loss），在训练后期显式惩罚目标频谱图中残留的干扰能量。创新点： 1）首次提出针对MSVS任务的、模拟真实音乐相关性的数据合成方法（MIM）。2）在架构（CS Attention）和损失（LPenalty）两个层面引入跨源互斥约束，专门针对“高相关性”这一难点。3）为同演唱者场景提出了更合理的评估指标HSSNR。实验结果：在MedleyVox评估集上，UNMIXX相对于此前最优方法（MedleyVox基线）取得了显著提升，在duet子集上SDRi提升2.42 dB，在unison子集上提升2.26 dB。消融实验证明了每个组件的有效性。主实验对比（关键数据）：方法 #参数 Duet SDRi (↑) Unison SDRi (↑) MedleyVox 5M 15.10 4.90 TIGER* 947k 16.58 5.96 UNMIXX 951k 17.52 7.16 消融实验（部分关键结果）：方法 Duet SDRi Unison SDRi TIGER* (基线) 16.58 5.96 + MIM (m=8) 16.79 7.31 + CS attention 18.01 6.17 + Mag, Penalty loss 16.68 6.44 UNMIXX (全组件) 17.52 7.16 实际意义：为处理真实音乐中常见的多轨人声混合提供了有效工具，可应用于音乐制作（人声轨道分离）、卡拉OK（伴奏与任意人声分离）、以及后续的单人歌唱信息检索任务。主要局限性： 1）模型性能高度依赖于MIM合成的数据与真实数据的匹配度；2）实验仅在一个评估数据集上进行，泛化能力有待进一步验证；3）模型为离线处理，未讨论实时性。 🏗️ 模型架构 UNMIXX的整体架构基于轻量级语音分离模型TIGER进行改造，其核心流程如下： ...