A Metric Learning Approach to Heart Murmur Detection from Phonocardiogram Recordings

📄 A Metric Learning Approach to Heart Murmur Detection from Phonocardiogram Recordings #音频分类 #对比学习 #数据增强 #生物声学 #监督学习 ✅ 7.7/10 | 前25% | #音频分类 | #对比学习 | #数据增强 #生物声学 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Florian Lübbe(Fraunhofer Institute for Software and Systems Engineering ISST;University of Hildesheim Department of Data Science) 通讯作者:未说明 作者列表:Florian Lübbe(Fraunhofer ISST & University of Hildesheim)、Ahmad Bdeir(University of Hildesheim Department of Data Science)、Niels Landwehr(University of Hildesheim Department of Data Science)、Pinar Bisgin(University of Hildesheim Department of Data Science & TU Dortmund University Department of Computer Science) 💡 毒舌点评 亮点在于系统性地验证了度量学习范式在心音分析不同任务(二分类、多分类、多标签)上的有效性,且在噪声更小的BMD-HS数据集上取得了高达18%的性能飞跃,证明了方法的潜力。短板则是对“多标签”场景的处理相对简单,仅将其视为一种分类任务,未能更深入地利用疾病(如主动脉瓣狭窄与反流)之间可能存在的生理关联性来设计更精巧的损失函数或网络结构。 ...

2026-04-29

Sing What You Fit: A Perception-Based Dataset and Benchmark for Vocal-Song Suitability Analysis

📄 Sing What You Fit: A Perception-Based Dataset and Benchmark for Vocal-Song Suitability Analysis #音乐信息检索 #监督学习 #数据集 #模型评估 #零样本 ✅ 7.0/10 | 前25% | #音乐信息检索 | #监督学习 | #数据集 #模型评估 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yingzhou Zhao(大连理工大学计算机科学与技术学院) 通讯作者:Liang Yang(大连理工大学计算机科学与技术学院) 作者列表:Yingzhou Zhao(大连理工大学计算机科学与技术学院)、Jingjie Zeng(未说明)、Zewen Bai(未说明)、Liang Yang(大连理工大学计算机科学与技术学院)、Shaowu Zhang(未说明)、Hongfei Lin(未说明) 💡 毒舌点评 这篇论文最大的贡献是“开山立派”——为个性化唱歌推荐这个细分但实用的场景明确定义了任务(VSSA)并构建了首个专用数据集(VSS-Dataset),填补了从“听歌推荐”到“唱歌推荐”的关键空白,数据集构建的“跨库配对+动态调平+专家标注”流程也颇为扎实。然而,论文在方法层面的创新相对有限,监督学习基线大多直接套用现成模型(如ResNet处理梅尔谱),零样本评估也只是测试了通用MLLMs,并未提出为VSSA任务量身定制的新模型或学习范式,其“Spectrogram+ResNet”最优的结论更像是一次成功的应用验证而非方法突破。 📌 核心摘要 要解决什么问题:现有音乐推荐系统主要基于用户“听歌”偏好(听觉侧写),忽视了用户在用户生成内容(UGC)场景(如K歌、上传演唱)下的“唱歌”需求(歌手侧写),即“哪首歌最适合我的嗓音”这一关键问题。 方法核心是什么:提出了“人声-歌曲适配性分析”(VSSA)任务,并构建了首个配对数据集VSS-Dataset。数据集通过跨库匹配(将MERGE歌曲库与GTSinger/SingStyle111人声库配对)和三位音乐制作人专家在三个维度(音色-流派融合度、技巧-编排匹配度、情感表达一致性)上的标注而成,包含3203个样本对。同时,建立了包含监督学习基线和多模态大模型(MLLMs)零样本评估的基准测试。 与已有方法相比新在哪里:这是首次针对“人声与歌曲艺术适配性”这一主观感知任务,系统性地定义问题、构建专用数据集并设立基准。与现有数据集(如GTSinger专注人声合成、MERGE专注情感识别)相比,VSS-Dataset首次提供了配对的孤立人声与完整歌曲以及连续的适配性标签。 主要实验结果如何:监督学习中,基于梅尔谱的“Spectrogram + ResNet”模型表现最佳(MAE=0.1040, Pearson=0.8913);零样本评估中,Gemini-2.5-Pro表现最好(MAE=0.2154, Pearson=0.6703),但所有MLLMs的预测均表现出明显的量化效应。监督学习基线在准确率和趋势预测上均显著优于零样本模型。 模型/方法 MAE (↓) Pearson (↑) 监督学习基线 MFCC + MLP 0.2048 0.6156 Spectrogram + ResNet 0.1040 0.8913 MERT + Transformer 0.3289 0.6971 Whisper + Transformer 0.1729 0.7182 零样本基线 Kimi-Audio-7B 0.3221 0.4326 Qwen2.5-Omni-7B 0.2198 0.4975 GPT-4o 0.2613 0.5021 Gemini-2.5-Pro 0.2154 0.6703 实际意义是什么:为个性化音乐推荐系统(MRS)开辟了新的维度,从单纯的“听觉推荐”拓展到“演唱推荐”,有望提升K歌应用等UGC音乐平台的用户体验和互动性。为相关研究提供了首个标准化的任务定义、数据集和评估基准。 主要局限性是什么:数据集规模(3k+)对于深度学习模型可能仍显有限,且通过跨库配对构建的数据可能存在分布偏差(如源数据集的风格限制)。任务定义高度依赖主观专家标注,标注的主观性和可重复性有待更大规模验证。论文未提出针对该任务设计的新模型,现有最佳方案依赖通用计算机视觉模型处理音频谱图,可能存在优化空间。 🏗️ 模型架构 本文的核心贡献并非提出一个新的端到端神经网络架构,而是为VSSA任务建立了评估基线。因此,架构分析主要围绕这四种监督学习基线展开,其共同目标是:给定一段孤立人声和一首完整歌曲,预测一个0到1的适配性得分。 ...

2026-04-29