损失函数设计

📄 A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport #音乐转录 #最优传输 #损失函数设计 #分布匹配 📝 5.5/10 | 前50% | #音乐转录 | #最优传输 | #损失函数设计 #分布匹配 | arxiv 学术质量 4.7/8 | 影响力 0.5/1 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Weixing Wei (未说明机构)、Raynaldi Lalang (未说明机构)、Dichucheng Li (未说明机构)、Kazuyoshi Yoshii (未说明机构) 💡 毒舌点评论文的核心贡献是概念性的：将钢琴转录重新定义为最优传输问题，并设计了一个精巧的损失函数。这为解决时间刚性问题提供了新思路。然而，这一亮点被平庸的模型架构（SFT-CRNN是现有模块的组合）和单薄的实验验证所拖累。论文在关键指标上未能全面超越最强基线（Transkun），却声称获得了“state-of-the-art performance”，这种选择性声明有误导性。整体而言，这是一个有启发性的想法，但包装和验证远未达到顶会水准。 📌 核心摘要本文提出了一种基于最优传输（OT）理论的自动钢琴转录（APT）新范式，以解决传统逐帧二值分类（BCE损失）对时间偏移过度敏感的核心问题。其核心思想是将音符事件视为时频平面上的点质量分布，将模型预测的质量分布通过OT损失对齐到真实分布，从而在优化过程中自然地容忍时间错位。为此，论文设计了一个包含时间代价封顶和频率禁运的定制化成本函数（公式1），并采用了非平衡OT（UOT）以适应音符密度变化。同时，论文提出了一个名为SFT-CRNN的端到端模型，其特色是包含谐波感知注意力机制的注意力块和频率分组LSTM（FG-LSTM）。在MAESTRO数据集上的实验表明，使用OT损失训练的SFT-CRNN在onset检测F1分数上达到了98.36%，优于所有对比基线。然而，在同时评估onset和offset的F1分数（90.78%）上，该方法略低于Transkun（93.48%）。消融实验证实OT损失在SFT-CRNN和HPPNet上有效，但在Onsets & Frames模型上无效。论文的主要局限在于未建模延音踏板，这限制了offset的预测精度，且仅在一个数据集上进行验证，代码未开源。模型参数量 Onset P (%) Onset R (%) Onset F1 (%) Onset & Offset P (%) Onset & Offset R (%) Onset & Offset F1 (%) Onsets & Frames [11] 26M 98.27 92.61 95.32 82.95 78.24 80.50 HPPNet-sp [24] 1.2M 98.45 95.95 97.18 84.88 82.76 83.80 hFT-Transformer [20] 5.5M 99.64 95.44 97.44 92.52 88.69 90.53 Transkun [29] 12.9M 99.53 97.16 98.32 94.61 92.39 93.48 SFT-CRNN (Proposed) 15M 99.16 97.46 98.36 91.56 90.02 90.78 表 1：与基线方法的比较。本方法在Onset F1上取得最佳，但Onset & Offset F1低于Transkun和hFT-Transformer。 ...

📄 Learning What to Hear: Boosting Sound-Source Association for Robust Audiovisual Instance Segmentation #音视频实例分割 #查询学习 #多模态模型 #注意力机制 #损失函数设计 ✅ 7.5/10 | 前25% | #音视频实例分割 | #查询学习 | #多模态模型 #注意力机制学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jinbae Seo（Yonsei University）通讯作者：Jiyoung Lee（School of AI and Software, Ewha Womans University），Kwanghoon Sohn（Yonsei University, Korea Institute of Science and Technology (KIST)）作者列表：Jinbae Seo（Yonsei University）、Hyeongjun Kwon（Yonsei University）、Kwonyoung Kim（Yonsei University）、Jiyoung Lee（Ewha Womans University）、Kwanghoon Sohn（Yonsei University & KIST） 💡 毒舌点评这篇论文精准地指出了现有音视频实例分割（AVIS）方法中“视觉偏见”的核心痛点（均匀加法融合和纯视觉训练目标），并用两个直观且有效的模块（交叉注意力的查询生成与序数回归的计数监督）予以解决，实验增益明确。然而，其创新性相对局部，本质上是AVISM框架的“插件式”改进，且最大性能提升（Swin-L骨干）仍依赖于更强的预训练视觉模型，未能完全摆脱对视觉主导性的依赖。 ...