SIREN: Spatially-Informed Reconstruction of Binaural Audio with Vision
📄 SIREN: Spatially-Informed Reconstruction of Binaural Audio with Vision #空间音频 #音视频 #Transformer ✅ 7.0/10 | 前25% | #空间音频 | #音视频 | #Transformer 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Mingyeong Song (Ewha Womans University, Seoul, Korea),Seoyeon Ko (Ewha Womans University, Seoul, Korea) (论文标注两人贡献相等) 通讯作者:未说明 作者列表:Mingyeong Song (Ewha Womans University, Seoul, Korea), Seoyeon Ko (Ewha Womans University, Seoul, Korea), Junhyug Noh (Ewha Womans University, Seoul, Korea) 💡 毒舌点评 SIREN巧妙地将Transformer的注意力机制“一分为二”,用作左右声道的空间特征调制器,思路清晰且免去了手工设计掩模的麻烦,是本文最亮眼的工程巧思。然而,论文的论证主要停留在客观指标的“分数游戏”上,缺乏一个关键环节:听众到底能不能真的听出区别?没有主观MOS测试,很难断言那些STFT或相位距离的提升能带来感知上的空间感增强。此外,方法的“自信融合”听起来很美,但其核心假设(单声道一致性和相位一致性)在复杂动态场景下的鲁棒性未见深入讨论。 ...