A Knowledge-Driven Approach to Target Speech Extraction in the Presence of Background Sound Effects for Cinematic Audio Source Separation (CASS)
📄 A Knowledge-Driven Approach to Target Speech Extraction in the Presence of Background Sound Effects for Cinematic Audio Source Separation (CASS) #语音分离 #知识蒸馏 #数据增强 #音频场景理解 ✅ 7.0/10 | 前50% | #语音分离 | #知识蒸馏 | #数据增强 #音频场景理解 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Chun-wei Ho (Georgia Institute of Technology, USA) 通讯作者:未说明 (论文未明确指定通讯作者,但通常第一作者承担主要联系责任) 作者列表:Chun-wei Ho (Georgia Institute of Technology, USA), Sabato Marco Siniscalchi (University of Palermo, Italy), Kai Li (Dolby Laboratory, China), Chin-Hui Lee (Dolby Laboratory, China) 💡 毒舌点评 亮点:论文开创性地将语言学中的“发音方式”(Manner of Articulation)知识作为辅助信号引入到电影音频语音分离任务中,为解决背景音效干扰下的短语音提取提供了新颖且可解释的思路。短板:尽管思路巧妙,但实验说服力略显不足,提升幅度有限(约1dB),且所有实验仅在一个为该挑战赛定制的数据集上完成,未能证明该方法在更复杂、更多样的真实电影场景中的普适性和鲁棒性。 ...