盲解卷积 | 语音/音乐/音频论文速递

📄 Cross-Talk Speech Reduction, by Separation, for Separation #语音分离 #伪标签学习 #多通道 #长音频处理 #基准测试 #盲解卷积 🔥 9.1/10 | 前25% | #语音分离 | #伪标签学习 | #多通道 #长音频处理 | arxiv 学术质量 6.4/7 | 影响力 2.0/2 | 可复现性 0.8/2 | 置信度高 👥 作者与机构第一作者：未明确说明（论文中两位作者并列，但根据投稿标注，Z.-Q. Wang为通讯作者）通讯作者：Zhong-Qiu Wang（南方科技大学计算机科学与工程系）作者列表：Zhong-Qiu Wang（南方科技大学计算机科学与工程系）、Samuele Cornell（卡内基梅隆大学语言技术研究所） 💡 毒舌点评亮点：论文精准地抓住了“近场混合信号作为伪标签不干净”这个核心痛点，并用一个优雅的、物理模型驱动的盲解卷积框架（CTRnet）解决它，进而在极具挑战性的CHiME-6数据集上取得了SOTA，首次让神经网络方法在真实对话场景显著超越了统治性的GSS。其核心创新在于将“利用近场信号”这一模糊想法系统化为可解的“交叉串扰抑制”任务，并端到端地在真实数据上训练。短板：整个框架严重依赖部署场景必须同时存在近场和远场麦克风，且假设最大说话人数固定，这在某些实际应用（如纯远场部署或人数极多的会议）中可能不成立，限制了其普适性。此外，论文仅在一个数据集（CHiME-6）上进行了验证，尽管它极具代表性，但缺乏多数据集的泛化性证明。 📌 核心摘要问题：在对话语音分离任务中，训练数据常通过为每个说话者佩戴近场麦克风采集。这些近场信号能量高，是训练远场分离模型的天然监督信号，但它们含有严重的串扰噪声和环境噪音，不能直接作为伪标签。方法核心：提出一个两阶段框架。首先，训练CTRnet，将其视为一个盲解卷积问题，直接从真实的近场/远场混合信号对中，估计出每个说话者的干净近场语音。然后，用CTRnet的估计结果作为伪标签，训练一个监督式的远场语音分离模型（PuLSS）。PuLSS在训练时创新性地使用说话者活动时间戳作为输入特征，以解决置换不变问题。新意：与现有方法不同，该方法不依赖干净的模拟数据或假设近场信号足够干净。CTRnet和PuLSS均可直接在目标域的真实录制数据上训练，有效解决了模拟训练带来的域不匹配问题。其核心物理模型（混合约束）和引入的弱监督（时间戳）是关键。主要结果：在极具挑战性的CHiME-6对话数据集上，PuLSS框架取得了SOTA性能。在使用微调的Parakeet ASR模型时，其tcpWER达到28.5%，显著优于所有CHiME-7/8挑战赛提交系统及基线GSS方法（33.5%）。在oracle日志下，cpWER达到19.5%，也优于GSS（29.7%）。系统 (Diarization: Estimated) CHiME-7/8 挑战验证集 tcpWER (%) 测试集 tcpWER (%) ESPnet baseline CHiME-7 65.7 85.2 NVIDIA NeMo CHiME-7 45.9 63.8 BUT-FIT CHiME-7 61.4 77.6 NPU CHiME-7 57.4 76.9 U. of Cambridge CHiME-7 44.5 55.4 USTC CHiME-7 35.7 44.8 IACAS-Thinkit CHiME-7 30.5 33.5 NTT CHiME-8 25.5 35.3 STCON CHiME-8 22.8 33.6 GSS (24-channel) + USTC diar. – 29.4 33.5 PuLSS + USTC diar. – 26.4 28.5 意义：为在真实对话场景（“野外”语音）中训练高性能分离模型提供了一条切实可行的路径，摆脱了对模拟数据的依赖。PuLSS是首个在真实对话数据上显著超越GSS的神经分离方法，具有里程碑意义。 ...