Cross-Talk Speech Reduction, by Separation, for Separation

📄 Cross-Talk Speech Reduction, by Separation, for Separation #语音分离 #伪标签学习 #多通道 #长音频处理 #基准测试 #盲解卷积 🔥 9.1/10 | 前25% | #语音分离 | #伪标签学习 | #多通道 #长音频处理 | arxiv 学术质量 6.4/7 | 影响力 2.0/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 第一作者:未明确说明(论文中两位作者并列,但根据投稿标注,Z.-Q. Wang为通讯作者) 通讯作者:Zhong-Qiu Wang(南方科技大学计算机科学与工程系) 作者列表:Zhong-Qiu Wang(南方科技大学计算机科学与工程系)、Samuele Cornell(卡内基梅隆大学语言技术研究所) 💡 毒舌点评 亮点:论文精准地抓住了“近场混合信号作为伪标签不干净”这个核心痛点,并用一个优雅的、物理模型驱动的盲解卷积框架(CTRnet)解决它,进而在极具挑战性的CHiME-6数据集上取得了SOTA,首次让神经网络方法在真实对话场景显著超越了统治性的GSS。其核心创新在于将“利用近场信号”这一模糊想法系统化为可解的“交叉串扰抑制”任务,并端到端地在真实数据上训练。短板:整个框架严重依赖部署场景必须同时存在近场和远场麦克风,且假设最大说话人数固定,这在某些实际应用(如纯远场部署或人数极多的会议)中可能不成立,限制了其普适性。此外,论文仅在一个数据集(CHiME-6)上进行了验证,尽管它极具代表性,但缺乏多数据集的泛化性证明。 📌 核心摘要 问题:在对话语音分离任务中,训练数据常通过为每个说话者佩戴近场麦克风采集。这些近场信号能量高,是训练远场分离模型的天然监督信号,但它们含有严重的串扰噪声和环境噪音,不能直接作为伪标签。 方法核心:提出一个两阶段框架。首先,训练CTRnet,将其视为一个盲解卷积问题,直接从真实的近场/远场混合信号对中,估计出每个说话者的干净近场语音。然后,用CTRnet的估计结果作为伪标签,训练一个监督式的远场语音分离模型(PuLSS)。PuLSS在训练时创新性地使用说话者活动时间戳作为输入特征,以解决置换不变问题。 新意:与现有方法不同,该方法不依赖干净的模拟数据或假设近场信号足够干净。CTRnet和PuLSS均可直接在目标域的真实录制数据上训练,有效解决了模拟训练带来的域不匹配问题。其核心物理模型(混合约束)和引入的弱监督(时间戳)是关键。 主要结果:在极具挑战性的CHiME-6对话数据集上,PuLSS框架取得了SOTA性能。在使用微调的Parakeet ASR模型时,其tcpWER达到28.5%,显著优于所有CHiME-7/8挑战赛提交系统及基线GSS方法(33.5%)。在oracle日志下,cpWER达到19.5%,也优于GSS(29.7%)。 系统 (Diarization: Estimated) CHiME-7/8 挑战 验证集 tcpWER (%) 测试集 tcpWER (%) ESPnet baseline CHiME-7 65.7 85.2 NVIDIA NeMo CHiME-7 45.9 63.8 BUT-FIT CHiME-7 61.4 77.6 NPU CHiME-7 57.4 76.9 U. of Cambridge CHiME-7 44.5 55.4 USTC CHiME-7 35.7 44.8 IACAS-Thinkit CHiME-7 30.5 33.5 NTT CHiME-8 25.5 35.3 STCON CHiME-8 22.8 33.6 GSS (24-channel) + USTC diar. – 29.4 33.5 PuLSS + USTC diar. – 26.4 28.5 意义:为在真实对话场景(“野外”语音)中训练高性能分离模型提供了一条切实可行的路径,摆脱了对模拟数据的依赖。PuLSS是首个在真实对话数据上显著超越GSS的神经分离方法,具有里程碑意义。 ...

2026-05-21 · 更新于 2026-06-12 · 5 min · 887 words

语音/音乐/音频论文速递 2026-05-21

语音/音乐/音频论文速递 2026-05-21 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #音乐生成 3篇 ███ #语音对话系统 3篇 ███ #语音分离 2篇 ██ #语音质量评估 2篇 ██ #语音合成 1篇 █ #盲源分离 1篇 █ #声场重建 1篇 █ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-S 9.5分 前25% #语音合成 🥈 Mega-ASR: Towards In-the-wild^2 Speech Recognition via 9.3分 前25% #语音识别 🥉 Cross-Talk Speech Reduction, by Separation, for Separat 9.1分 前25% #语音分离 4. Normative Networks for Source Separation via Local Plas 8.9分 前25% #盲源分离 5. Causal Spatio-Temporal Sound Field Reconstruction 8.7分 前25% #声场重建 6. CounterFlow: A Two-Phase Inference-Time Sampling for Co 8.7分 前50% #音频生成 7. Verifiable Provenance and Watermarking for Generative A 8.6分 前25% #多媒体取证 8. CoarseSoundNet: Building a reliable model for ecologica 8.5分 前25% #音频分类 9. Executable Boundary Contracts for Sound Event Traces 8.5分 前25% #音频事件检测 10. Instrumental Text-to-Music Generation with Auxiliary Co 8.4分 前25% #音乐生成 11. Codec-Robust Attacks on Audio LLMs 8.3分 前25% #音频安全 12. SCRIBE: Diagnostic Evaluation and Rich Transcription Mo 8.3分 前25% #语音识别 13. Evaluating Speech Articulation Synthesis with Articulat 8.2分 前25% #语音质量评估 14. FormalASR: End-to-End Spoken Chinese to Formal Text 8.2分 前25% #语音识别 15. SEABAD: A Tropical Bird Activity Detection Dataset for 8.1分 前50% #生物声学 #音频事件检测 16. MSAVBench: Towards Comprehensive and Reliable Evaluatio 8.1分 前25% #基准测试 17. DuplexSLA: A Full-Duplex Spoken Language Model with Syn 7.8分 前25% #语音对话系统 18. A Survey of Audio Reasoning in Multimodal Foundation Mo 7.7分 前50% #音频推理 19. Stage-adaptive Token Selection for Efficient Omni-modal 7.7分 前25% #多模态模型 20. Synchronization and Turn-Taking in Full-Duplex Speech D 7.6分 前25% #语音对话系统 21. Fast Multichannel NMF with Block-Diagonal Spatial Covar 7.5分 前50% #语音分离 22. PlanRAG-Audio: Planning and Retrieval Augmented Generat 7.4分 前50% #长音频理解 23. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.4分 前25% #音频隐写分析 24. Linearly Constrained Deep Beamformer for Multi-Speaker 7.3分 前25% #语音增强 25. From Numbers to Perception, Energy Decay Curves Predict 7.2分 前50% #空间音频 26. A strongly annotated passive acoustic dataset for tropi 7.2分 前50% #生物声学 27. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分 前25% #音频问答 28. Thinking-while-speaking: A Controlled, Interleaved Reas 6.9分 前50% #语音对话系统 29. Precise and Simple Audio-to-Score Alignment 6.8分 前50% #音乐信息检索 30. Benchmarking Commercial ASR Systems on Code-Switching S 6.8分 前50% #语音识别 31. CRAFT: Critic-Refined Adaptive Key-Frame Targeting for 6.6分 前50% #多模态问答 32. Optimising Neural Speech Codecs for 300bps Communicatio 6.5分 前50% #音频编码 33. A Survey of Large Audio Language Models: Generalization 6.2分 前50% #音频大模型 34. Speech Quality Embeddings for Improved Detection and Cl 5.8分 前50% #语音质量评估 35. Musical Attention Transformer: Music Generation Using a 5.6分 前50% #音乐生成 36. Music of Changing Lines: Toward a Culturally Situated A 5.5分 前50% #音乐生成 37. π-Bench: Evaluating Proactive Personal Assistant Agents 5.2分 后50% #长期助手 38. Ordering Matters: Rank-Aware Selective Fusion for Blend 5.0分 后50% #多模态情感识别 39. FlowLong: Inference-time Long Video Generation via Mani 4.9分 前50% #视频生成 40. A conceptual framework for learning to listen by reward 4.0分 后50% #声源定位 📋 论文列表 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv ...

2026-05-21 · 更新于 2026-06-12 · 26 min · 5389 words