伪标签学习

📄 Cross-Talk Speech Reduction, by Separation, for Separation #语音分离 #伪标签学习 #多通道 #长音频处理 #基准测试 #盲解卷积 🔥 9.1/10 | 前25% | #语音分离 | #伪标签学习 | #多通道 #长音频处理 | arxiv 学术质量 6.4/7 | 影响力 2.0/2 | 可复现性 0.8/2 | 置信度高 👥 作者与机构第一作者：未明确说明（论文中两位作者并列，但根据投稿标注，Z.-Q. Wang为通讯作者）通讯作者：Zhong-Qiu Wang（南方科技大学计算机科学与工程系）作者列表：Zhong-Qiu Wang（南方科技大学计算机科学与工程系）、Samuele Cornell（卡内基梅隆大学语言技术研究所） 💡 毒舌点评亮点：论文精准地抓住了“近场混合信号作为伪标签不干净”这个核心痛点，并用一个优雅的、物理模型驱动的盲解卷积框架（CTRnet）解决它，进而在极具挑战性的CHiME-6数据集上取得了SOTA，首次让神经网络方法在真实对话场景显著超越了统治性的GSS。其核心创新在于将“利用近场信号”这一模糊想法系统化为可解的“交叉串扰抑制”任务，并端到端地在真实数据上训练。短板：整个框架严重依赖部署场景必须同时存在近场和远场麦克风，且假设最大说话人数固定，这在某些实际应用（如纯远场部署或人数极多的会议）中可能不成立，限制了其普适性。此外，论文仅在一个数据集（CHiME-6）上进行了验证，尽管它极具代表性，但缺乏多数据集的泛化性证明。 📌 核心摘要问题：在对话语音分离任务中，训练数据常通过为每个说话者佩戴近场麦克风采集。这些近场信号能量高，是训练远场分离模型的天然监督信号，但它们含有严重的串扰噪声和环境噪音，不能直接作为伪标签。方法核心：提出一个两阶段框架。首先，训练CTRnet，将其视为一个盲解卷积问题，直接从真实的近场/远场混合信号对中，估计出每个说话者的干净近场语音。然后，用CTRnet的估计结果作为伪标签，训练一个监督式的远场语音分离模型（PuLSS）。PuLSS在训练时创新性地使用说话者活动时间戳作为输入特征，以解决置换不变问题。新意：与现有方法不同，该方法不依赖干净的模拟数据或假设近场信号足够干净。CTRnet和PuLSS均可直接在目标域的真实录制数据上训练，有效解决了模拟训练带来的域不匹配问题。其核心物理模型（混合约束）和引入的弱监督（时间戳）是关键。主要结果：在极具挑战性的CHiME-6对话数据集上，PuLSS框架取得了SOTA性能。在使用微调的Parakeet ASR模型时，其tcpWER达到28.5%，显著优于所有CHiME-7/8挑战赛提交系统及基线GSS方法（33.5%）。在oracle日志下，cpWER达到19.5%，也优于GSS（29.7%）。系统 (Diarization: Estimated) CHiME-7/8 挑战验证集 tcpWER (%) 测试集 tcpWER (%) ESPnet baseline CHiME-7 65.7 85.2 NVIDIA NeMo CHiME-7 45.9 63.8 BUT-FIT CHiME-7 61.4 77.6 NPU CHiME-7 57.4 76.9 U. of Cambridge CHiME-7 44.5 55.4 USTC CHiME-7 35.7 44.8 IACAS-Thinkit CHiME-7 30.5 33.5 NTT CHiME-8 25.5 35.3 STCON CHiME-8 22.8 33.6 GSS (24-channel) + USTC diar. – 29.4 33.5 PuLSS + USTC diar. – 26.4 28.5 意义：为在真实对话场景（“野外”语音）中训练高性能分离模型提供了一条切实可行的路径，摆脱了对模拟数据的依赖。PuLSS是首个在真实对话数据上显著超越GSS的神经分离方法，具有里程碑意义。 ...

语音/音乐/音频论文速递 2026-05-21 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #音乐生成 3篇 ███ #语音对话系统 3篇 ███ #语音分离 2篇 ██ #语音质量评估 2篇 ██ #语音合成 1篇 █ #盲源分离 1篇 █ #声场重建 1篇 █ 📊 论文评分排行榜（40 篇，按分数降序）排名论文评分分档主任务 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-S 9.5分前25% #语音合成 🥈 Mega-ASR: Towards In-the-wild^2 Speech Recognition via 9.3分前25% #语音识别 🥉 Cross-Talk Speech Reduction, by Separation, for Separat 9.1分前25% #语音分离 4. Normative Networks for Source Separation via Local Plas 8.9分前25% #盲源分离 5. Causal Spatio-Temporal Sound Field Reconstruction 8.7分前25% #声场重建 6. CounterFlow: A Two-Phase Inference-Time Sampling for Co 8.7分前50% #音频生成 7. Verifiable Provenance and Watermarking for Generative A 8.6分前25% #多媒体取证 8. CoarseSoundNet: Building a reliable model for ecologica 8.5分前25% #音频分类 9. Executable Boundary Contracts for Sound Event Traces 8.5分前25% #音频事件检测 10. Instrumental Text-to-Music Generation with Auxiliary Co 8.4分前25% #音乐生成 11. Codec-Robust Attacks on Audio LLMs 8.3分前25% #音频安全 12. SCRIBE: Diagnostic Evaluation and Rich Transcription Mo 8.3分前25% #语音识别 13. Evaluating Speech Articulation Synthesis with Articulat 8.2分前25% #语音质量评估 14. FormalASR: End-to-End Spoken Chinese to Formal Text 8.2分前25% #语音识别 15. SEABAD: A Tropical Bird Activity Detection Dataset for 8.1分前50% #生物声学 #音频事件检测 16. MSAVBench: Towards Comprehensive and Reliable Evaluatio 8.1分前25% #基准测试 17. DuplexSLA: A Full-Duplex Spoken Language Model with Syn 7.8分前25% #语音对话系统 18. A Survey of Audio Reasoning in Multimodal Foundation Mo 7.7分前50% #音频推理 19. Stage-adaptive Token Selection for Efficient Omni-modal 7.7分前25% #多模态模型 20. Synchronization and Turn-Taking in Full-Duplex Speech D 7.6分前25% #语音对话系统 21. Fast Multichannel NMF with Block-Diagonal Spatial Covar 7.5分前50% #语音分离 22. PlanRAG-Audio: Planning and Retrieval Augmented Generat 7.4分前50% #长音频理解 23. DASM: Domain-Aware Sharpness Minimization for Multi-Dom 7.4分前25% #音频隐写分析 24. Linearly Constrained Deep Beamformer for Multi-Speaker 7.3分前25% #语音增强 25. From Numbers to Perception, Energy Decay Curves Predict 7.2分前50% #空间音频 26. A strongly annotated passive acoustic dataset for tropi 7.2分前50% #生物声学 27. Heterogeneity-Aware Dataset Scheduling for Efficient Au 7.0分前25% #音频问答 28. Thinking-while-speaking: A Controlled, Interleaved Reas 6.9分前50% #语音对话系统 29. Precise and Simple Audio-to-Score Alignment 6.8分前50% #音乐信息检索 30. Benchmarking Commercial ASR Systems on Code-Switching S 6.8分前50% #语音识别 31. CRAFT: Critic-Refined Adaptive Key-Frame Targeting for 6.6分前50% #多模态问答 32. Optimising Neural Speech Codecs for 300bps Communicatio 6.5分前50% #音频编码 33. A Survey of Large Audio Language Models: Generalization 6.2分前50% #音频大模型 34. Speech Quality Embeddings for Improved Detection and Cl 5.8分前50% #语音质量评估 35. Musical Attention Transformer: Music Generation Using a 5.6分前50% #音乐生成 36. Music of Changing Lines: Toward a Culturally Situated A 5.5分前50% #音乐生成 37. π-Bench: Evaluating Proactive Personal Assistant Agents 5.2分后50% #长期助手 38. Ordering Matters: Rank-Aware Selective Fusion for Blend 5.0分后50% #多模态情感识别 39. FlowLong: Inference-time Long Video Generation via Mani 4.9分前50% #视频生成 40. A conceptual framework for learning to listen by reward 4.0分后50% #声源定位 📋 论文列表 🥇 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv ...