Improving multichannel speech enhancement through accurate room-acoustic simulations

📄 Improving multichannel speech enhancement through accurate room-acoustic simulations #语音增强 #数据增强 #多通道 #语音识别 6.8/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 6.8/10 | 前50% | #语音增强 | #数据增强 | #多通道 #语音识别 | arxiv 👥 作者与机构 Georg Götz, Alessia Milo, Steinar Guðjónsson, Daniel Gert Nielsen, Jesper Pedersen, Finnur Pind Treble Technologies, Reykjavík, Iceland 邮箱: georg.goetz@treble.tech, am@treble.tech, sg@treble.tech, dgn@treble.tech, jp@treble.tech, fp@treble.tech ...

2026-07-01 · 更新于 2026-07-02 · 2 min · 320 words

语音/音乐/音频论文速递 2026-07-01

语音/音乐/音频论文速递 2026-07-01 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 8篇 ████████ #语音合成 7篇 ███████ #自监督学习 2篇 ██ #音频分类 2篇 ██ #生成模型 2篇 ██ #语音情感识别 2篇 ██ #数据集 1篇 █ #知识蒸馏 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Dilemmadata: On the Interoperability of Heterogeneous R 10.0分 前50% #数据集 🥈 SwiftAudio: Data-Efficient Caption-Only Distillation fo 10.0分 前50% #知识蒸馏 🥉 Attacking UTMOS: Probing the Robustness of a Speech Qua 8.6分 前25% #语音质量评估 4. Enhancing BEST-RQ Pseudo-Label Quality through Online R 8.6分 前50% #语音识别 5. Linguistic Bias Mitigation for Spoofing Detection via G 8.6分 前25% #自监督学习 6. Building an ASR Solution for Training and Assessing Chi 8.5分 前50% #语音识别 7. Beyond Cross-Reconstruction: Probing-Based Disentanglem 8.1分 前50% #语音编码 8. MuseBench: Benchmarking Intent-Level Audiovisual Arts U 7.9分 前50% #语音合成 9. Detecting Audio Deepfakes on the Edge:Lightweight SSL-B 7.7分 前25% - 10. Beyond Binary Instrument QA: Probing Instrument Groundi 7.6分 前25% #音频分类 11. SyncCache: Exploiting Asymmetric Dynamics for Fast Audi 7.5分 前25% #语音合成 12. Probing-Guided Layer Selection from Self-Supervised Spe 7.5分 前25% #集成学习 13. A First Exploration of Neuromorphic OT-CFM for Multi-Sp 7.5分 前25% #生成模型 14. LuxEmo: Expressive Text-to-Speech Corpus for Luxembourg 7.5分 前25% #语音合成 15. A Fair and Transparent Framework for Speech-Based Depre 7.4分 前50% #语音情感识别 16. ALM2Vec: Learning Audio Embeddings for Universal Audio 7.4分 前50% #音频检索 17. ASR-Agnostic Multimodal Spectrotemporal Modeling for Ea 7.4分 前50% #多模态模型 18. UniSAE: Unified Speech Attribute Editing on Speaker, Em 7.3分 前50% #语音合成 19. Tone-Conditioned Curriculum Learning for Low-Resource B 7.3分 前50% #语音识别 20. What Counts as an Error? Dual-Reference Benchmarking fo 7.3分 前50% #语音识别 21. Is Natural Always Appropriate? Investigating Naturalnes 7.2分 前25% #语音合成 22. FlexiSLM: A Dynamic and Controllable Frame Rate Spoken 7.2分 前25% #语音合成 23. ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning fo 7.1分 前50% #音频分类 24. Preserving Speech-to-Text LLM Capabilities in Speech-to 7.0分 前50% #语音识别 25. Listening Between the Lines: Joint Learning of ASR Embe 7.0分 前50% #数据增强 26. BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Appro 6.9分 前50% #语音识别 27. Improving multichannel speech enhancement through accur 6.8分 前50% #语音增强 28. Amplifying Membership Signal Through Chained Regenerati 6.6分 前50% #生成模型 29. AVTok: 1D Unified Tokenization for Holistic Audio-Video 6.5分 前25% #语音合成 30. LOPA: Enhancing Spoken Language Assessment via Latent O 6.2分 前50% #低资源 31. Adapting Foundation ASR Models to Dysarthric Speech: A 6.2分 前50% #语音识别 32. How Bilingual Are SSL Speech Models? Cross-Lingual Prob 5.8分 前50% #自监督学习 33. Gated Multi-Graph Fusion via Graph Attention Networks f 5.2分 后50% #语音情感识别 34. Building a Multimodal Dataset of Academic Paper for Key 5.2分 后50% #语音识别 35. Reference-Based Prosody and Rhythm Evaluation for Spoke 4.7分 后50% #语音对话系统 📋 论文列表 🥇 Dilemmadata: On the Interoperability of Heterogeneous Roman Numeral Datasets 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-07-01 · 更新于 2026-07-02 · 20 min · 4207 words

Position-Aware Target Speaker Extraction for Long-Form Multi-Party Conversations: A Diarization-Free Framework for ASR

📄 Position-Aware Target Speaker Extraction for Long-Form Multi-Party Conversations: A Diarization-Free Framework for ASR #语音识别 #多通道 #课程学习 8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.5/10 | 前25% | #语音识别 | #课程学习 | #多通道 | arxiv 👥 作者与机构 Yichi Wang, Junzhe Chen, Wangjin Zhou, Tatsuya Kawahara. 日本京都大学信息学研究生院. 💡 毒舌点评 这篇论文的核心问题定义清晰,提出的PATSE框架逻辑自洽,在自建的回放数据集上也取得了显著的性能提升。然而,一个顶会级别的工作必须直面其方法的阿喀琉斯之踵——对DOA准确性的绝对依赖。论文对此的讨论轻描淡写,仅在引言中提及DOA可由麦克风阵列或摄像头获得,却在实验部分使用了完美的物理扬声器方向作为真实值,这种“理想化”的评估严重削弱了结论的鲁棒性说服力。更关键的是,对于目标说话人提取而非分离的任务,其计算开销是随说话人数线性增长的,论文对此成本只字未提。此外,在真实世界TEIDAN数据集上的WER结果虽然最优,但20.5%的错误率依然很高,论文将此部分归因于ASR后端,但并未提供分离质量的客观度量(如SDR)来佐证。总而言之,框架新颖,实验扎实,但对实际部署的关键挑战避重就轻,使其“实用”价值打了折扣。 📌 核心摘要 本文针对多人长对话ASR中“谁在何时说了什么”的难题,提出了位置感知目标说话人提取(PATSE)前端框架。该框架利用目标说话人相对稳定的到达方向(DOA)作为显式空间先验,通过一个DOA引导的空间编码器和条件模块,将目标特定的空间特征注入TIGER分离主干网络,从而直接为每个目标说话人生成独立的语音流。通过后续简单的语音活动检测(VAD)即可推断说话人活动,无需显式说话人分割(diarization)。为评估DOA相关方法,论文构建并发布了带真实房间DOA标注的回放数据集LibriReplay-DOA。在合成数据集LibriReplay-DOA和真实对话数据集TEIDAN上的实验表明,PATSE在下游ASR任务上持续优于连续语音分离(CSS)和基于分割的流水线方法。 ...

2026-06-30 · 更新于 2026-07-02 · 2 min · 252 words

语音/音乐/音频论文速递 2026-06-30

语音/音乐/音频论文速递 2026-06-30 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 10篇 ██████████ #语音合成 4篇 ████ #自监督学习 2篇 ██ #语音编码 2篇 ██ #音乐生成 1篇 █ #音频事件检测 1篇 █ #语音分离 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Preference-ASR: A Preference-Aware Test Set for Benchma 9.5分 前10% #语音识别 🥈 LeVo 2: Stable and Melodious Song Generation via Hierar 9.4分 前10% #音乐生成 🥉 VIB-AVSR: Variational Information Bottleneck for Noise- 9.0分 前10% #语音识别 4. Two kinds of robustness are not the same: disentangling 8.9分 前25% #音频事件检测 5. DialogPII: A multilingual dataset of synthetic dialog t 8.9分 前25% #语音识别 6. GigaSpeechBench: A Real-World Multilingual Speech-to-Te 8.7分 前50% #语音识别 7. SICAGE: Speaker-Independent Culture-Aware Gesture Gener 8.7分 前25% #语音合成 8. How to Leverage Synthetic Speech for LLM-Based ASR Syst 8.7分 前50% #语音识别 9. Position-Aware Target Speaker Extraction for Long-Form 8.5分 前25% #语音识别 10. wav2VOT: Automatic estimation of voice onset time, clos 8.5分 前25% #自监督学习 11. Improving Large-Scale Weakly Supervised ASR by Filterin 8.4分 前25% - 12. Agent-Computer Observation Interfaces Enable Dynamic Co 8.4分 前10% #语音识别 13. DTM-Codec: Dynamic Token Masking for VFR Speech Coding 8.1分 前25% #语音编码 14. TF-MoE: Time-Frequency Mixture-of-Experts for Efficient 8.1分 前25% #语音分离 15. Underwater Source Detection and Classification for Sign 7.8分 前25% #数据集 16. AMR: Adaptive Modality Routing for Multimodal Polyglot 7.8分 前25% #说话人识别 17. FacePlex: Full-Duplex Joint Speech-Facial Motion Genera 7.8分 前25% #语音合成 18. VeRe-Flow: Guiding Flow Matching toward Clean Speech vi 7.7分 前25% #语音增强 19. CTC-Seeded Token Edit Refinement for Non-Autoregressive 7.7分 前25% #语音识别 20. Evaluation of Head-Related Transfer Functions Across Fi 7.6分 前25% #空间音频 21. Semi-Supervised Sound Event Detection with Conditional 7.6分 前25% #对比学习 22. OLIVE: View-Augmented Latent Prediction with Waveform R 7.5分 前50% #语音识别 23. EchoHawk: A Reproducible Acoustic Pipeline for Drone De 7.5分 前25% - 24. LoRA-Tuned Large Language Models for Dementia Detection 7.5分 前50% #参数高效微调 25. MeloDISinger: Melody-Aware & Duration-Preserving Si 7.4分 前50% #语音合成 26. Child-Centric Voice Anonymization in Single and Multi-S 7.2分 前50% #语音匿名化 27. SIGMA: Saliency-Guided Sparse Mask Attacks for Speech E 7.1分 前50% #语音情感识别 28. Effective Depth in Joint Source-Channel Coding: An Impl 7.0分 前50% #语音编码 29. SIMAX: A Scalable and Interpretable Framework for Multi 6.6分 后50% #语音合成 30. Clustering Unsupervised Representations as Defense agai 6.5分 前50% #自监督学习 31. Comparing Human and Automatic Recognition of Dutch Dysa 6.5分 前50% #语音识别 32. Predicting Timbre Traits for Interpretable Assessment o 6.1分 前50% #音频生成 33. TRACE: Temporal Relationship-Aware Conversational Entra 5.9分 前50% - 34. Proteus: Automated Adversarial Robustness Testing for A 5.3分 后50% #数据增强 35. Rehearsed Multi-Agent Live Product Demonstrations with 5.3分 后50% #多模态模型 📋 论文列表 🥇 Preference-ASR: A Preference-Aware Test Set for Benchmarking ASR in the Era of Speech LLMs 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-30 · 更新于 2026-07-02 · 22 min · 4475 words

Learning Input-Channel Permutation Equivariance for Multi-Channel Source Separation: Reducing Bleeding in Small Music Ensembles

📄 Learning Input-Channel Permutation Equivariance for Multi-Channel Source Separation: Reducing Bleeding in Small Music Ensembles #音乐源分离 #多通道 #数据增强 #音乐信息检索 7.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.9/10 | 前50% | #音乐源分离 | #数据增强 | #多通道 #音乐信息检索 | arxiv 👥 作者与机构 Ruchi Pandey (Tampere University, Audio Research Group), Jaime Garcia-Martinez (University of Jaen, Telecommunication Engineering Department), Pablo Cabañas-Molero (University of Jaen), David Diaz-Guerra (Tampere University), Ricardo Falcón Pérez (Tampere University), Tuomas Virtanen (Tampere University), Julio J. Carabias-Orti (University of Jaen), Pedro Vera-Candeas (University of Jaen) ...

2026-06-16 · 更新于 2026-07-02 · 2 min · 419 words

语音/音乐/音频论文速递 2026-06-16

语音/音乐/音频论文速递 2026-06-16 共分析 62 篇论文 ⚡ 今日概览 📥 抓取 62 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 9篇 █████████ #语音合成 6篇 ██████ #多模态模型 5篇 █████ #自监督学习 4篇 ████ #音频生成 3篇 ███ #生成模型 2篇 ██ #语音生成 2篇 ██ #音乐信息检索 2篇 ██ 📊 论文评分排行榜(62 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 TuneJury: An Open Metric for Improving Music Generation 9.7分 前25% #多模态模型 🥈 Acoustic, VOC, and Multimodal Stress Source Localizatio 9.7分 前50% #声源定位 🥉 VoxWatermark: A Large-Scale Benchmark for Audio Waterma 9.4分 前50% #鲁棒性 4. Phonetically Explainable Speech Deepfake Detection 9.0分 前50% #语音伪造检测 5. FreeSonic: Training-Free Temporal-Aware Decoupled Atten 9.0分 前25% #音频生成 6. MambAdapter: Lightweight Mamba-Based Adapters for Param 8.9分 前25% #语音识别 7. XAI-Grounded Explanation Generation for Speech Deepfake 8.9分 前25% #多模态模型 8. Unified Audio Generation and Editing via Joint Conditio 8.7分 前25% #音频生成 9. AdaTT: Text-Guided Instrument Timbre Transfer with Targ 8.7分 前25% #音频生成 10. DuraMark: Duration-Embedded Watermarking in LLM-based T 8.7分 前25% #生成模型 11. When the Same Musical Knowledge Forgets Differently: A 8.6分 前10% - 12. Probing Low Frame Rate Degradation in Neural Audio Code 8.6分 前25% #语音生成 13. Rhythm of the Deep: A Computational-Linguistic Test of 8.5分 前25% #自监督学习 14. Beyond Artifacts: Towards Generalizable Synthetic Song 8.4分 前25% #音乐信息检索 15. Acoustic Prompting via Stage-wise Modulation for Few-Sh 8.3分 前50% #音频分类 16. ArtNet: A JEPA-Like Articulatory Predictive Framework f 8.3分 前50% #语音识别 17. MatchLM2Lite: A Scalable MLLM-to-Lite Framework for Rep 8.3分 前25% #音频分类 18. Bridging the SEA Gap: An Initial Benchmark for Neural A 8.2分 前25% #语音合成 19. An Empirical Study on Learning Latent Representations f 8.2分 后50% #语音合成 20. From Physics to Representation: Audio Learning with Syn 8.2分 前25% #自监督学习 21. An Asymmetric Formula for Interval Consonance and its R 8.0分 前25% #音乐信息检索 22. Universal adaptive beamforming: A Bayesian approach 8.0分 前50% #自适应滤波 23. Learning Input-Channel Permutation Equivariance for Mul 7.9分 前50% #音乐源分离 24. Stabilizing Short Duration Speaker Verification through 7.9分 前50% #说话人验证 25. AUDEDIT: Inversion-Free Text-Guided Editing with Pretra 7.8分 前25% #生成模型 26. Interpretable and Frugal Learning Systems Employing Mul 7.8分 前25% - 27. MuVAP: Multimodal Multiparty Voice Activity Projection 7.8分 前25% #语音对话系统 28. Dynamic Prosody Prediction in LLM-based TTS for Improvi 7.6分 前25% #语音合成 29. Scaling Human and G2P Supervision for Robust Phonetic T 7.6分 前25% #语音识别 30. SPRI: SVD-Partitioned Residual Initialization for Data- 7.6分 前25% #语音翻译 31. CraBERT: Efficient Phoneme Encoder Pre-Training via Cas 7.5分 前50% #语音合成 32. Pixel-TTS: Image based Text Rendering for Robust Text-t 7.5分 前50% #语音合成 33. AP-GRPO: Anchor-Gated Phonetic Alignment with Policy Op 7.4分 前50% #语音识别 34. Spectro-Temporal Interference Confounds Phase Encoding 7.4分 前50% #自监督学习 35. Teacher-Student Structure for Domain Adaptation in Ense 7.4分 前50% #多模态模型 36. SciText2Eq: Assessing LLMs for Explainable Equation Gen 7.3分 前50% #大语言模型 37. Confidence Score Guided Incremental and Speaker Adaptiv 7.2分 前50% #语音识别 38. Geometrically Constrained Decentralized Independent Vec 7.2分 前50% #语音分离 39. Dual-Granularity Orthogonal Disentanglement for General 7.2分 前50% #课程学习 40. Data-Driven Decoding of Russell's Circumplex Model 7.2分 前50% #语音情感识别 41. Connecting Speech to Words through Images 7.1分 前50% #无监督学习 42. Bridging the Usability Gap: Lessons from Interpreting S 7.1分 前50% #语音翻译 43. TMASC: Transmasculine Attitude and Speech Corpus 7.0分 前50% - 44. MUNI: Multimodal Unified Latent Diffusion for Coherent 6.9分 前50% #语音生成 45. Decoding while Adapting: Zero-Shot Online Speaker Adapt 6.8分 前50% #语音识别 46. Joycent: Diffusion-based Accent TTS without Accented Ph 6.8分 前50% #语音合成 47. Semi-Supervised Speech Confidence Detection using Pseud 6.8分 前50% - 48. Robust Spoofed Speech Detection via Temporal Pyramid Mo 6.7分 前50% #音频深度伪造检测 49. From Awareness to Adherence: Bridging the Context Gap i 6.7分 前50% #语音识别 50. ArtBoost: Synthetic Articulatory Data Augmentation for 6.5分 前50% #语音识别 51. DDPO-VC: Speaker De-Identification via Diffusion Denois 6.5分 前50% #语音转换 52. NVMOS: Non-Verbal Vocalization Quality Assessment in Sp 6.2分 前50% #自监督学习 53. Unifying Acoustic Features and Text with Multimodal LLM 6.2分 前50% #多模态模型 54. ROMPAR: Morphological Completion and Demographic Unlear 6.2分 前50% #语音识别 55. EChO-Agent: Evidence Chain Orchestration Agent for Audi 6.1分 前50% #音频问答 56. Beyond Classification: A Cough Regression Benchmark for 6.0分 前50% #音频事件检测 57. Towards Robust Generative Speech Enhancement Using Vect 5.9分 前50% #语音增强 58. Fast When, Careful Who: Dual-Process Multiparty Turn-Ta 5.9分 前50% #语音活动检测 59. MAF: Multimodal Adaptive Few-shot Prompting for Sentime 5.9分 前50% #多模态模型 60. An auscultation location specific study on the relation 5.8分 前50% - 61. Closed-Loop Triplet Synergistic Generation for Long-For 5.5分 前50% - 62. LLM-Based Synthetic Ground Truth Generation for Audio-B 5.3分 后50% #数据增强 📋 论文列表 🥇 TuneJury: An Open Metric for Improving Music Generation Preference Alignment 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

2026-06-16 · 更新于 2026-07-02 · 36 min · 7668 words

MeCo: One-Step MeanFlow-based Corrector for Multi-Channel Speech Separation

📄 MeCo: One-Step MeanFlow-based Corrector for Multi-Channel Speech Separation #语音分离 #生成模型 #多通道 #实时处理 8.4/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.4/10 | 前25% | #语音分离 | #生成对抗网络 | #生成模型 #多通道 | arxiv 👥 作者与机构 Dohwan Kim (通讯作者),Jung-Woo Choi。机构:韩国科学技术院(KAIST)电气工程学院。 💡 毒舌点评 这篇论文精准地切入了一个实际痛点:判别模型指标好听感差,生成模型听感好但太慢。提出的MeCo(基于MeanFlow的一步修正器)思路清晰,工程实现上有亮点(DSO策略)。然而,其核心创新“MeanFlow”和“一步生成”概念并非首创,主要贡献在于将现有技术有效组合并应用于多通道语音分离这一具体场景。实验部分比较全面,但所有实验均在自己构建的模拟数据集上进行,缺乏真实录音场景的验证,这在一定程度上削弱了结论的普适性声称。作者将“独立说话人细化”列为局限性,但回避了更根本的问题:该级联系统的性能上限完全受限于前端判别模型,MeCo的修正能力在前端估计极差时是否依然鲁棒?未来工作部分提到的“显式空间建模”是必要的,但略显空泛。 📌 核心摘要 本文针对多通道语音分离任务中判别模型(信号保真度高但听感差)与生成模型(听感自然但计算慢且多通道方案少)的局限,提出了一种名为MeCo(MeanFlow-based One-Step Corrector)的一步式生成修正器。MeCo基于MeanFlows框架,学习从判别模型输出(t=1)到干净语音流形(t=0)的平均速度场,实现单步映射,避免了迭代生成的延迟。核心创新在于提出了数据空间优化(DSO)策略,通过结合 \(\mathbf{x}_{r}\)-损失(隐式优化生成轨迹)和端点SI-SDR损失(直接优化最终一步生成的信号保真度),最大化一步生成的性能。实验表明,MeCo在域内(WSJ0+WHAM!)和域外(Librispeech+DEMAND、低资源语言+DEMAND)数据集上,在参考性指标(PESQ, ESTOI, SI-SDR)和参考性人类听感指标(DNSMOS, UTMOS, NISQA)上均取得了最优性能,且计算开销极小。 🔗 开源详情 代码:https://github.com/rlaehghks5/MECO (论文明确声明并链接) 模型权重:论文中未提及提供预训练模型权重的下载链接。 数据集:论文中提及了以下公开数据集用于构建实验数据: WSJ0语料库(用于训练/测试) WHAM! 噪声数据集(用于训练/测试) Librispeech 语料库(用于域外评估) DEMAND 噪声数据集(用于域外评估) 低资源语言数据集(sodimana2018multilingual,用于域外语言评估) (论文未提供上述数据集的具体下载链接或开源协议说���,需研究者自行获取) Demo:论文中未提及。 复现材料:论文在4.2节“Implementation details”中声明:“所有模型的详细配置可在我们的公共仓库中找到。”(指代上述GitHub仓库)。未单独提供训练配置文件或检查点。 论文中引用的开源项目: gpuRIR (diaz2021gpurir):用于模拟房间脉冲响应(RIR)。 NCSN++ (Richter_2023SGMSE):作为生成模型(Fast-GeCo, MeanFlow, MeCo)的骨干网络。 Adam优化器 (kingma2014adam):用于模型训练。 (论文引用了项目名称,但未提供这些项目本身的链接) 🏗️ 方法概述和架构 MeCo是一个级联系统中的生成修正模块,其核心架构基于条件MeanFlows,并引入数据空间优化(DSO)进行训练。 ...

2026-06-09 · 更新于 2026-07-02 · 4 min · 841 words

语音/音乐/音频论文速递 2026-06-09

语音/音乐/音频论文速递 2026-06-09 共分析 48 篇论文 ⚡ 今日概览 📥 抓取 48 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 10篇 ██████████ #语音识别 9篇 █████████ #自监督学习 3篇 ███ #多模态模型 3篇 ███ #语音增强 2篇 ██ #音频生成 2篇 ██ #说话人验证 2篇 ██ #大语言模型 1篇 █ 📊 论文评分排行榜(48 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Asses 10.0分 前25% #大语言模型 🥈 G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior 9.3分 前50% #语音增强 🥉 HoliDubber: Holistic Video Dubbing for Complex Acoustic 9.0分 前10% #语音合成 4. Probing Token Spaces under Generator Shift in AI-Genera 9.0分 前10% #音频编码 5. A Comparative Study of Pre-trained Speech Encoders and 8.9分 前50% #自监督学习 6. AVI-Bench: Toward Human-like Audio-Visual Intelligence 8.8分 前25% #语音识别 7. Liberating LLM Capabilities in Full-Duplex Speech Model 8.7分 前25% #多模态模型 8. MeCo: One-Step MeanFlow-based Corrector for Multi-Chann 8.4分 前25% #语音分离 9. Your U-Net Dereverberation Model is Secretly an RIR Enc 8.3分 前50% #对比学习 10. Predictive Fixed-Filter Active Noise Control (PFANC) Us 8.3分 前25% - 11. TLDR: Compressing Audio Tokens for Efficient Autoregres 8.2分 前25% #语音合成 12. Subtitle-Aligned Fine-Tuning of Whisper for Swiss Germa 8.2分 前25% #语音识别 13. Discovering Functionally Selective Brain Regions with a 8.2分 前25% #多模态模型 14. Parameter-Efficient Continual Learning for Automatic Sp 8.1分 前25% #语音识别 15. OmniMem: Perturbation-aware Memory Compression for Stre 8.0分 前25% #高效推理 16. OpenBibleTTS: Large-Scale Speech Resources and TTS Mode 8.0分 前25% #语音合成 17. FlashTTS: Fast Streaming TTS with MTP Acceleration and 7.9分 前25% #语音合成 18. Multi-View Speech Representation Learning for Parkinson 7.9分 前50% #自监督学习 19. Is Text All You Need? Text as a Universal Information B 7.6分 前50% #语音识别 20. End-to-End Training for Discrete Token LLM based TTS Sy 7.6分 前50% #语音合成 21. Conan-embedding-v3: Fusing Modality-Specific Models for 7.6分 前25% #音频检索 22. Cross-Modal Masking for Robust Silent Speech Synthesis 7.5分 前50% #语音合成 23. Rethinking Depth: A study of the Recursive-Transformer 7.5分 前25% #语音识别 24. What Makes Synthetic Speech Sound Sarcastic? A Prosody- 7.5分 前25% #语音合成 25. FXplorer: A Map-Based Interface for Exploratory Audio E 7.5分 前25% #音频生成 26. Assessing the Energy and Carbon Emissions of Neural Spe 7.4分 前50% #说话人验证 27. Exploring the Scale and Diversity of Speech Anti-spoofi 7.4分 前50% #数据增强 28. From A to B to A: Palindromic Zero-Shot Voice Conversio 7.3分 前50% - 29. A study on the impact of region specific data on the pe 7.2分 前50% #语音识别 30. Speaker-Invariant Representation Learning for Spoofing 7.1分 前25% #对抗训练 31. BareWave: Waveform-Native Flow-Matching Text-to-Speech 7.0分 前50% #语音合成 32. SMC-ITA: Sequential Monte Carlo Inference-Time Alignmen 7.0分 前50% #音频生成 33. Quality-Diversity Search in Sound Generation: Investiga 7.0分 前50% - 34. Can LLMs understand LilyPond? A benchmark for symbolic 7.0分 前50% #音乐生成 35. NüshuVoice: Reviving the Voice of Endangered Nüshu with 7.0分 前50% #语音合成 36. Factors affecting ASR performance: A study using state 6.9分 前50% #语音识别 37. MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice 6.9分 前50% #语音转换 38. Few-shot Class-variable Incremental Audio Classificatio 6.9分 前50% #音频分类 39. A Hierarchical Feature Engineering Framework for Automa 6.8分 前50% - 40. Fast and Robust On-Device Speaker Diarization: Relative 6.6分 前50% #说话人分离 41. On Low-Bit Quantization Errors in Speaker Verification: 6.6分 前50% #说话人验证 42. Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Ne 6.5分 后50% #语音合成 43. TinyGiantALM: A Compact Audio-Language Model for Intent 6.4分 前50% #多模态模型 44. Overcoming Decoder Inconsistencies in Whisper for Dravi 6.2分 后50% #语音识别 45. Bridging Traditional Explainability Methods and Multimo 5.4分 后50% #语音识别 46. Sound Field Interpolation Using Physics-Informed Extrem 5.3分 后50% #语音增强 47. A Comparison of SSL-Based Feature Extractors and Back-E 5.0分 后50% #自监督学习 48. AeroSpectra Sentinel: An Auditable LLM Prompt-Chaining 4.5分 后50% #音频事件检测 📋 论文列表 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Assessment and Natural-Language Rationales 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-09 · 更新于 2026-07-02 · 29 min · 6000 words

Cross-Talk Speech Reduction, by Separation, for Separation

📄 Cross-Talk Speech Reduction, by Separation, for Separation #语音分离 #伪标签学习 #多通道 #长音频处理 #基准测试 #盲解卷积 🔥 9.1/10 | 前25% | #语音分离 | #伪标签学习 | #多通道 #长音频处理 | arxiv 学术质量 6.4/7 | 影响力 2.0/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 第一作者:未明确说明(论文中两位作者并列,但根据投稿标注,Z.-Q. Wang为通讯作者) 通讯作者:Zhong-Qiu Wang(南方科技大学计算机科学与工程系) 作者列表:Zhong-Qiu Wang(南方科技大学计算机科学与工程系)、Samuele Cornell(卡内基梅隆大学语言技术研究所) 💡 毒舌点评 亮点:论文精准地抓住了“近场混合信号作为伪标签不干净”这个核心痛点,并用一个优雅的、物理模型驱动的盲解卷积框架(CTRnet)解决它,进而在极具挑战性的CHiME-6数据集上取得了SOTA,首次让神经网络方法在真实对话场景显著超越了统治性的GSS。其核心创新在于将“利用近场信号”这一模糊想法系统化为可解的“交叉串扰抑制”任务,并端到端地在真实数据上训练。短板:整个框架严重依赖部署场景必须同时存在近场和远场麦克风,且假设最大说话人数固定,这在某些实际应用(如纯远场部署或人数极多的会议)中可能不成立,限制了其普适性。此外,论文仅在一个数据集(CHiME-6)上进行了验证,尽管它极具代表性,但缺乏多数据集的泛化性证明。 📌 核心摘要 问题:在对话语音分离任务中,训练数据常通过为每个说话者佩戴近场麦克风采集。这些近场信号能量高,是训练远场分离模型的天然监督信号,但它们含有严重的串扰噪声和环境噪音,不能直接作为伪标签。 方法核心:提出一个两阶段框架。首先,训练CTRnet,将其视为一个盲解卷积问题,直接从真实的近场/远场混合信号对中,估计出每个说话者的干净近场语音。然后,用CTRnet的估计结果作为伪标签,训练一个监督式的远场语音分离模型(PuLSS)。PuLSS在训练时创新性地使用说话者活动时间戳作为输入特征,以解决置换不变问题。 新意:与现有方法不同,该方法不依赖干净的模拟数据或假设近场信号足够干净。CTRnet和PuLSS均可直接在目标域的真实录制数据上训练,有效解决了模拟训练带来的域不匹配问题。其核心物理模型(混合约束)和引入的弱监督(时间戳)是关键。 主要结果:在极具挑战性的CHiME-6对话数据集上,PuLSS框架取得了SOTA性能。在使用微调的Parakeet ASR模型时,其tcpWER达到28.5%,显著优于所有CHiME-7/8挑战赛提交系统及基线GSS方法(33.5%)。在oracle日志下,cpWER达到19.5%,也优于GSS(29.7%)。 系统 (Diarization: Estimated) CHiME-7/8 挑战 验证集 tcpWER (%) 测试集 tcpWER (%) ESPnet baseline CHiME-7 65.7 85.2 NVIDIA NeMo CHiME-7 45.9 63.8 BUT-FIT CHiME-7 61.4 77.6 NPU CHiME-7 57.4 76.9 U. of Cambridge CHiME-7 44.5 55.4 USTC CHiME-7 35.7 44.8 IACAS-Thinkit CHiME-7 30.5 33.5 NTT CHiME-8 25.5 35.3 STCON CHiME-8 22.8 33.6 GSS (24-channel) + USTC diar. – 29.4 33.5 PuLSS + USTC diar. – 26.4 28.5 意义:为在真实对话场景(“野外”语音)中训练高性能分离模型提供了一条切实可行的路径,摆脱了对模拟数据的依赖。PuLSS是首个在真实对话数据上显著超越GSS的神经分离方法,具有里程碑意义。 ...

2026-05-21 · 更新于 2026-07-02 · 5 min · 887 words

Fast Multichannel NMF with Block-Diagonal Spatial Covariance Matrices for Efficient Blind Source Separation Using Distributed Microphone Arrays

📄 Fast Multichannel NMF with Block-Diagonal Spatial Covariance Matrices for Efficient Blind Source Separation Using Distributed Microphone Arrays #语音分离 #非负矩阵分解 #麦克风阵列 #多通道 #高效推理 ✅ 7.5/10 | 前50% | #语音分离 | #非负矩阵分解 | #麦克风阵列 #多通道 | arxiv 学术质量 5.0/7 | 影响力 1.0/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 第一作者:Hirotaka Nishikori(东京大学) 通讯作者:未说明 作者列表:Hirotaka Nishikori(东京大学)、Nobutaka Ito(日本产业技术综合研究所 AIST)、Kouei Yamaoka(东京大学)、Norihiro Takamune(东京大学)、Hiroshi Saruwatari(东京大学) 💡 毒舌点评 这篇论文在分布式麦克风阵列的盲源分离场景中,对FastMNMF进行了一个直接但有效的工程化改进:通过对源空间协方差矩阵施加块对角约束,将大规模矩阵运算分解为子阵列内的小问题,从而在牺牲一定性能的前提下实现了约3倍的加速。然而,其实验完全是在“同步、无噪”的高度理想化仿真环境中进行的,对实际部署中无法回避的异步、噪声、混响及模型假设失效等问题未做任何验证,使得该方法的实际应用价值仍是一个巨大的未知数,其贡献更像是一次理论复杂度降低的验证。 📌 核心摘要 本文提出了一种名为**分布式快速多通道非负矩阵分解(Distributed FastMNMF)**的盲源分离方法,专为由多个空间分离的子阵列组成的分布式麦克风阵列设计。针对传统FastMNMF在联合处理所有子阵列时因需要求逆和联合对角化的矩阵尺寸随总麦克风数增长而导致计算成本急剧上升的问题,该方法对源的空间协方差矩阵施加了块对角结构约束。此约束使得矩阵求逆和联合对角化操作被限制在每个子阵列内部进行,从而大幅降低了计算复杂度。同时,该方法跨子阵列共享由NMF建模的源频谱图,以聚合源活动信息。 主要实验在模拟的房间环境中进行(RT60=300ms)。结果表明,对于3个源的情况,所提方法的平均源失真比(SDR)改善为13.4 dB,高于仅使用一个子阵列的基线(12.5 dB),但低于使用所有子阵列的传统FastMNMF(15.7 dB)。在5个源的欠定条件下也表现出类似的性能折衷。在计算效率上,所提方法的运行时间(235.3秒)仅为传统FastMNMF(694.0秒)的33.9%,实现了约2.95倍的加速。该方法为在分布式阵列中实现高效盲源分离提供了一种计算上可行的中间方案。其主要局限性在于,评估完全基于同步、无噪的理想仿真,未考虑实际部署中的关键挑战。 🔗 开源详情 代码:https://github.com/fakufaku/fast_bss_eval (注:此为评估工具代码,非所提方法本身的实现代码) 模型权重:未提及 数据集:未提及(实验中使用了JNAS语料库中的语音信号作为干声源,但未提供其具体的开源获取链接或协议信息) Demo:未提及 复现材料:论文在第4.1节详细描述了实验条件、参数设置、初始化流程及评估方法,提供了复现论文中实验所需的全部技术细节,但未提供所提方法“Distributed FastMNMF”的独立代码仓库、配置文件或检查点文件。 论文中引用的开源项目: fast_bss_eval:https://github.com/fakufaku/fast_bss_eval pyroomacoustics:论文中提及用于生成房间脉冲响应,未提供链接。 scikit-learn:论文中提及使用其NMF实现进行初始化,未提供链接。 JNAS:论文中提及作为干声源语料库,未提供链接。 🏗️ 方法概述和架构 图1展示了论文实验所用的房间与分布式阵列配置。该图说明了方法的应用场景:三个空间分离的四麦克风子阵列(红色方块)布置在一个房间内,用于对五个声源(彩色圆点)进行盲源分离。 ...

2026-05-21 · 更新于 2026-07-02 · 2 min · 362 words