低资源 | 语音/音乐/音频论文速递

Mask, Sample, Revise: A Revisable CTMC Inference Stack for Guided Discrete Flow Matching Text-to-Speech

📄 Mask, Sample, Revise: A Revisable CTMC Inference Stack for Guided Discrete Flow Matching Text-to-Speech #语音合成 #概率图模型 #自监督学习 #低资源 #数据增强 6.8/10 | 创新 1.2/2 | 严谨 1.0/1.5 | 实验 1.2/1.5 | 清晰 1.2/1 | 影响 1.0/1.5 | 开源 0.5/1.5 | 复现 0.8/0.5 | 工程 1.0/1.5 ✅ 6.8/10 | 前25% | #语音合成 | #概率图模型 | #自监督学习 #低资源 | arxiv 👥 作者与机构作者: Alef Iury Siqueira Ferreira, Lucas Rafael Stefanel Gris, Luiz Fernando de Araújo Vidal, Frederico Santos de Oliveira, Christopher Dane Shulby, Anderson da Silva Soares, Arlindo Rodrigues Galvão Filho 机构: 巴西米纳斯吉拉斯联邦大学（根据作者背景推断，论文原文未明确列出机构全称） ...

语音/音乐/音频论文速递 2026-06-15

语音/音乐/音频论文速递 2026-06-15 共分析 26 篇论文 ⚡ 今日概览 📥 抓取 26 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #语音合成 4篇 ████ #说话人识别 3篇 ███ #数据增强 2篇 ██ #音频问答 2篇 ██ #语音增强 1篇 █ #音乐信息检索 1篇 █ #强化学习 1篇 █ 📊 论文评分排行榜（26 篇，按分数降序）排名论文总分分档主任务 🥇 Listening with Attention: Entropy-Guided Explainability 9.6分前25% #语音识别 🥈 MaskedFOP: Polyglot Speaker Identification under Missin 9.2分前25% #说话人识别 🥉 HIDVAS: A Hearing Instrument Dataset in Various Acousti 9.0分前25% #语音增强 4. BayLing-Duplex: Native Full-Duplex Speech Dialogue with 9.0分前10% #语音合成 5. Moonlight in Latent Space: Chirality and Structural Cor 8.7分前50% #音乐信息检索 6. Who Spoke When in Multi-Conversation: Target Speaker Ta 8.6分前50% #说话人识别 7. Learning to Hear Hesitation: Continual Learning for Dis 8.3分前25% #语音识别 8. The Holistic Storage of Verb+Up Phrases in Text-based a 8.2分前50% #语音识别 9. OmniVideo-100K: A Dataset for Audio-Visual Reasoning th 8.2分前50% #数据增强 10. Orchestra-o1: Omnimodal Agent Orchestration 8.1分前50% #强化学习 11. Unsupervised Approaches for Global Prosodic Embedding E 7.8分前25% #语音合成 12. Instantaneous Pitch Estimation via Wave-U-Net-Based Fun 7.7分前25% #数据增强 13. A Deep Zero-Inflated Model of North Atlantic Right Whal 7.6分前50% #概率图模型 14. FAConformer: Frequency-Aware Convolutional Transformer 7.5分前25% #Transformer 15. From Self-Supervised Speech Models to Mixture-of-Expert 7.5分前50% #自监督学习 16. The Perceived Fragility of Explanations in Audio Models 7.5分前25% - 17. A Multi-Domain Feature Fusion Framework for Generalizab 7.4分前50% #多模态模型 18. AudioDER: A Deduplication-Enhanced Reasoning Dataset fo 7.3分前50% #音频问答 19. Beyond task performance: Decoding bioacoustic embedding 7.1分前50% - 20. Explainable and Trustworthy Speech Emotion Recognition 7.0分前50% #语音情感识别 21. FoleyGenEx: Unified Video-to-Audio Generation with Mult 7.0分前50% #语音合成 22. Spatio-Temporal Audio Language Modeling for Dynamic Sou 6.9分前25% #音频问答 23. Mask, Sample, Revise: A Revisable CTMC Inference Stack 6.8分前25% #语音合成 24. MoDiCoL: A Modular Diagnostic Continual Learning Datase 6.5分前50% #语音识别 25. Multimodal Speaker Identification in Classroom Environm 6.0分前50% #说话人识别 26. Efficiency-Performance Trade-offs in Neural Speaker Dia 5.1分后50% #说话人日志 📋 论文列表 🥇 Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models 9.6/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ...

Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

📄 Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data #语音翻译 #数据增强 #自监督学习 #多模态模型 #参数高效微调 #低资源 8.4/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.4/10 | 前25% | #语音翻译 | #数据增强 | #自监督学习 #多模态模型 | arxiv 👥 作者与机构作者：Qixu Chen，Satoshi Nakamura 机构：School of Data Science 和 School of Artificial Intelligence，The Chinese University of Hong Kong, Shenzhen, China ...

Positional Encoding in the Context of Memristor-Based Analog Computation for Automatic Speech Recognition

📄 Positional Encoding in the Context of Memristor-Based Analog Computation for Automatic Speech Recognition #语音识别 #低资源 #模型压缩 8/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前50% | #语音识别 | #模型压缩 | #低资源 | arxiv 👥 作者与机构作者：Benedikt Hilmes, Nick Rossenbach, Ralf Schlüter 机构：RWTH Aachen University 机器学习与人类语言技术组, Apptek GmbH (德国亚琛) 💡 毒舌点评这篇论文精准地切入了一个“硬件-算法协同设计”的细分痛点：在忆阻器这种新兴模拟计算硬件上，一个原本能提升性能的常规组件（相对位置编码）反而成了性能毒药。文章的价值在于揭示了这种“水土不服”的现象并给出了工程上的补救方案。然而，作为一篇投向顶会的论文，其贡献的“宽度”和“深度”略显不足。它更像一份扎实的硬件部署问题诊断报告，而非一篇提出全新算法或深刻理论洞察的论文。问题本身有趣，但解决方案（调整ADC位数、移除线性层）相对直接，缺乏令人眼前一亮的创新。此外，结论中“∼50%”和“∼30%”的表述需要更精确的定义和基准，否则容易产生误导。 ...

Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment

📄 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment #语音合成 #语音编码 #自监督学习 #正则化微调 #低资源 #模型压缩 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.7/10 | 前25% | #语音合成 | #自监督学习 | #语音编码 #正则化微调 | arxiv 👥 作者与机构作者：Xiang Li, Yixuan Zhou, Jingran Xie, Zhiyong Wu, Hui Wang。论文未明确提及作者所属机构。 💡 毒舌点评这篇工作提出了一个简单有效且即插即用的训练技巧（Self-Guidance），确实能提升编解码器性能并减少码本大小，对下游LLM任务有益。但审稿人普遍会质疑其“新颖性”上限——这本质上是一种特征级别的对齐或正则化手段，在自蒸馏、特征模仿等领域早有类似思想。论文在理论分析上较为薄弱，缺乏对“为何对齐解码器特定层特征就如此有效”的深入数学或信息论解释。下游TTS实验规模太小，像一个仓促的验证，难以充分支撑“显著提升”的结论。整体而言，这是一篇扎实的工程改进工作，但离理论贡献或范式突破尚有距离。 📌 核心摘要本文针对VQ-VAE神经语音编解码器中量化误差限制重建质量的问题，提出了一种轻量级训练机制“自引导”（Self-Guidance, SG）。SG在训练时为解码器引入一个辅助分支，输入连续的预量化潜在向量（teacher路径），并通过一个特征映射损失（\(\\mathcal{L}_{\\text{guide}}\)）对齐该分支与原始量化输入分支（student路径）在解码器最后一个Transformer块输出的隐藏特征。此举旨在提升解码器对量化误差的鲁棒性，使其在推理时仅处理量化token也能生成更高质量的波形。实验表明，SG在XCodec2模型上取得了多项指标的SOTA，并能以1/4码本大小达到基线性能，从而有益于简化下游LLM的语音token建模。该机制泛化性良好，适用于不同的量化器和解码器架构。 ...

语音/音乐/音频论文速递 2026-06-12

语音/音乐/音频论文速递 2026-06-12 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 6篇 ██████ #语音识别 4篇 ████ #音频分类 2篇 ██ #语音翻译 2篇 ██ #语音增强 2篇 ██ #音频生成 1篇 █ #多模态模型 1篇 █ #说话人识别 1篇 █ 📊 论文评分排行榜（27 篇，按分数降序）排名论文总分分档主任务 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Mani 9.7分前25% #语音合成 🥈 Ontology Memory-Augmented ASR Correction for Long Text- 9.6分前25% #语音识别 🥉 Emo-LiPO: Listwise Preference Optimization for Fine-Gra 9.3分前50% #语音合成 4. AudioX-Turbo: A Unified Framework for Efficient Anythin 9.0分前10% #音频生成 5. M*: A Modular, Extensible, Serving System for Multimoda 8.9分前25% #多模态模型 6. Decoding Insect Song: A Multitask Semisupervised Orthop 8.7分前50% #音频分类 7. Missing-Token Prompted Reliability-Aware Fusion for Rob 8.6分前25% #说话人识别 8. Leveraging Audio-LLMs to Filter Speech-to-Speech Traini 8.4分前25% #语音翻译 9. Endpoint Anticipation for Low-Latency Spoken Dialogue 8.2分前25% #多任务学习 10. A Dual-Mode Faust-to-CLAP Compilation System 8.1分前50% - 11. PRISM: Prosody-Integrated Multi-Agent Reasoning Framewo 8.1分前25% #语音合成 12. Positional Encoding in the Context of Memristor-Based A 8.0分前50% #语音识别 13. From Tokens to Faces: Investigating Discrete Speech Rep 7.9分前25% #语音合成 14. Low-Latency Real-Time Audio Game Commentary System via 7.9分前25% #语音合成 15. MiniMax Sparse Attention 7.7分前25% #高效推理 16. BASENet: Band-Adapted Speech Enhancement Network with C 7.5分前50% #语音增强 17. Dolph2Vec: Self-Supervised Representations of Dolphin V 7.2分前50% #音频分类 18. Balancing ASR and diarization in end-to-end LLMs for mu 7.1分前50% #语音识别 19. NaturalFlow: Reducing Disruptive Pauses for Natural Spe 7.0分前50% #语音翻译 20. Adaptive Turn-Taking for Real-time Multi-Party Voice Ag 6.7分后50% #数据增强 21. Predicting Cognitive Load from Speech and Interaction D 6.7分前50% #语音情感识别 22. PiDA: Phonetically-Informed Data Augmentation for Robus 6.5分前50% - 23. Generating Training Targets for Real-World Speech Enhan 6.4分前50% #语音增强 24. Towards Personalized Federated Learning for Dysarthric 6.2分前50% #语音识别 25. The Moving Drone: Negotiating Agency Between the Voice 6.0分前50% - 26. Generative Modeling of Bach-Style Symbolic Music: A Com 5.7分前50% #音乐生成 27. Vocal Identity Under Siege by AI Voice Cloning Technolo 3.2分前50% #语音合成 📋 论文列表 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

Evaluating Bias in Phoneme-Based Automatic Speech Recognition Systems: An Analysis of IPA Transcription Models

📄 Evaluating Bias in Phoneme-Based Automatic Speech Recognition Systems: An Analysis of IPA Transcription Models #语音识别 #多语言 #低资源 8.8/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.8/10 | 前50% | #语音识别 | #多语言 | #低资源 | arxiv 👥 作者与机构 Catherine Bao， Maneesha Rani Saha， Neal Patwari，均来自University of Utah。 💡 毒舌点评这篇论文选题重要，直击IPA-ASR系统在多语言与人口统计公平性评估的空白，其提出的Soft PER指标在概念上具有启发性。然而，论文的“软肋”在于其核心评估框架建立在一个无法回避的“软肋”之上：依赖G2P生成的、未经专家验证的IPA作为“标准答案”。这使得所有性能差异的解读都笼罩在“标注噪声”和“标准化偏见”的阴影下，大大削弱了结论的确定性。Soft PER本身虽试图缓解此问题，但其设计（特别是英语优先的映射）也可能引入新的偏差。模型评估部分清晰，但结论中关于“无系统性性别差异”和“特定口音/族裔差异”的断言，受限于数据集规模和异质性，显得有些武断。整体而言，是一篇扎实但受方法论约束的初步探索，距离“揭示偏差根源”还有相当距离。 ...

Gumbel-BEARD: Automatic Layer Selection for Self-Supervised Adaptation of Whisper in Low-Resource Domains

📄 Gumbel-BEARD: Automatic Layer Selection for Self-Supervised Adaptation of Whisper in Low-Resource Domains #语音识别 #自监督学习 #低资源 #领域适应 9.1/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.1/10 | 前25% | #语音识别 | #自监督学习 | #低资源 #领域适应 | arxiv 👥 作者与机构作者：Zilai Wang, Natarajan Balaji Shankar, Mohan Shi, Kaiyuan Zhang, Abeer Alwan 机构：University of California, Los Angeles, USA ...

Pretrained self-supervised speech models can recognize unseen consonants

📄 Pretrained self-supervised speech models can recognize unseen consonants #语音识别 #低资源 #自监督学习 #数据集 6.5/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #自监督学习 | #低资源 #数据集 | arxiv 👥 作者与机构作者：Chihiro Taguchi， Éric Le Ferrand， Hirosi Nakagawa， Hitomi Ono， Kanji Kato， Emily Prud’hommeaux， David Chiang。机构：University of Notre Dame, USA； University at Buffalo, USA； Tokyo University of Foreign Studies, Japan； Reitaku University, Japan； Independent researcher； Boston College, USA。 ...

Tight Boundary Prediction in Speaker Diarization Using Causal-Anticausal Consistency

📄 Tight Boundary Prediction in Speaker Diarization Using Causal-Anticausal Consistency #低资源 9.6/10 | 创新 1.8/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 9.6/10 | 前25% | #低资源 | #低资源 | arxiv 👥 作者与机构作者：Tianchi Ji, Rui Liu, Shixiong Zhang, Haizhou Li 机构：香港中文大学（深圳），中国；上海交通大学，中国；上海人工智能实验室，中国 💡 毒舌点评这篇工作瞄准了说话人分割中一个具体而实际的痛点——边界预测不准，并提出了一个思路巧妙的解决方案。核心想法（利用因果和反因果模型的一致性）具有一定的理论趣味性，实现起来也算工程上“优雅”。实验部分在多个标准数据集上做了验证，证明了其有效性，尤其是对边界敏感指标的提升，这是值得肯定的。开源了代码和模型权重，对于社区复现和后续研究是负责任的。然而，论文的“新意”更多在于技术组合的巧妙，而非根本性的理论突破。一致性约束的物理或信息论解释略显薄弱，更多是启发式的。消融实验虽然做了，但对一致性约束本身的作用机制（例如，它到底迫使模型学到了什么？）挖掘不够深。另外，将边界预测问题转化为一个在预测边界附近的“精细分类”问题，这个思路不新，本文的贡献在于如何更有效地“定位”这个附近区域。总的来说，这是一篇扎实、有用的工程改进型工作，但距离顶尖会议那种“灵光一现”的开创性还有距离，其影响力主要局限于说话人分割领域内的边界优化技术。 📌 核心摘要本文针对说话人分割任务中边界预测不精确的问题，提出了一种基于因果-反因果一致性的新方法。核心思想是，对于同一段语音，从过去到未来的“因果”模型和从未来到过去的“反因果”模型，在真正的说话��边界处应产生一致的决策（即预测该点为边界或非边界）。为此，作者设计了一个可微分的边界采样器，利用初始模型（如EEND-VC）的预测作为锚点，在其邻域内密集采样，然后通过一致性损失来优化整个分割模型。该方法将边界优化过程无缝集成到端到端的训练框架中。实验表明，在AliMeeting、AMI和DIHARD III三个数据集上，该方法在边界敏感的指标（B-CUBER, JER）上取得了显著提升，同时整体的分割错误率（DER）也得到保持或改善，验证了所提一致性约束的有效性。 🔗 开源详情代码：https://github.com/TianchiJi/CA-Consistency-Diarization 模型权重：https://huggingface.co/TianchiJi/ca-consistency-diarization-base 数据集：论文中使用了公开数据集AliMeeting, AMI, DIHARD III，但未提供额外数据集。 Demo：论文中未提及。复现材料：论文在“Implementation Details”和“Appendix”中提供了详细的训练配置、超参数设置及因果-反因果一致性训练的具体实现细节。提供了指向GitHub代码库和HuggingFace模型库的明确链接。论文中引用的开源项目： EEND-VC: https://github.com/espnet/espnet （作为基线模型） Pyannote-Audio: https://github.com/pyannote/pyannote-audio （用于数据预处理和评估） 🏗️ 方法概述和架构本文提出的方法旨在通过引入因果-反因果一致性约束来提升说话人分割模型的边界预测精度。整体架构包含一个基础的端到端说话人分割模型（例如EEND-VC），以及一个在该基础模型上构建的一致性训练模块。 ...