Adaptive Turn-Taking for Real-time Multi-Party Voice Agents

📄 Adaptive Turn-Taking for Real-time Multi-Party Voice Agents #数据增强 #流式处理 6.7/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.7/10 | 后50% | #数据增强 | #数据增强 | #流式处理 | arxiv 👥 作者与机构 Soumyajit Mitra, Prabhat Pandey, Abhinav Jain, Shanmukha Sahith, K V Vijay Girish。机构:Amazon AGI, IIT Kharagpur, India。 💡 毒舌点评 这篇论文试图用“角色扮演”来解决一个语音对话中的棘手问题——“谁该说话”,想法是不错的。但它就像一个训练有素的演员,在剧本(合成数据)和特定舞台(RolePlayConv评估集)上表现完美,可一旦到了真实、混乱、没有剧本的会议(NOTSOFAR-1)或者去掉提词器(文本转录),演技就大打折扣。最致命的是,它精心设计的整套“表演”系统——从数据、评估到角色分配——大部分都是自产自销、自我验证的闭环,代码和数据集都锁在仓库里,这严重削弱了它声称的“突破性”价值。说白了,这是一篇工程上细致、实验上自洽,但在开放性和真实世界通用性上自我设限的系统论文。 📌 核心摘要 本文针对多方语音对话中轮次转换(即决定何时发言)的难题,提出了ModeratorLM。这是一个基于语音大语言模型(LLM)的角色扮演代理,其是否介入对话的行为取决于一个明确指定的角色(如“主持人”)。系统采用分块流式处理方式。作者还引入了ModeratorLM-Think变体,它在做出决策前,会结合对话上下文和指定角色进行链式思维推理。为了训练模型,他们构建了大规模合成数据集RolePlayConv。实验表明,与没有角色条件的基线模型相比,ModeratorLM-Think在轮次转换的精确率、召回率上均有大幅提升(精确率提升超40%,召回率提升超70%),并显著减少了误打断。消融实验分析了分块策略和文本转录的影响。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 349 words

Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

📄 Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data #语音翻译 #数据增强 #自监督学习 #多模态模型 #参数高效微调 #低资源 8.4/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.4/10 | 前25% | #语音翻译 | #数据增强 | #自监督学习 #多模态模型 | arxiv 👥 作者与机构 作者:Qixu Chen,Satoshi Nakamura 机构:School of Data Science 和 School of Artificial Intelligence,The Chinese University of Hong Kong, Shenzhen, China ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 356 words

语音/音乐/音频论文速递 2026-06-12

语音/音乐/音频论文速递 2026-06-12 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #语音识别 4篇 ████ #音频分类 2篇 ██ #语音翻译 2篇 ██ #语音增强 2篇 ██ #音频生成 1篇 █ #多模态模型 1篇 █ #说话人识别 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Mani 9.7分 前25% #语音合成 🥈 Ontology Memory-Augmented ASR Correction for Long Text- 9.6分 前25% #语音识别 🥉 Emo-LiPO: Listwise Preference Optimization for Fine-Gra 9.3分 前50% #语音合成 4. AudioX-Turbo: A Unified Framework for Efficient Anythin 9.0分 前10% #音频生成 5. M*: A Modular, Extensible, Serving System for Multimoda 8.9分 前25% #多模态模型 6. Decoding Insect Song: A Multitask Semisupervised Orthop 8.7分 前50% #音频分类 7. Missing-Token Prompted Reliability-Aware Fusion for Rob 8.6分 前25% #说话人识别 8. Leveraging Audio-LLMs to Filter Speech-to-Speech Traini 8.4分 前25% #语音翻译 9. Endpoint Anticipation for Low-Latency Spoken Dialogue 8.2分 前25% #多任务学习 10. A Dual-Mode Faust-to-CLAP Compilation System 8.1分 前50% - 11. PRISM: Prosody-Integrated Multi-Agent Reasoning Framewo 8.1分 前25% #语音合成 12. Positional Encoding in the Context of Memristor-Based A 8.0分 前50% #语音识别 13. From Tokens to Faces: Investigating Discrete Speech Rep 7.9分 前25% #语音合成 14. Low-Latency Real-Time Audio Game Commentary System via 7.9分 前25% #语音合成 15. MiniMax Sparse Attention 7.7分 前25% #高效推理 16. BASENet: Band-Adapted Speech Enhancement Network with C 7.5分 前50% #语音增强 17. Dolph2Vec: Self-Supervised Representations of Dolphin V 7.2分 前50% #音频分类 18. Balancing ASR and diarization in end-to-end LLMs for mu 7.1分 前50% #语音识别 19. NaturalFlow: Reducing Disruptive Pauses for Natural Spe 7.0分 前50% #语音翻译 20. Adaptive Turn-Taking for Real-time Multi-Party Voice Ag 6.7分 后50% #数据增强 21. Predicting Cognitive Load from Speech and Interaction D 6.7分 前50% #语音情感识别 22. PiDA: Phonetically-Informed Data Augmentation for Robus 6.5分 前50% - 23. Generating Training Targets for Real-World Speech Enhan 6.4分 前50% #语音增强 24. Towards Personalized Federated Learning for Dysarthric 6.2分 前50% #语音识别 25. The Moving Drone: Negotiating Agency Between the Voice 6.0分 前50% - 26. Generative Modeling of Bach-Style Symbolic Music: A Com 5.7分 前50% #音乐生成 27. Vocal Identity Under Siege by AI Voice Cloning Technolo 3.2分 前50% #语音合成 📋 论文列表 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-12 · 更新于 2026-06-12 · 16 min · 3281 words

Lung-SRAD: Spectral-Aware Regularized Audio DASS with Dual-Axis Patch-Mix Contrastive Learning for Respiratory Sound Classification

📄 Lung-SRAD: Spectral-Aware Regularized Audio DASS with Dual-Axis Patch-Mix Contrastive Learning for Respiratory Sound Classification #对比学习 #数据增强 #正则化微调 6.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.4/1.5 | 复现 0.3/0.5 | 工程 0.4/1.5 ✅ 6.8/10 | 前50% | #对比学习 | #对比学习 | #数据增强 #正则化微调 | arxiv 👥 作者与机构 作者: Hemansh Shridhar, Miika Toikkanen, June-Woo Kim† 机构: 1 RSC LAB, MODULABS, Republic of Korea; 2 Department of Electronic Engineering, Wonkwang University, Republic of Korea; 3 AI Convergence Research Institute, Wonkwang University, Republic of Korea ...

2026-06-11 · 更新于 2026-06-12 · 3 min · 485 words

Quality Adaptive Angular Margin Learning for Respiratory Sound Classification

📄 Quality Adaptive Angular Margin Learning for Respiratory Sound Classification #正则化微调 #音频质量评估 #数据增强 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.5/10 | 前50% | #音频质量评估 | #数据增强 | #正则化微调 | arxiv 👥 作者与机构 Yoon Tae Kim: RSC LAB, MODULABS, Republic of Korea; dkimx3966@gmail.com Heejoon Koo: Department of Electronic Engineering, Wonkwang University, Republic of Korea; kaen2891@wku.ac.kr Miika Toikkanen: 1 RSC LAB, MODULABS, Republic of Korea; 2 Department of Electronic Engineering, Wonkwang University, Republic of Korea June-Woo Kim (通讯作者): 1 RSC LAB, MODULABS, Republic of Korea; 3 AI Convergence Research Institute, Wonkwang University, Republic of Korea 💡 毒舌点评 这篇论文像是一个“精准的工程优化”而非“开创性的科学突破”。它确实解决了呼吸音分类中的两个真实痛点(质量差异与类别不平衡),并且代码开源,实验也做到了该做的程度。但正确的引用格式,例如添加链接或标记为纯文本引用。如果不需要链接,可保持原样,但建议明确。示例修复:[rocha2017alpha] 改为 "[rocha2017alpha]" 或 [rocha2017alpha](#)。核心创新——两个公式的参数(α, β, m_target)选择依据薄弱,更像是经验调参而非严谨推导。最大的卖点“最优OOD性能”也仅在一个额外数据集上验证,说服力有限。总的来说,这是一篇合格的、能发表的“增量改进”工作,但距离定义新范式的高影响力论文还有明显差距。它更像是在现有优秀框架(AST, CLAP)上做了一个“不错的插件”。 ...

2026-06-11 · 更新于 2026-06-12 · 4 min · 674 words

Optimizing 2D Input Representations and Sub-phase Fusion Strategies for Differential Diagnosis of Asthma and COPD Using CNN- and GRU-Based Networks

📄 Optimizing 2D Input Representations and Sub-phase Fusion Strategies for Differential Diagnosis of Asthma and COPD Using CNN- and GRU-Based Networks #数据增强 #多模态模型 6.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 6.8/10 | 前50% | #数据增强 | #数据增强 | #多模态模型 | arxiv 👥 作者与机构 İpek Şen (伊斯坦布尔比尔吉大学电气与电子工程系), Özgür Özdemir (伊斯坦布尔比尔吉大学计算机工程系), Elena Battini Sönmez (伊斯坦布尔比尔吉大学计算机工程系) ...

2026-06-10 · 更新于 2026-06-12 · 15 min · 3178 words

Overview of ESDD2: Environment-Aware Speech and Sound Deepfake Detection Challenge

📄 Overview of ESDD2: Environment-Aware Speech and Sound Deepfake Detection Challenge #数据增强 #自监督学习 6.3/10 | 创新 0.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.3/10 | 前50% | #数据增强 | #数据增强 | #自监督学习 | arxiv 👥 作者与机构 Xueping Zhang (Duke Kunshan University), Han Yin (Korea Advanced Institute of Science and Technology), Yang Xiao (The University of Melbourne), Lin Zhang (Johns Hopkins University), Ting Dang (The University of Melbourne), Rohan Kumar Das (Fortemedia Singapore), Ming Li (The Chinese University of Hong Kong, Shenzhen)。 ...

2026-06-10 · 更新于 2026-06-12 · 5 min · 925 words

RAT: Reference-Augmented Training for ASV Anti-Spoofing

📄 RAT: Reference-Augmented Training for ASV Anti-Spoofing #数据增强 8.8/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.8/10 | 前25% | #数据增强 | #数据增强 | arxiv 👥 作者与机构 Vojtěch Staněk, Anton Firc, Jakub Řeřicha, Kamil Malinka Security@FIT, 布尔诺理工大学,捷克共和国 {istanek, ifirc, iresj, malinka}@fit.vut.cz 💡 毒舌点评 优点:观察到一个非常有趣的现象——训练时用参考,推理时不用也能提升性能,并设计了有效的RAT策略来利用它。实验在强力基准ASVspoof 5上做得很扎实,单模型性能优越,甚至超过了大型融合系统,结果有说服力。分析部分(第5节)做得不错,尝试从功能依赖和内部机制解释这个现象。 缺点:1. 参考信息块(RIB)的设计(如MLP层数、交叉注意力头数为4)是基于“初步实验”,缺乏更充分的设计空间探索或消融来证明其必要性或优越性。2. 论文声称“推理时不需要参考”,但Table 1显示使用配对参考(2.63% EER)比使用零向量(2.57% EER)性能略差,且Table 2中各种退化条件下性能波动很小,这使得“参考主要服务于训练动态”的核心论点在数值上略显矛盾(虽然作者试图解释)。3. 数据增强策略(30%概率应用多种增强)被提及对RAT至关重要,但并未提供对该策略本身的消融研究(例如,去掉某些增强会如何?)。4. 缺乏与其他数据集的交叉验证,结论的泛化性未得到验证。5. 引言中提到的灵感来源(人脸变形检测、ASV反欺骗)与本文方法的实际关联较弱。 ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 356 words

Towards Deep Contextual Reasoning from Broad Descriptions for ASR with Speech-LLM via Metadata-Driven Reasoning Chains

📄 Towards Deep Contextual Reasoning from Broad Descriptions for ASR with Speech-LLM via Metadata-Driven Reasoning Chains #语音识别 #参数高效微调 #多任务学习 #数据增强 6.2/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 6.2/10 | 前50% | #语音识别 | #参数高效微调 | #多任务学习 #数据增强 | arxiv 👥 作者与机构 Jakob Poncelet, Hugo Van hamme,来自比利时鲁汶大学电气工程系ESAT-PSI。 💡 毒舌点评 这篇论文的核心想法——让语音大模型通过“推理”来利用宽泛的元数据进行纠错——听起来很美好,但更像是把传统的“关键词偏置”包装成了“深度推理”。其“推理”链的生成完全依赖于一个离线的文本LLM,训练时模型只是在模仿这个固定链条的输出,这与模型自身进行多步逻辑推断的“深度”相去甚远。实验上,评估集(M³AV)与训练数据来源高度重合(同为YouTube学术视频),这让人怀疑其改进是否仅仅是过拟合到了特定领域和说话风格。更关键的是,论文声称解决“音频与上下文冲突”,但并未提供任何实验或分析来展示模型在这种情况下会如何决策,这使得其核心论证之一成了空中楼阁。总的来说,工作扎实但缺乏真正的突破性,将“链式思维监督”等同于“学会推理”是一个需要更严格论证的强假设。 📌 核心摘要 本文针对自动语音识别(ASR)在罕见词和领域特定术语上表现不佳的问题,提出了一种利用广泛上下文描述(如视频标题、描述)进行“深度上下文推理”的方法。核心思路是构建一个两阶段流程:首先,通过流水线将音频、其错误转录文本、上下文元数据以及文本LLM生成的“推理链”配对,构建一个“推理增强”的语音数据集(约400小时)。其次,训练语音LLM(如Qwen2-Audio-7B)以链式思维(CoT)格式输出:先生成初始转录,然后基于上下文进行推理,最后输出修正后的转录。实验在M³AV、SlideSpeech和SlideAVSR等测试集上进行,表明该方法在稀有词和命名实体识别上相比多种基线(如无微调、仅ASR微调、带上下文直接微调)均有提升。然而,论文的“推理”主要依赖预生成的监督信号,模型是否真正进行了多步推理存疑。评估数据集与训练数据同源,泛化能力有待验证。论文开源了构建的数据集,但未提供代码或模型权重。 ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 252 words

Towards Robust Arabic Speech Emotion Recognition with Deep Learning

📄 Towards Robust Arabic Speech Emotion Recognition with Deep Learning #自监督学习 #数据增强 #低资源 6.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.4/10 | 前50% | #语音情感识别 | #自监督学习 | #数据增强 #低资源 | arxiv 👥 作者与机构 Youcef S. Gheffari, Samiya Silarbi ADASCA Laboratory – Advanced Data Science and Cognitive Applications, Université des Sciences et de la Technologie d’Oran Mohamed Boudiaf (USTO-MB), Oran, Algeria ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 361 words