多模态模型

Liberating LLM Capabilities in Full-Duplex Speech Models

📄 Liberating LLM Capabilities in Full-Duplex Speech Models #多模态模型 #数据增强 8.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.7/10 | 前25% | #多模态模型 | #数据增强 | arxiv 👥 作者与机构通讯作者：Luoyuan Zhang (zly.idleness@gmail.com)。论文未明确列出作者所属机构，仅提供了个人邮箱和项目主页。 💡 毒舌点评这论文的切入点不错——让全双工语音模型也能“写”出好东西，而不是只能“说”。但方法部分有点“取巧”，核心创新在于一个Token Schema，这更像是一个巧妙的工程实现，而非深刻的架构或算法突破。数据合成流水线虽实用，但高度依赖强大的教师模型（Qwen3-235B），其“蒸馏”出来的质量上限可能受制于教师本身，而论文并未分析其误差传播。实验结果看着漂亮，但在关键的URO-Bench上，LWS的优势主要体现在特定的“中文Pro”子集，且与Step-Audio 2等顶级基线的差距并不稳定（英文Pro甚至落后）。最大的问题在于，论文声称解决了文本能力受限的问题，但实验主要评估了理解、回复质量和交互，对于真正展现“代码生成、结构化分析”等被压制能力的任务（例如，在对话中实时生成并展示可执行的Python代码片段），缺乏直接、有力的验证。全双工交互性能优异，但这是在1秒Unit的固定延迟下取得的，更细粒度的交互性能未探讨。 📌 核心摘要论文标题： Liberating LLM Capabilities in Full-Duplex Speech Models 核心问题：如何在保持基于语音的大语言模型（Speech LLM）全双工实时交互能力的同时，不丧失其原生的文本生成能力（如代码、结构化分析、多步推理），并允许用户实时看到这些结构化的中间或最终输出。核心方法：提出Listen-Write-Speak (LWS) 范式。这是一种“文本优先”的三通道（听、写、说）交互模式。在标准自回归Transformer中，通过定义特殊的Token Schema来划分时间单元（Unit，1秒）和通道边界，使得模型能在共享的因果注意力上下文中同时处理用户音频、生成可见的自由形式文本（作为主要输出）和生成语音响应。该架构无需修改模型结构。关键技术细节： ...

Multi-View Speech Representation Learning for Parkinson's Disease Detection Using Context-guided Cross-modal Attention

📄 Multi-View Speech Representation Learning for Parkinson's Disease Detection Using Context-guided Cross-modal Attention #自监督学习 #多模态模型 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.9/10 | 前50% | #自监督学习 | #自监督学习 | #多模态模型 | arxiv 👥 作者与机构 George Theodosiou†, Loukas Ilias†, Dimitris Askounis (†共同第一作者) 决策支持系统实验室，电气与计算机工程学院，雅典国立技术大学，雅典，希腊 💡 毒舌点评这篇文章试图用“多视图”和“注意力”这些热门词汇包装一个相当直白的任务：在单个数据集上分类帕金森语音。作者将三种特征（频谱图、MFCC、HuBERT）拼接后用注意力加权，声称这是“新颖”的融合。其核心创新——上下文引导的跨模态注意力——本质上是一种特征级的交叉注意力，其“上下文”来自另外两个分支的全局向量，设计上并不复杂。实验仅限于PC-GITA这一个公开数据集，虽然报告了较高的分数，但在未进行任何外部验证的情况下，其宣称的“临床可靠性”显得有些空中楼阁。消融实验是亮点，但基线选择相对陈旧（如[19], [21]），且与最新的基础模型方法对比时，提升幅度有限（约6%）。最大的硬伤是完全未开源代码和模型，这使得所有复现承诺成为空谈，也严重削弱了其在社区中的实际价值。总体而言，这是一篇工程整合度较高、但理论创新有限、且未能提供足够验证的临床应用论文。 📌 核心摘要本文针对帕金森病（PD）的语音检测任务，提出了一种多分支深度学习框架。该框架摒弃了依赖单一语音表征的惯例，同时从同一段语音中提取三种互补的表征：1) 由ResNet-18编码器处理的Log-Mel频谱图，2) 由双向LSTM网络建模的MFCC序列，3) 由预训练HuBERT基础模型提取的原始波形嵌入。为有效融合这些异构表征，论文引入了上下文引导的跨模态注意力机制，该机制利用来自频谱图和MFCC分支的全局声学上下文，动态加权时序HuBERT嵌入中的相关部分。在西班牙语PC-GITA数据集上的严格说话人独立五折交叉验证实验表明，该框架取得了优异性能（准确率91.51%， F1分数91.24%， AUROC 95.97%），并通过一系列消融研究验证了所提注意力机制和多表征集成的有效性。 ...

Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion

📄 Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion #语音合成 #语音增强 #图神经网络 #多模态模型 #数据增强 6.5/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.5/10 | 后50% | #语音合成 | #图神经网络 | #语音增强 #多模态模型 | arxiv 👥 作者与机构 Rashini Liyanarachchi, Rachael Mackay, Alison Short, Aditya Joshi, Erik Meijering 1 University of New South Wales (UNSW), Sydney, Australia 2 Western Sydney University, Sydney, Australia 3 Resourced Music Therapy, Sydney, Australia ...

SMC-ITA: Sequential Monte Carlo Inference-Time Alignment for Video-to-Audio Generation

📄 SMC-ITA: Sequential Monte Carlo Inference-Time Alignment for Video-to-Audio Generation #音频生成 #多模态模型 #流匹配 7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7/10 | 前50% | #音频生成 | #多模态模型 | #流匹配 | arxiv 👥 作者与机构作者：Haoyu Zhang, Yuta Oshima, Xingjian Du, Chunfeng Wang, Irene Li, Yusuke Iwasawa, Yutaka Matsuo 单位：The University of Tokyo, University of Rochester, Independent ...

TinyGiantALM: A Compact Audio-Language Model for Intent-Aware Reasoning under Resource Constraints

📄 TinyGiantALM: A Compact Audio-Language Model for Intent-Aware Reasoning under Resource Constraints #多模态模型 #指令微调 6.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.4/10 | 前50% | #多模态模型 | #指令微调 | arxiv 👥 作者与机构 Vinh-Thuan Le 1 University of Science, VNU-HCM, Ho Chi Minh City, Vietnam; 2 Vietnam National University, Ho Chi Minh City, Vietnam 💡 毒舌点评优点： ...

语音/音乐/音频论文速递 2026-06-09

语音/音乐/音频论文速递 2026-06-09 共分析 48 篇论文 ⚡ 今日概览 📥 抓取 48 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 10篇 ██████████ #语音识别 9篇 █████████ #自监督学习 3篇 ███ #多模态模型 3篇 ███ #语音增强 2篇 ██ #音频生成 2篇 ██ #说话人验证 2篇 ██ #大语言模型 1篇 █ 📊 论文评分排行榜（48 篇，按分数降序）排名论文总分分档主任务 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Asses 10.0分前25% #大语言模型 🥈 G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior 9.3分前50% #语音增强 🥉 HoliDubber: Holistic Video Dubbing for Complex Acoustic 9.0分前10% #语音合成 4. Probing Token Spaces under Generator Shift in AI-Genera 9.0分前10% #音频编码 5. A Comparative Study of Pre-trained Speech Encoders and 8.9分前50% #自监督学习 6. AVI-Bench: Toward Human-like Audio-Visual Intelligence 8.8分前25% #语音识别 7. Liberating LLM Capabilities in Full-Duplex Speech Model 8.7分前25% #多模态模型 8. MeCo: One-Step MeanFlow-based Corrector for Multi-Chann 8.4分前25% #语音分离 9. Your U-Net Dereverberation Model is Secretly an RIR Enc 8.3分前50% #对比学习 10. Predictive Fixed-Filter Active Noise Control (PFANC) Us 8.3分前25% - 11. TLDR: Compressing Audio Tokens for Efficient Autoregres 8.2分前25% #语音合成 12. Subtitle-Aligned Fine-Tuning of Whisper for Swiss Germa 8.2分前25% #语音识别 13. Discovering Functionally Selective Brain Regions with a 8.2分前25% #多模态模型 14. Parameter-Efficient Continual Learning for Automatic Sp 8.1分前25% #语音识别 15. OmniMem: Perturbation-aware Memory Compression for Stre 8.0分前25% #高效推理 16. OpenBibleTTS: Large-Scale Speech Resources and TTS Mode 8.0分前25% #语音合成 17. FlashTTS: Fast Streaming TTS with MTP Acceleration and 7.9分前25% #语音合成 18. Multi-View Speech Representation Learning for Parkinson 7.9分前50% #自监督学习 19. Is Text All You Need? Text as a Universal Information B 7.6分前50% #语音识别 20. End-to-End Training for Discrete Token LLM based TTS Sy 7.6分前50% #语音合成 21. Conan-embedding-v3: Fusing Modality-Specific Models for 7.6分前25% #音频检索 22. Cross-Modal Masking for Robust Silent Speech Synthesis 7.5分前50% #语音合成 23. Rethinking Depth: A study of the Recursive-Transformer 7.5分前25% #语音识别 24. What Makes Synthetic Speech Sound Sarcastic? A Prosody- 7.5分前25% #语音合成 25. FXplorer: A Map-Based Interface for Exploratory Audio E 7.5分前25% #音频生成 26. Assessing the Energy and Carbon Emissions of Neural Spe 7.4分前50% #说话人验证 27. Exploring the Scale and Diversity of Speech Anti-spoofi 7.4分前50% #数据增强 28. From A to B to A: Palindromic Zero-Shot Voice Conversio 7.3分前50% - 29. A study on the impact of region specific data on the pe 7.2分前50% #语音识别 30. Speaker-Invariant Representation Learning for Spoofing 7.1分前25% #对抗训练 31. BareWave: Waveform-Native Flow-Matching Text-to-Speech 7.0分前50% #语音合成 32. SMC-ITA: Sequential Monte Carlo Inference-Time Alignmen 7.0分前50% #音频生成 33. Quality-Diversity Search in Sound Generation: Investiga 7.0分前50% - 34. Can LLMs understand LilyPond? A benchmark for symbolic 7.0分前50% #音乐生成 35. NüshuVoice: Reviving the Voice of Endangered Nüshu with 7.0分前50% #语音合成 36. Factors affecting ASR performance: A study using state 6.9分前50% #语音识别 37. MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice 6.9分前50% #语音转换 38. Few-shot Class-variable Incremental Audio Classificatio 6.9分前50% #音频分类 39. A Hierarchical Feature Engineering Framework for Automa 6.8分前50% - 40. Fast and Robust On-Device Speaker Diarization: Relative 6.6分前50% #说话人分离 41. On Low-Bit Quantization Errors in Speaker Verification: 6.6分前50% #说话人验证 42. Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Ne 6.5分后50% #语音合成 43. TinyGiantALM: A Compact Audio-Language Model for Intent 6.4分前50% #多模态模型 44. Overcoming Decoder Inconsistencies in Whisper for Dravi 6.2分后50% #语音识别 45. Bridging Traditional Explainability Methods and Multimo 5.4分后50% #语音识别 46. Sound Field Interpolation Using Physics-Informed Extrem 5.3分后50% #语音增强 47. A Comparison of SSL-Based Feature Extractors and Back-E 5.0分后50% #自监督学习 48. AeroSpectra Sentinel: An Auditable LLM Prompt-Chaining 4.5分后50% #音频事件检测 📋 论文列表 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Assessment and Natural-Language Rationales 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition

📄 Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition #语音情感识别 #提示学习 #多模态模型 #参数高效微调 #迁移学习 7.8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前50% | #语音情感识别 | #提示学习 | #多模态模型 #参数高效微调 | arxiv 👥 作者与机构 Iosif Tsangko (1, 2), Andreas Triantafyllopoulos (1, 2), Björn W. Schuller (1, 2, 3, 4) （注：机构详情未在论文正文中明确列出，脚注显示了项目资助信息） ...

Assessing True Generalisability of Audio-Visual Speech Recognisers

📄 Assessing True Generalisability of Audio-Visual Speech Recognisers #语音识别 #自监督学习 #多模态模型 #基准测试 9.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.5/10 | 前10% | #语音识别 | #自监督学习 | #多模态模型 #基准测试 | arxiv 👥 作者与机构作者：Zhaofeng Lin, Stavros Petridis, Maja Pantic, Naomi Harte 机构：1 Trinity College Dublin, Ireland；2 Imperial College London, UK 💡 毒舌点评这篇论文根本不是在发明一个“更好”的AVSR模型，而是在无情地揭露当前AVSR领域集体自嗨的泡沫。它本质上是一篇“基准测评”论文，却起到了比很多模型创新论文更重要的作用——戳穿了LRS3基准带来的虚假繁荣。它的核心贡献是“破”而非“立”，但这种“破”恰恰是领域健康发展所急需的。作者通过近乎偏执的严谨方法（构建严格分布匹配的MV2LRS3集），得出了一个令人尴尬的结论：我们引以为傲的AVSR模型，在离开精心维护的LRS3温室后，表现得一塌糊涂。多模态融合不仅没帮忙，反而成了拖累。最讽刺的是，论文名为“评估真实泛化能力”，但其结论反而揭示了“泛化”这个概念本身在当前AVSR研究中可能被过度推广和误用。这篇论文应该被每一个致力于提升AVSR性能的研究者放在案头，用来审视自己工作的实际意义，而不是仅仅在LRS3刷榜。 ...

Beyond Semantic Dominance: Cognitive Affective Reasoning and Empathetic Response Alignment in Audio Language Models

📄 Beyond Semantic Dominance: Cognitive Affective Reasoning and Empathetic Response Alignment in Audio Language Models #语音合成 #强化学习 #参数高效微调 #多模态模型 9.2/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.2/10 | 前10% | #语音合成 | #强化学习 | #参数高效微调 #多模态模型 | arxiv 👥 作者与机构作者：Zhixian Zhao, Shuiyuan Wang, Wenjie Tian, Jingbin Hu, Ziyu Zhang, Lei Xie 机构：Audio, Speech and Language Processing Group (ASLP@NPU), Northwestern Polytechnical University, Xi’an, China ...

FIGMA: Towards FIne-Grained Music retrievAl

📄 FIGMA: Towards FIne-Grained Music retrievAl #对比学习 #多模态模型 7.2/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #对比学习 | #对比学习 | #多模态模型 | arxiv 👥 作者与机构作者：Nishit Anand, Ashish Seth, Sreyan Ghosh, Dinesh Manocha, Ramani Duraiswami 机构：University of Maryland, College Park, USA 链接：https://arxiv.org/abs/2606.06615 💡 毒舌点评这篇论文提出的问题“细粒度音乐检索”是实际存在的，动机清晰。然而，其核心方法“多视图对比学习”本质上是将两个已有的、简单的对比损失（全局损失+一个基于帧-词元最大相似度的帧级损失）线性相加，技术新颖性有限。最大的硬伤在于，其贡献的庞大FGMCaps数据集（380K样本）完全由自动工具和LLM生成，缺乏人工标注验证，这使得其“细粒度”的可靠性存疑，也让论文的实验结论打了折扣——模型可能只是学会了匹配LLM生成的“模板化描述”，而非真正理解音乐理论属性。此外，论文开源情况极差，代码、模型权重、数据集均未提供，这在顶会论文中是难以接受的，严重阻碍了可复现性和后续研究。实验上，在自建测试集（FGMCaps）上的巨大提升说服力有限，而在外部分 benchmark（MusicBench， FMACaps-Eval）上的提升虽然显著，但基线模型（特别是最强的音乐专用模型 CLAMP 3）在 A2T 任务上表现异常差，这可能暗示了基线评估或设置存在问题，削弱了对比的公平性。 ...