语音理解 | 语音/音频论文速递

Towards Fine-Grained Multi-Dimensional Speech Understanding: Data Pipeline, Benchmark, and Model

📄 Towards Fine-Grained Multi-Dimensional Speech Understanding: Data Pipeline, Benchmark, and Model #语音理解 #渐进式课程学习 #基准测试 #数据集 #多语言前25% | #语音理解 | #渐进式课程学习 | #基准测试 #数据集 | arxiv 学术质量 6.0/8 | 影响力 1.6/2 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Guojian Li（论文未明确标注，按列表顺序推断）通讯作者：未说明（论文仅标注“*Corresponding authors”，但未指明具体作者）作者列表：Guojian Li, Zhixian Zhao, Zhennan Lin, Jingbin Hu, Qirui Zhan, Yuang Cao, Pengyuan Xie, Chuan Xie, Jie Liu, Qiang Zhang, Zhonghua Fu, Lei Xie。所有作者所属机构：未在论文中提供。 💡 毒舌点评这篇工作的核心价值在于其“三位一体”的系统性贡献——试图为“细粒度多维语音理解”这一新兴方向同时定义问题、提供评测工具和提出模型方案��其构建的FMSU-Bench基准，特别是引入“语义陷阱”干扰项，对评估模型是否真正“听声”而非“读文”具有重要启发意义。然而，整套方案的基石——数据生产流水线，严重依赖黑箱商业模型（Gemini 2.5 Pro）进行核心标注，这使得后续所有工作的数据源都建立在一个不可控、可能引入系统性偏差且难以复现的基础上。本质上，这更像是一次利用强大工具进行的数据工程和系统集成，而非提出新的感知原理。此外，模型在部分关键微细声学任务（如音高）上性能的显著下降，暴露了当前方法在触及问题本质上的不足。 ...

Exploring Fine-Tuning Of Large Audio Language Models For Spoken Language Understanding Under Limited Speech Data

📄 Exploring Fine-Tuning Of Large Audio Language Models For Spoken Language Understanding Under Limited Speech Data #语音理解 #迁移学习 #低资源 #多语言 🔥 8.0/10 | 前25% | #语音理解 | #迁移学习 | #低资源 #多语言学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Youngwon Choi (MAUM AI Inc., Republic of Korea) 通讯作者：Huu-Kim Nguyen (∗ 作者列表中标注星号，现单位为 Atmanity Inc., USA) 作者列表： Youngwon Choi (MAUM AI Inc., Republic of Korea) Jaeyoon Jung (MAUM AI Inc., Republic of Korea & Soongsil University, Republic of Korea) Hyeonyu Kim (MAUM AI Inc., Republic of Korea) Huu-Kim Nguyen (MAUM AI Inc., Republic of Korea → 现 Atmanity Inc., USA) Hwayeon Kim (MAUM AI Inc., Republic of Korea) 💡 毒舌点评这篇论文像一份非常扎实的“工程实验报告”，系统地厘清了“当语音标注数据很少时，怎么微调音频大模型最划算”这个现实问题，结论（转录文本先行、加少量语音、课程学习）对实践者极具指导性。短板在于，它本质上是方法组合与验证，而非底层算法的原创突破，且所有实验仅基于Qwen2-Audio-7B一个模型，结论的普适性存疑。 ...

ICASSP 2026 - 语音理解论文列表

ICASSP 2026 - 语音理解共 2 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Exploring Fine-Tuning Of Large Audio Language Models For Spo 8.0分前25% 🥈 Scaling Spoken Language Models with Syllabic Speech Tokeniza 7.0分前25% 📋 论文详情 🥇 Exploring Fine-Tuning Of Large Audio Language Models For Spoken Language Understanding Under Limited Speech Data 🔥 8.0/10 | 前25% | #语音理解 | #迁移学习 | #低资源 #多语言 👥 作者与机构第一作者：Youngwon Choi (MAUM AI Inc., Republic of Korea) 通讯作者：Huu-Kim Nguyen (∗ 作者列表中标注星号，现单位为 Atmanity Inc., USA) 作者列表： Youngwon Choi (MAUM AI Inc., Republic of Korea) Jaeyoon Jung (MAUM AI Inc., Republic of Korea & Soongsil University, Republic of Korea) Hyeonyu Kim (MAUM AI Inc., Republic of Korea) Huu-Kim Nguyen (MAUM AI Inc., Republic of Korea → 现 Atmanity Inc., USA) Hwayeon Kim (MAUM AI Inc., Republic of Korea) 💡 毒舌点评 ...

Scaling Spoken Language Models with Syllabic Speech Tokenization

📄 Scaling Spoken Language Models with Syllabic Speech Tokenization #语音大模型 #语音理解 #分词技术 #自监督学习 #模型比较 ✅ 7.0/10 | 前25% | #语音理解 | #分词技术 | #语音大模型 #自监督学习学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Nicholas Lee (UC Berkeley) 通讯作者：未明确说明（论文中未指定）作者列表：Nicholas Lee (UC Berkeley)、Cheol Jun Cho (UC Berkeley)、Alan W. Black (CMU)、Gopala K. Anumanchipalli (UC Berkeley) 💡 毒舌点评亮点：这篇论文做了一件扎实且重要的事——系统性地证明了“把语音序列砍短”（音节分词）是训练更高效语音大模型的一条靠谱捷径，用5倍的计算节省换取了相当甚至更好的性能。短板：研究止步于“对比观察”，缺乏对“为何音节分词有效”的深层机制剖析（例如，这种离散化如何保留了关键的韵律或语义信息？），且未提供代码，使得“可复现”的承诺打了折扣。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：未提及公开任何预训练模型或分词器权重。数据集：使用的是公开数据集（LibriSpeech, LibriLight, LibriTTS, EXPRESSO），论文未提供新的数据集。 Demo：未提及。复现材料：论文详细描述了基于Slamkit框架的实验设置、模型架构、数据处理和超参数，为复现提供了路线图。依赖的开源项目/模型：明确使用了Slamkit [1]、Sylber [8]、Hubert [5]、WavLM [6]、OPT [18]、Qwen2.5 [19]、SpeechBrain [17]、Whisper [23]、Llama-3.2 [24] 以及Conditional Flow-Matching [14]。 📌 核心摘要问题：当前主流的语音语言模型（SLM）使用高帧率（25-75 Hz）的语音令牌，导致序列过长，使得基于Transformer的模型在自注意力机制下面临二次复杂度的计算瓶颈，严重限制了模型在长上下文数据上的扩展和推理速度。方法核心：采用基于自监督学习模型“Sylber”生成的音节级语音分词（约4.27 Hz），替代传统的帧级分词（如Hubert，约50 Hz），将语音序列长度压缩约5倍。创新点：首次系统性研究音节分词在语音语言建模中的扩展性。在固定计算预算下，对比了不同数据规模和词汇表大小的Sylber分词与Hubert分词SLM的性能。主要实验结果：在多个口语理解基准测试（sBLIMP, sSC, tSC）和生成困惑度（GenPPL）上，Sylber模型用约1/5的训练数据（令牌量）即可匹配或超越使用全量数据的Hubert模型。具体而言，在完整数据集（LibriSpeech+LibriLight+STS）上，Sylber-20k模型在sBLIMP上得分60.57（Qwen-0.5B），高于Hubert的56.95；训练时间从8.5小时降至3小时（8xA100-80GB），FLOPs减少超过5倍。关键结果对比如下表：模型（Qwen2.5-0.5B）训练数据集令牌量 sBLIMP ↑ sSC ↑ tSC ↑ GenPPL ↓ Hubert (km500) 全量 6.04B 56.95 57.30 79.64 85.90 Sylber (km20k) 全量 1.24B 60.57 58.90 80.17 183.08 Sylber (km5k) 全量 1.24B 60.54 57.67 79.58 168.81 实际意义：为构建高效、可扩展的长上下文语音语言模型指明了一条有前景的道路，通过更粗粒度、更可解释的语音表示（音节），大幅降低训练和推理成本。主要局限性：研究局限于特定的Sylber分词方法和k-means聚类；未深入探讨不同分词策略（如基于语言学的分词）的影响；生成任务（GenPPL）的评分上，Sylber模型目前仍劣于Hubert模型，表明音节分词在语音生成建模上可能仍有挑战。 🏗️ 模型架构论文未提出全新的端到端模型架构，而是研究将音节级分词作为输入表示对现有SLM架构的影响。其核心系统流程如下： ...

Slot Filling as a Reasoning Task for Speechllms

📄 Slot Filling as a Reasoning Task for Speechllms #语音理解 #槽填充 #语音大模型 #思维链 #监督微调 ✅ 6.5/10 | 前25% | #槽填充 | #思维链 | #语音理解 #语音大模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Kadri Hacioglu（Uniphore）通讯作者：未说明作者列表：Kadri Hacioglu (Uniphore), Manjunath K. E. (Uniphore), Andreas Stolcke (Uniphore) 💡 毒舌点评论文亮点在于清晰地指出了推理优化型LLM（如DeepSeek R1蒸馏版）在直接应用于语音槽填充时“水土不服”的现象，并提出了通过混合训练来兼顾直接与推理模式的务实解决方案。然而，其主要短板在于实验局限于有限的几个开源模型和单一的脚本对话数据集，未能充分验证该方法在更多样化语音场景（如自然对话、噪声环境）下的普适性，且完全缺失代码和数据开源，削弱了结论的说服力和影响力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及是否公开微调后的模型权重。数据集：使用的DefinedAI客服对话数据集未提及是否公开及获取方式。构建的推理数据集也未开源。 Demo：未提及。复现材料：给出了部分训练细节（如LoRA设置、批量大小、学习率、硬件），但未提供完整的训练配置、数据预处理脚本、评估脚本或附录中的详细超参数表。论文中引用的开源项目：主要依赖了开源的预训练模型，如Whisper, Llama系列, Qwen系列, Phi系列等。 📌 核心摘要问题：传统语音槽填充任务通常被建模为单步预测，缺乏显式的推理过程，而新兴的推理型大语言模型（LLM）在此类任务上的适用性尚不明确。方法核心：提出将槽填充重构为多步推理任务，模仿人类标注流程（听写-识别-分配）。利用思维链（CoT）框架构建包含转录、提及识别和理由说明的推理数据集，并通过监督微调（SFT）训练语音大模型（SpeechLLM）。模型架构包含语音编码器（Whisper-base）、适配器和文本LLM，支持在“常规”（直接输出）和“推理”（先输出思考过程再输出答案）模式间切换。新意：与此前端到端直接生成槽填充结果的方法不同，本文首次系统性地探索了将显式CoT推理引入语音大模型用于槽填充的可行性，并对比了不同类型（基础、指令、推理、混合）和规模的基础LLM，还创新性地提出了同时保留两种操作模式的混合训练策略。主要实验结果：在约31K通客服电话数据集上，中等规模（8B参数）的基础或指令微调LLM 作为语音大模型骨干时，引入推理监督能提升性能（如Llama 3.1 8B Base的F1从0.6923提升至0.7736）。然而，专门为数学/代码等推理任务优化的模型（如DeepSeek R1蒸馏版）作为骨干时，尽管在推理模式下提升幅度最大（+22.72%），但绝对性能仍低于同规模其他模型。小规模（≤4B）的混合或推理LLM 在引入显式推理后，性能反而下降。最终，基于混合LLM（Qwen3 4B）并采用混合监督训练的语音大模型取得了最佳性能（F1达0.7988）。具体数据见表1和表2。实际意义：为提升语音理解任务的可解释性和性能提供了新思路，指出构建兼顾指令遵循与推理能力的“混合”基础模型对于下游语音任务可能更有效，对工业界构建实用型语音大模型有指导价值。主要局限性：实验数据来自单一来源（DefinedAI客服脚本），可能缺乏泛化性；对比的LLM型号和数量有限；未提供代码和数据集，复现困难；推理模式显著增加计算成本（4-5倍）和延迟。 🏗️ 模型架构论文提出的语音大模型（SpeechLLM）架构如图1 (pdf-image-page1-idx0) 所示，主要包含三个组件： ...

ST-HNTM: Joint Speech-Text Neural Topic Modeling on the Hypersphere

📄 ST-HNTM: Joint Speech-Text Neural Topic Modeling on the Hypersphere #主题建模 #多模态模型 #超球面表示 #语音理解 #无监督学习 ✅ 7.0/10 | 前25% | #主题建模 | #多模态模型 | #超球面表示 #语音理解学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度中 👥 作者与机构第一作者：Dayu Guo†（北京师范大学-香港浸会大学联合国际学院，计算机科学系）通讯作者：Wentao Fan*（北京师范大学-香港浸会大学联合国际学院，计算机科学系）作者列表：Dayu Guo†（北京师范大学-香港浸会大学联合国际学院，计算机科学系），Zhiwen Luo†（康考迪亚大学，信息系统工程学院），Nizar Bouguila（康考迪亚大学，信息系统工程学院），Wentao Fan*（北京师范大学-香港浸会大学联合国际学院，计算机科学系） 💡 毒舌点评该论文首次将语音与文本在超球面潜在空间中联合建模，架构设计逻辑清晰，实验结果在多项指标上显示显著提升。然而，其核心任务“主题建模”在当前AI研究中已属相对传统领域，且论文中对比的多数基线模型较为陈旧，对最新多模态或超球面主题建模方法的覆盖有限，这在一定程度上限制了其结论的前沿性和说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开数据集LibriSpeech和TEDLIUM-Release3，但未提供定制的数据集或预处理工具。 Demo：未提供。复现材料：论文提供了一定的训练细节（优化器、学习率、轮数、超参数初始值等），但缺乏完整的代码和配置文件。论文中引用的开源项目：依赖预训练词嵌入glove-wiki-gigaword-100和预训练语音模型wav2vec2-base-960h。总体：论文中未提及开源计划。 📌 核心摘要要解决什么问题：现有神经主题模型（NTMs）主要局限于文本输入，忽略了语音中丰富的语义和副语言信息。同时，基于文本的多模态主题建模也较少探索语音这一关键模态。方法核心是什么：提出ST-HNTM，一个首个在共享超球面潜在空间中联合建模语音和文本的神经主题模型。它使用词袋（BoW）和声学词袋（BoAW）分别表示文本和语音，并通过von Mises-Fisher (vMF) 先验推断统一的文档-主题分布，每个模态通过vMF混合成分解码。与已有方法相比新在哪里：首次将语音模态系统性地集成到基于超球面的神经主题建模框架中，克服了传统方法依赖易错ASR转录文本的局限性，利用原始声学模式提供互补线索。主要实验结果如何：在LibriSpeech和TEDLIUM-Release3两个基准数据集上，ST-HNTM在主题连贯性（Cv）、多样性（TD）和综合质量（Quality）指标上均优于或持平于多个先进的文本基线模型。例如，在LibriSpeech数据集上，当主题数为10时，ST-HNTM的Quality得分（0.538）显著高于次佳的NeuralLDA（0.452）。消融实验证明，超球面先验、vMF混合解码器以及语音模态的引入对性能均有贡献。实际意义是什么：展示了将语音直接融入主题建模的价值，为处理语音-文本对齐数据、丰富语义表示、以及在无法获取可靠文本转录（如低资源语言、自发语音）的场景下进行主题发现提供了新思路。主要局限性是什么：模型性能依赖于预训练的文本和语音嵌入模型（GloVe, wav2vec2）以及声学码本的质量；论文中未详细讨论对语音中说话人、情感等信息的显式建模；实验对比的基线模型部分较为陈旧，未与最新的多模态或超球面主题模型进行对比。 🏗️ 模型架构 ST-HNTM的架构如图1所示，整体是一个变分自编码器（VAE）框架，其核心在于将文本和语音统一到超球面潜在空间中进行主题推断。 ...