ICASSP 2026 - 语音理解

2 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇Exploring Fine-Tuning Of Large Audio Language Models For Spo8.0分前25%
🥈Scaling Spoken Language Models with Syllabic Speech Tokeniza7.0分前25%

📋 论文详情

🥇 Exploring Fine-Tuning Of Large Audio Language Models For Spoken Language Understanding Under Limited Speech Data

🔥 8.0/10 | 前25% | #语音理解 | #迁移学习 | #低资源 #多语言

👥 作者与机构

  • 第一作者:Youngwon Choi (MAUM AI Inc., Republic of Korea)
  • 通讯作者:Huu-Kim Nguyen (∗ 作者列表中标注星号,现单位为 Atmanity Inc., USA)
  • 作者列表:
    • Youngwon Choi (MAUM AI Inc., Republic of Korea)
    • Jaeyoon Jung (MAUM AI Inc., Republic of Korea & Soongsil University, Republic of Korea)
    • Hyeonyu Kim (MAUM AI Inc., Republic of Korea)
    • Huu-Kim Nguyen (MAUM AI Inc., Republic of Korea → 现 Atmanity Inc., USA)
    • Hwayeon Kim (MAUM AI Inc., Republic of Korea)

💡 毒舌点评

这篇论文像一份非常扎实的“工程实验报告”,系统地厘清了“当语音标注数据很少时,怎么微调音频大模型最划算”这个现实问题,结论(转录文本先行、加少量语音、课程学习)对实践者极具指导性。短板在于,它本质上是方法组合与验证,而非底层算法的原创突破,且所有实验仅基于Qwen2-Audio-7B一个模型,结论的普适性存疑。

📌 核心摘要

  1. 问题:研究在语音-标签配对数据稀缺的现实约束下,如何高效微调大型音频语言模型(LALMs)以完成口语理解(SLU)任务。
  2. 方法核心:系统性地比较了三种微调策略:文本微调(仅用转录文本训练LLM部分)、直接混合(按比例混合语音和文本数据)、课程学习(先文本微调,最后阶段引入语音)。研究重点考察了不同语音数据比例(2%-100%)下的效果。
  3. 新意:不同于多数工作关注预训练或零样本评估,本文首次为LALM在有限数据下的微调建立了系统性基准,明确了不同策略的适用场景(如课程学习在低资源时更优),并验证了利用丰富文本资源结合少量语音的有效路径。
  4. 主要实验结果:
    • 在单语设置(SLURP/EN, ITALIC/IT, Speech-MASSIVE/FR)上,文本微调基线已能达到峰值SLU-F1的87%-94%。
    • 仅加入2%-5%的语音数据,性能即可获得大幅提升,在SLURP上达到峰值SLU-F1的97%。
    • 在低语音数据(2%-10%)下,课程学习在大多数指标上显著优于直接混合(95%置信区间不重叠)。当数据量达25%以上,两者差距缩小。
    • 跨语言实验表明,利用源语言(法语)的语音数据进行微调,能显著提升零样本和少样本跨语言SLU性能。结合目标语言文本和极少量目标语音,效果进一步提升。
数据集语音数据占比方法Intent Acc.Entity F1SLU-F1
SLURP (EN)0%Text0.83600.64060.7207
2%Curr.0.85740.65770.7335
5%Curr.0.86420.67650.7475
100%Direct0.88130.69590.7675
ITALIC (IT)0%Text0.78340.56610.6755
2%Curr.0.82720.60740.7088
5%Curr.0.84120.63340.7271
100%Direct0.87670.70220.7737
Speech-MASSIVE (FR)0%Text0.80170.51300.6535
2%Curr.0.82870.55900.6919
5%Curr.0.84230.58020.7048
100%Direct0.87390.64450.7486
5. 实际意义:为资源有限的场景(如垂直领域、低资源语言)部署语音智能应用提供了成本效益高的微调指南:优先收集/使用转录文本,并尽可能添加少量(2-5%)目标领域的语音数据进行课程学习。
6. 主要局限性:研究仅基于单一模型(Qwen2-Audio-7B-Instruct),结论在其他LALMs上的泛化性有待验证。实验主要集中于SLU任务,对其他语音理解任务的适用性未探索。

🥈 Scaling Spoken Language Models with Syllabic Speech Tokenization

7.0/10 | 前25% | #语音理解 | #分词技术 | #语音大模型 #自监督学习

👥 作者与机构

  • 第一作者:Nicholas Lee (UC Berkeley)
  • 通讯作者:未明确说明(论文中未指定)
  • 作者列表:Nicholas Lee (UC Berkeley)、Cheol Jun Cho (UC Berkeley)、Alan W. Black (CMU)、Gopala K. Anumanchipalli (UC Berkeley)

💡 毒舌点评

亮点:这篇论文做了一件扎实且重要的事——系统性地证明了“把语音序列砍短”(音节分词)是训练更高效语音大模型的一条靠谱捷径,用5倍的计算节省换取了相当甚至更好的性能。短板:研究止步于“对比观察”,缺乏对“为何音节分词有效”的深层机制剖析(例如,这种离散化如何保留了关键的韵律或语义信息?),且未提供代码,使得“可复现”的承诺打了折扣。

📌 核心摘要

  1. 问题:当前主流的语音语言模型(SLM)使用高帧率(25-75 Hz)的语音令牌,导致序列过长,使得基于Transformer的模型在自注意力机制下面临二次复杂度的计算瓶颈,严重限制了模型在长上下文数据上的扩展和推理速度。
  2. 方法核心:采用基于自监督学习模型“Sylber”生成的音节级语音分词(约4.27 Hz),替代传统的帧级分词(如Hubert,约50 Hz),将语音序列长度压缩约5倍。
  3. 创新点:首次系统性研究音节分词在语音语言建模中的扩展性。在固定计算预算下,对比了不同数据规模和词汇表大小的Sylber分词与Hubert分词SLM的性能。
  4. 主要实验结果:在多个口语理解基准测试(sBLIMP, sSC, tSC)和生成困惑度(GenPPL)上,Sylber模型用约1/5的训练数据(令牌量)即可匹配或超越使用全量数据的Hubert模型。具体而言,在完整数据集(LibriSpeech+LibriLight+STS)上,Sylber-20k模型在sBLIMP上得分60.57(Qwen-0.5B),高于Hubert的56.95;训练时间从8.5小时降至3小时(8xA100-80GB),FLOPs减少超过5倍。关键结果对比如下表:
模型(Qwen2.5-0.5B)训练数据集令牌量sBLIMP ↑sSC ↑tSC ↑GenPPL ↓
Hubert (km500)全量6.04B56.9557.3079.6485.90
Sylber (km20k)全量1.24B60.5758.9080.17183.08
Sylber (km5k)全量1.24B60.5457.6779.58168.81
  1. 实际意义:为构建高效、可扩展的长上下文语音语言模型指明了一条有前景的道路,通过更粗粒度、更可解释的语音表示(音节),大幅降低训练和推理成本。
  2. 主要局限性:研究局限于特定的Sylber分词方法和k-means聚类;未深入探讨不同分词策略(如基于语言学的分词)的影响;生成任务(GenPPL)的评分上,Sylber模型目前仍劣于Hubert模型,表明音节分词在语音生成建模上可能仍有挑战。