ICASSP 2026 - 音频字幕生成

1 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇Diverse and Few-Step Audio Captioning via Flow Matching6.5分前50%

📋 论文详情

🥇 Diverse and Few-Step Audio Captioning via Flow Matching

6.5/10 | 前50% | #音频字幕生成 | #流匹配 | #音频生成 #高效生成

👥 作者与机构

  • 第一作者:未说明(论文仅列出作者姓名,未明确标注第一作者)
  • 通讯作者:未说明
  • 作者列表:Naoaki Fujita(Panasonic Holdings Corporation, Osaka, Japan)、Hiroki Nakamura(Panasonic Holdings Corporation, Osaka, Japan)、Kosuke Itakura(Panasonic Holdings Corporation, Osaka, Japan)

💡 毒舌点评

亮点:首次将流匹配(Flow Matching)引入自动音频字幕生成,实验证明其在大幅减少采样步数(最高25倍)的同时,能保持甚至超越扩散基线的准确性和多样性,效率提升显著。 短板:研究局限于替换生成过程的“最后一公里”,模型架构(BART解码器、BEATs编码器)直接沿用前人工作;更关键的是,论文未开源代码与模型,且未提供训练硬件与时间,严重削弱了其实用价值和可复现性。

🔗 开源详情

  • 代码:论文中未提及代码链接。
  • 模型权重:未提及。
  • 数据集:使用的是公开数据集Clotho和AudioCaps,但论文未说明其具体获取或预处理方式。
  • Demo:未提及。
  • 复现材料:提供了算法伪代码(Algorithm 1, 2)和主要训练超参数(优化器、学习率、batch size等)。但缺失模型架构细节(如层数、维度)、硬件信息、完整配置文件。
  • 论文中引用的开源项目:使用了预训练的 BEATs [22] 音频编码器和 BART [12] 语言解码器。评估工具使用了 aac-metrics 库。
  • 总结:论文中未提及开源计划。

📌 核心摘要

  1. 要解决的问题:现有的基于扩散模型的多样化音频字幕生成方法,因需要数百步迭代去噪而导致推理计算成本高、速度慢,难以满足实时或大规模处理需求。减少步数则会显著损害生成质量。
  2. 方法核心:提出首个基于流匹配的音频字幕生成框架(FAC),直接预测从噪声到字幕表示的确定性、线性传输路径,从而用少量采样步数完成生成。
  3. 与已有方法相比新在哪里:完全用流匹配替代了扩散过程。与基于迭代去噪的扩散模型不同,流匹配学习的是近乎直线的概率路径,使得生成过程更高效、稳定。
  4. 主要实验结果:在Clotho和AudioCaps数据集上,FAC在30步甚至10步采样下的准确性和多样性指标,与扩散基线(250步)相当或更优。例如,在Clotho上,10步FAC的SPIDEr(0.257)优于250步基线(0.247)。推理时间从每样本2.28秒(250步)降至0.19秒(10步),提速约12倍。通过调节训练时的噪声尺度σ,可以在不增加推理成本的情况下控制生成多样性。
  5. 实际意义:为高效、可控的多样化音频字幕生成提供了新方案,降低了流式或实时应用中的延迟和计算开销。
  6. 主要局限性:未开源代码和模型;未报告训练硬件与时间;作为首个应用,流匹配在音频字幕任务上的潜力和边界有待进一步探索;实验主要聚焦于生成过程,未改进音频编码器和语言解码器本身。