ICASSP 2026 - 语音摘要 论文列表

ICASSP 2026 - 语音摘要 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Semantic Anchor Transfer from Short to Long Speech in a Dist 7.5分 前25% 📋 论文详情 🥇 Semantic Anchor Transfer from Short to Long Speech in a Distillation-Based Summarization Framework ✅ 7.5/10 | 前25% | #语音摘要 | #知识蒸馏 | #端到端 #迁移学习 👥 作者与机构 第一作者:Xiang He (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心) 通讯作者:Liang He (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心;新疆大学智能科学与技术学院;清华大学电子工程系) 作者列表:Xiang He (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心)、Xuejian Zhao (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心)、Longwei Li (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心)、Liang He (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心;新疆大学智能科学与技术学院;清华大学电子工程系) 💡 毒舌点评 ...

2026-04-29

Semantic Anchor Transfer from Short to Long Speech in a Distillation-Based Summarization Framework

📄 Semantic Anchor Transfer from Short to Long Speech in a Distillation-Based Summarization Framework #语音摘要 #知识蒸馏 #端到端 #迁移学习 ✅ 7.5/10 | 前25% | #语音摘要 | #知识蒸馏 | #端到端 #迁移学习 学术质量 7.5/7 | 选题价值 7.0/2 | 复现加成 -0.3 | 置信度 高 👥 作者与机构 第一作者:Xiang He (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心) 通讯作者:Liang He (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心;新疆大学智能科学与技术学院;清华大学电子工程系) 作者列表:Xiang He (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心)、Xuejian Zhao (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心)、Longwei Li (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心)、Liang He (新疆大学计算机科学与技术学院,新疆多模态信息技术工程研究中心;新疆大学智能科学与技术学院;清华大学电子工程系) 💡 毒舌点评 亮点:论文直击当前端到端语音摘要的一个实际痛点——长语音处理中的语义漂移问题,并提出了一个逻辑自洽且工程上可行的“锚点迁移”两阶段训练策略,实验也证实了其有效性。短板:核心创新“锚点迁移”本质上是对现有Q-Former架构的一种适配性工程优化和训练策略设计,在基础理论或模型结构上的原创性贡献相对有限;此外,论文对伪标签噪声这一关键问题仅在动机部分提及,实验中未做深入分析或缓解。 📌 核心摘要 要解决什么问题:在基于知识蒸馏的端到端语音摘要系统中,现有方法存在冗余token多、推理效率低、难以建模长语音跨段依赖、分段处理导致语义漂移等问题。 方法核心是什么:提出一种增强的蒸馏框架。首先,设计一个改进的锚点感知Q-Former(Anchor-aware Q-Former),用于对短语音进行语义感知的特征压缩和对齐。其次,提出“语义锚点迁移”策略:将短语音阶段学到的输出投影层(W)作为“语义锚点”,通过滑动窗口分段的Q-Former将其迁移到长语音输入,并配合“冻结-解冻”的两阶段训练策略,以抑制语义漂移并稳定训练。 与已有方法相比新在哪里:主要新在两个方面:1)使用改进的Q-Former替代了原有的池化、交互式注意力或层级合并等融合策略,实现了更高效的语义压缩;2)提出了将短语音上学到的投影矩阵作为“锚点”迁移到长语音处理中,并结合专门设计的两阶段训练流程,这是解决跨段语义漂移问题的具体新方案。 主要实验结果如何:在CNN/DailyMail长语音数据集上,所提方法(QF*+ LLM)的ROUGE-L分数为47.96,相对最强基线(Pooling+ LLM的37.48)提升了约10%。推理时间从1.15小时降至1.08小时,输入token数从1125个降至264个。消融实验证明,省略“冻结锚点”的第一阶段训练会导致METEOR分数从49.14显著下降至43.01。关键实验数据如下表所示: 数据集 模型 Rouge-1 Rouge-2 Rouge-L METEOR BERTScore Tokens Time CNN/DailyMail (Anchor Transfer) Ground-truth text + LLM 53.79 29.83 49.67 56.48 90.66 — — WeNet + LLM 49.62 21.31 43.88 39.57 87.83 — — Stack + LLM [11] 44.58 20.05 40.11 37.90 86.30 1125 1.25h Multi-head + LLM [22] 31.89 7.55 27.54 22.67 84.82 60 1.20h Pooling + LLM [9] 51.12 27.50 37.48 45.63 90.50 1125 1.15h QF*+ LLM (Ours) 53.21 25.59 47.96 49.14 89.37 264 1.08h w/o Stage-1 52.03 24.26 46.84 43.01 88.34 264 1.13h w/o Stage-2 52.96 25.09 47.86 44.10 89.37 264 1.10h 实际意义是什么:该方法为在高质量配对数据稀缺条件下,如何利用冻结的大语言模型(LLM)高效处理长语音并生成高质量摘要提供了一种有效的解决方案,通过“锚点迁移”降低了长语音处理的难度和计算成本。 主要局限性是什么:1)核心创新偏向工程优化和策略设计,在架构原创性上深度有限;2)实验主要基于合成语音(CNN/DailyMail)和LibriSpeech读语,对真实世界嘈杂、对话式长语音的泛化能力有待验证;3)论文未讨论并分析其使用的伪标签本身的质量和噪声影响。 🏗️ 模型架构 该模型是一个基于知识蒸馏的端到端语音摘要系统,核心是在冻结的大语言模型(LLM)前,接入一个可训练的语音编码器和一个跨模态桥接模块(Q-Former)。整体架构如图2所示。 ...

2026-04-29