SLM-TTA: A Framework for Test-Time Adaptation of Generative Spoken Language Models
📄 SLM-TTA: A Framework for Test-Time Adaptation of Generative Spoken Language Models #语音识别 #语音翻译 #领域适应 #自适应学习 #语音大模型 ✅ 7.0/10 | 前50% | #语音识别 | #领域适应 | #语音翻译 #自适应学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yuan-Kuei Wu (Yuan-Kuei Wu1,2)(台湾大学电信工程学研究所,Meta) 通讯作者:未明确说明,但根据作者列表排序和贡献标注,Li Wan可能是主要指导者。 作者列表: Yuan-Kuei Wu(台湾大学电信工程学研究所,Meta) Yang Liu(Meta) Yiteng Huang(Meta) Zhaojun Yang(Meta) Haibin Wu(Meta) Ruizhe Huang(Meta) Yi-Te(Ethan) Hsu(Meta) Shuyu Kong(Meta) Ming Sun(Meta) Florian Metze(Meta) Li Wan(Meta) 💡 毒舌点评 亮点:论文首次系统性地解决了生成式语音大模型(SLM)在测试时自适应的难题,填补了这一领域的空白,其提出的无监督目标(熵最小化、伪标签)结合置信度过滤的框架设计精巧,且实验验证了其在多种任务和严苛噪声条件下的有效性。 短板:方法的核心组件(熵最小化、伪标签、置信度过滤)均为现有技术的组合与调整,创新的深度有限;且所有实验仅在单一商用模型Phi-4-Multimodal上进行,其结论能否泛化到其他架构(如更大、更小的模型或其他训练范式)的SLM上存疑。 ...