TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling
📄 TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling #语音大模型 #端到端 #语音对话系统 #大语言模型 #自回归模型 🔥 8.0/10 | 前25% | #语音对话系统 | #端到端 | #语音大模型 #大语言模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Liang-Hsuan Tseng (刘亮轩) (台湾大学电机工程学系研究所;MediaTek Research实习) 通讯作者:未明确说明。作者列表中第二作者Yi-Chang Chen(联发科技研究中心)和第四作者Da-shan Shiu(联发科技研究中心)提供了邮箱,可能负责主要联络。 作者列表: Liang-Hsuan Tseng (台湾大学电机工程学系研究所, MediaTek Research实习) Yi-Chang Chen (MediaTek Research) Kuan-Yi Lee (台湾大学电机工程学系研究所, MediaTek Research实习) Da-shan Shiu (MediaTek Research) Hung-yi Lee (台湾大学人工智能研究卓越中心) 💡 毒舌点评 这篇论文的亮点在于它跳出了“先有语音token,再想办法与文本对齐”的常规思路,从源头设计了一种与文本一一对应的语音标记,巧妙解决了SLM建模中的长度不匹配痛点,使得联合建模变得“straightforward”,效果立竿见影。然而,其高度依赖ASR(Whisper)来获取文本锚点,这意味着模型性能上限可能受限于ASR的准确性和泛化能力,且对于非语言声音(如笑声、环境声)的处理存在明显短板,暴露了当前“文本中心主义”语音建模范式的局限性。 ...