Preserving Speech-to-Text LLM Capabilities in Speech-to-Speech Generation
📄 Preserving Speech-to-Text LLM Capabilities in Speech-to-Speech Generation #语音识别 #语音翻译 7/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前50% | #语音识别 | #语音翻译 | arxiv 👥 作者与机构 Yuxuan Hu, Heng Lu, Ruchao Fan, Yao Qian, Xiaofei Wang, Jian Xue, Heming Wang, Shuohang Wang, Young Jin Kim, Yelong Shen, Jinyu Li。具体机构未在提供文本中明确说明。 💡 毒舌点评 这篇论文试图解决一个实际且重要的问题:如何把已经很强的语音理解大模型(S2T LLM)无缝升级成能听能说的全能选手(S2S),而不毁掉它原本的本事。思路很直接:别动那个昂贵又聪明的“大脑”(冻结的主干),只给它接一个训练好的“嘴巴”(音频后解码器)。方法上,用中间层隐藏状态做同步、搞多令牌预测提速、训练时打包数据模拟多轮对话,都算得上工程上的小聪明。实验做得很全,从翻译到问答到对话,还自己搞了个多轮测试集,诚意可嘉。但问题在于,那个“嘴巴”跟“大脑”的连接方式(隐藏状态同步)到底有多优雅?消融实验里有些结论(比如MTP主要提效不影响质量)在某些指标上略有起伏,得仔细看数据。最大的槽点是,作为一个强调“可复现”和“开源精神”的领域,论文除了引了几个开源工具,核心代码、模型、数据链接一概不给,这让复现成了空中楼阁。总分7.2,算是中规中矩的技术应用论文,有贡献但离开创性还有距离。 ...