Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech
📄 Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech #语音情感识别 #因果图 #显式推理 #语音大模型 #多模态 ✅ 7.5/10 | 前25% | #语音情感识别 | #因果图 | #显式推理 #语音大模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xuanru Zhou (浙江大学), Jiachen Lian (UC Berkeley) (论文明确标注两位作者贡献均等) 通讯作者:未明确说明 作者列表:Xuanru Zhou (浙江大学), Jiachen Lian (UC Berkeley), Henry Hong (UC Berkeley), Xinyi Yang (浙江大学), Gopala Anumanchipalli (UC Berkeley) 💡 毒舌点评 亮点是将认知科学的模块化思想形式化为一个可计算的因果图(WMA, ToM, SA, Prag),并利用其结构化先验显著提升了训练效率和推理能力,为“如何让语音模型像人一样思考”提供了一个新颖的框架。短板在于,该因果图的结构是预定义的,限制了模型对未见依赖关系的适应能力,且完全依赖合成标签训练指令微调阶段,可能成为性能上限的瓶颈。 ...