因果图 | 语音/音乐/音频论文速递

📄 Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech #语音情感识别 #因果图 #显式推理 #语音大模型 #多模态 ✅ 7.5/10 | 前25% | #语音情感识别 | #因果图 | #显式推理 #语音大模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xuanru Zhou (浙江大学), Jiachen Lian (UC Berkeley) (论文明确标注两位作者贡献均等) 通讯作者：未明确说明作者列表：Xuanru Zhou (浙江大学), Jiachen Lian (UC Berkeley), Henry Hong (UC Berkeley), Xinyi Yang (浙江大学), Gopala Anumanchipalli (UC Berkeley) 💡 毒舌点评亮点是将认知科学的模块化思想形式化为一个可计算的因果图（WMA, ToM, SA, Prag），并利用其结构化先验显著提升了训练效率和推理能力，为“如何让语音模型像人一样思考”提供了一个新颖的框架。短板在于，该因果图的结构是预定义的，限制了模型对未见依赖关系的适应能力，且完全依赖合成标签训练指令微调阶段，可能成为性能上限的瓶颈。 ...