解耦学习 | 语音/音频论文速递

📄 Style-Disentangled Diffusion for Controllable and Identity-Generalized Speech-Driven Body Motion Generation #语音驱动动作生成 #扩散模型 #对比学习 #解耦学习 ✅ 7.0/10 | 前25% | #语音驱动动作生成 | #扩散模型 | #对比学习 #解耦学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Zixiang Lu（西安电子科技大学计算机科学与技术学院）通讯作者：Zhitong He， Qiguang Miao（西安电子科技大学计算机科学与技术学院）作者列表：Zixiang Lu（西安电子科技大学计算机科学与技术学院）、Zhitong He（西安电子科技大学计算机科学与技术学院）、Zixuan Wang（未说明）、Yunan Li（未说明）、Qiguang Miao（西安电子科技大学计算机科学与技术学院） 💡 毒舌点评亮点：风格解耦模块的设计很巧妙，通过对比学习拉近同一说话人风格码的距离，并用梯度反转从内容特征中剥离身份信息，理论上提升了可控性和可解释性。短板：论文声称的“Identity-Generalized”能力仅在单一数据集（BEATX）的同一说话人测试集上进行定量评估，缺乏跨数据集或对未知说话人的严格泛化验证，说服力稍显不足。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的BEATX数据集，论文中未说明是否提供其他自定义数据。 Demo：未提及在线演示。复现材料：论文给出了损失函数的权重配置，但缺少训练超参数、模型架构细节等关键复现信息。论文中引用的开源项目：未在正文中明确引用特定开源项目。方法部分参考了Syntalker [11]的分割策略，数据集使用了BEATX [12]。论文中未提及开源计划。 📌 核心摘要本文针对现有语音驱动身体动作生成方法难以生成匹配抽象个人风格、解耦不充分、可解释性差的问题，提出了名为DSfusion的可控与身份泛化动作生成框架。其核心是通过一个风格解耦模块，从参考动作序列中学习并分离出个人风格特征，同时从语音中提取内容特征，并利用对比学习、梯度反转等技术增强分离效果。与已有方法相比，该模型首次在多身份（Multi-ID）数据集上进行训练，并引入了一个运动精炼模块，以防止解耦后的风格信号在融合过程中被平均化动作所覆盖。在BEATX数据集上的实验表明，该方法在Fréchet Gesture Distance（FGD，5.144 vs 次优5.423）和运动多样性（Diversity，13.912 vs 次优13.057）指标上均优于现有SOTA方法（见表1）。该研究的意义在于提升了语音驱动动画的个性化控制能力和动作的多样性与真实感。主要局限性在于扩散模型带来的推理延迟，以及泛化能力验证的场景有限。 ...

📄 Temporal-Spatial Decouple Before Act: Disentangled Representation Learning for Multimodal Sentiment Analysis #多模态模型 #情感分析 #解耦学习 #音视频 ✅ 7.5/10 | 前25% | #情感分析 | #解耦学习 | #多模态模型 #音视频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Chunlei Meng (Fudan University, 即复旦大学) 通讯作者：Chun Ouyang (Fudan University, 即复旦大学) 作者列表：Chunlei Meng（复旦大学）†、Ziyang Zhou（汕头大学）、Lucas He（伦敦大学学院）、Xiaojing Du（南澳大学）、Chun Ouyang（复旦大学）†、Zhongxue Gan（复旦大学）（†表示通讯作者） 💡 毒舌点评亮点：论文的动机非常清晰，直指当前多模态融合中“时空信息混合建模”导致静态特征主导的痛点，并为此设计了一套从解耦、对齐到重耦合的完整技术流水线，逻辑自洽且实验验证充分。短板：论文的可视化分析（图2）虽然展示了特征分布的改善，但缺乏对“解耦出的时空特征究竟学到了什么”更具体的语义或模态内解释，使得这个“黑箱”模型的可解释性打了折扣；此外，论文未开源代码，限制了其即时影响力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用公开基准CMU-MOSI和CMU-MOSEI。 Demo：未提及。复现材料：提供了一些训练细节（优化器Adam、权重衰减、批大小16、最多50 epoch、早停、五折交叉验证），但缺失关键信息（如各模态特征提取方式、模型具体维度、学习率、损失权重α/β/γ的具体值）。论文中未提及完整的复现计划或资源链接。论文中引用的开源项目：未提及。总结：论文中未提及开源计划。 📌 核心摘要要解决的问题：现有主流多模态情感分析方法在进行跨模态交互前，将时间动态信息（如语音韵律突变、视频微表情）和空间结构信息（如说话人身份、背景、句子整体极性）混合编码为单一嵌入，导致学习过程偏向于更稳定、方差大的静态成分，从而忽略了关键的时间轨迹信息，造成“时空信息不对称”，性能受限。方法核心：提出TSDA（Temporal-Spatial Decouple before Act）框架。其核心是在任何跨模态交互之前，先为每个模态（语言、视觉、声学）学习解耦的“时间动态”和“空间结构”表征。具体包括：（1）独立的时间编码器和空间编码器；（2）因子一致性跨模态对齐（FCCA），使用块对角掩码注意力确保时间特征只与其它模态的时间特征对齐，空间特征同理；（3）门控重耦合（GR）模块，根据可靠度自适应融合对齐后的时间与空间表征。与已有方法相比新在哪里：不同于大多数方法在融合前进行模态内或跨模态的不变/特定因子解耦（如MISA），TSDA更进一步，将时间与空间这两个正交的维度显式地解耦并独立进行跨模态对齐。这避免了传统混合编码中时空信息的相互干扰，是一种更细粒度的解耦学习范式。主要实验结果：TSDA在CMU-MOSI和CMU-MOSEI两个标准基准测试的所有指标上均取得了最优（SOTA）结果。具体对比如下表所示，尤其在平均绝对误差（MAE）和7类准确率（ACC7）上优势明显。消融实验证明了解耦、FCCA和门控重耦合等各组件的必要性。表1：在CMU-MOSI和CMU-MOSEI数据集上与现有方法的性能对比（对齐/未对齐设置） ...