语音情感识别

Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition

📄 Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition #语音情感识别 #零样本 #语音大模型 #提示工程 ✅ 7.0/10 | 前25% | #语音情感识别 | #零样本 | #语音大模型 #提示工程学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Jiacheng Shi（College of William & Mary）通讯作者：未说明作者列表：Jiacheng Shi（College of William & Mary）、Hongfei Du（College of William & Mary）、Y. Alicia Hong（George Mason University）、Ye Gao（College of William & Mary） 💡 毒舌点评本文的亮点在于巧妙地将传统信号处理、情感分析和LLM推理整合成一个结构化的“情绪图”作为中间推理步骤，这种“组合式思维链”的设计为提升LALM在缺乏副语言特征时的推理能力提供了新颖且有效的思路，实验增益显著。但短板在于整个框架稍显笨重，依赖多个外部组件（openSMILE、RoBERTa、KeyBERT、GPT-4），其“即插即用”特性在实际部署中需协调这些组件，且论文未开源任何代码或细节，使得其宣称的便捷性和可复现性大打折扣。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：未提及。数据集：论文使用了公开的基准数据集（IEMOCAP, MELD, ESD, MERBench），但未提供数据预处理脚本。 Demo：未提及。复现材料：论文未给出情绪图生成的完整代码、具体特征离散化阈值、GPT-4的完整提示模板、LALM推理的具体解码参数等。论文中引用的开源项目：论文明确提到了使用的开源工具和模型：openSMILE（用于声学特征提取）、RoBERTa（用于情感分类）、KeyBERT（用于关键词提取）、Whisper（用于转录，如需要）。 📌 核心摘要这篇论文旨在解决大型音频语言模型（LALMs）在零样本语音情感识别（SER）任务中因弱副语言建模和跨模态推理能力不足而导致的性能瓶颈。论文提出了一种名为CCoT-Emo的零样本提示框架，其核心方法是构建一个结构化的“情绪图”（Emotion Graph）。该图通过数字信号处理提取七个声学特征（如音高、语速、音量、抖动、闪烁等），并利用模型提取转录文本的情感和关键词，然后通过GPT-4推断声学特征与文本情感之间的支持或冲突关系。这个图被序列化为JSON格式，作为结构化提示的一部分，引导LALM进行可组合、可解释的情绪推理。与已有的无结构化思维链（CoT）提示相比，CCoT-Emo引入了明确的符号化中间表示，减少了幻觉和错误传播。实验在Qwen2-Audio、Qwen2.5-Omni和Kimi-Audio三个模型以及IEMOCAP、MELD、ESD、MERBench五个基准上进行。结果显示，CCoT-Emo一致超越了普通零样本提示和无结构化CoT基线，平均提升7.2%到9.1%，并在ESD数据集上对Qwen2-Audio实现了14.5%的绝对精度提升。消融实验证明，情绪图中的文本属性、声学属性和跨模态关系都至关重要，且结构化JSON格式优于自由文本。该工作的实际意义在于提供了一种无需微调、可兼容多种LALM的即插即用性能提升方案。其主要局限性在于框架依赖多个外部独立组件（如openSMILE, GPT-4），流程复杂度较高，且论文未开源代码和关键实现细节。 ...

Prompt-Guided Mixture-of-Experts for Robust Multimodal Sentiment Analysis with Missing Modalities

📄 Prompt-Guided Mixture-of-Experts for Robust Multimodal Sentiment Analysis with Missing Modalities #语音情感识别 #多模态模型 #混合专家模型 #低资源 #知识蒸馏 #鲁棒性 🔥 8.5/10 | 前25% | #语音情感识别 | #混合专家模型 | #多模态模型 #低资源学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度中 👥 作者与机构第一作者：Ziqi Shu (厦门大学电影学院) 通讯作者：Qingfeng Wu (厦门大学电影学院) 作者列表：Ziqi Shu† (厦门大学电影学院), Rongzhou Zhou† (厦门大学电影学院), Xiaodong Wang (厦门大学电影学院), Qingfeng Wu⋆ (厦门大学电影学院), Lu Cao (厦门大学) 💡 毒舌点评亮点在于将MoE架构与Prompt生成、置信度加权相结合，为缺失模态问题提供了一个模块化且有理论深度的解决方案，且跨数据集、跨骨干网络的泛化性验证比较扎实。短板是论文对“生成式Prompt如何有效补偿缺失信号”这一核心假设的论证略显薄弱，更像一个工程组合而非原理上的突破，且完全未开源代码，对于声称解决实际问题的工作来说，可复现性大打折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了CMU-MOSI, MOSEI, IEMOCAP, CH-SIMS四个公开数据集。 Demo：未提及。复现材料：提供了方法的核心公式、训练流程（如使用Adam、随机丢弃率70%、LoRA）和部分消融实验设置，但缺少具体超参数（如学习率、batch size、专家数量、损失权重）和硬件信息。论文中引用的开源项目：提到了MulT [21]作为骨干网络，其代码应为公开。论文本身未声明开源计划。 📌 核心摘要本文针对多模态情感识别中普遍存在的模态缺失问题，提出了一个名为PMoE（Prompt-guided Mixture-of-Experts）的鲁棒识别框架。该方法的核心在于，在冻结的预训练Transformer主干网络基础上，引入三个关键组件：1）一个基于生成式Prompt和置信度加权融合的缺失模态补偿方案，用于生成并动态融合缺失模态的可靠表示；2）一个具有两阶段动态路由机制的MoE层，通过模态特定专家和共享专家池实现灵活的跨模态特征融合；3）一个自蒸馏策略，利用历史模型输出作为软目标来稳定训练和提升泛化能力。与已有方法（如MCTN、MMIN、MPLMM等）相比，PMoE首次将Prompt引导的生成、置信度评估、MoE的动态专家选择以及知识蒸馏有机结合，更系统地应对信息补偿、融合不稳定和训练泛化三大挑战。实验在CMU-MOSI、MOSEI、IEMOCAP和CH-SIMS四个基准数据集上进行，结果表明PMoE在各种模态缺失场景下（尤其是严重缺失时）均取得最优的准确率和F1分数。例如，在MOSEI数据集上，其平均准确率比最强基线MPLMM高出1.34%。该工作的实际意义在于为真实世界中因设备、隐私等原因导致的模态不完整场景提供了一个高效、鲁棒的情感分析解决方案。主要局限性在于：缺失模态生成器的性能高度依赖跨模态映射和注意力机制的有效性，可能在模态差异巨大时失效；论文未提供代码，限制了复现和验证。 ...

Rationale-Guided Learning for Multimodal Emotion Recognition

📄 Rationale-Guided Learning for Multimodal Emotion Recognition #语音情感识别 #多模态模型 #对比学习 ✅ 7.0/10 | 前25% | #语音情感识别 | #对比学习 | #多模态模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Sujung Oh（Pixel Lab, Sungkyunkwan University, South Korea）通讯作者：Jung Uk Kim*（Visual AI Lab, Kyung Hee University, South Korea）作者列表：Sujung Oh（Pixel Lab, Sungkyunkwan University, South Korea），Jung Uk Kim（Visual AI Lab, Kyung Hee University, South Korea），Sangmin Lee（Pixel Lab, Korea University, South Korea） 💡 毒舌点评亮点：论文的核心设计思路巧妙，借鉴“双过程理论”将情感推理分解为“直觉、情境、整合”三个方面，并通过离线生成的推理依据库，在训练时引导模型内部表示向“类人推理”模式对齐，最终模型在推理时无需依赖庞大的多模态大模型（MLLM），兼顾了性能与效率。短板：这种“借鸡生蛋”的方式（依赖GPT-4o生成监督信号）略显取巧，模型的真正推理能力仍受限于离线生成的文本质量，且论文未能深入探讨或验证该框架在MLLM生成的推理依据存在偏差或错误时的鲁棒性。 ...

Reasoning Driven Captions to Assist Noise Robust Speech Emotion Recognition

📄 Reasoning Driven Captions to Assist Noise Robust Speech Emotion Recognition #语音情感识别 #多模态模型 #预训练 #鲁棒性 ✅ 7.0/10 | 前25% | #语音情感识别 | #多模态模型 | #预训练 #鲁棒性学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Snehit B. Chunarkar（National Tsing Hua University, Taiwan）通讯作者：Chi-Chun Lee（National Tsing Hua University, Taiwan）作者列表：Snehit B. Chunarkar（National Tsing Hua University, Taiwan）， Chi-Chun Lee（National Tsing Hua University, Taiwan） 💡 毒舌点评亮点：将能生成“环境音描述+因果推理”的小模型Mellow引入噪声SER，思路新颖，实验证明其在低信噪比下能显著提升性能并带来更均衡的情绪维度预测，解决了传统转录文本“偏效价、轻唤醒”的痛点。短板：所谓“推理”主要体现在生成了更长的描述性字幕，而非模型内部的显式逻辑推理链；且生成此类字幕的计算开销远高于直接使用转录文本（训练时间从10小时增至223小时），在实时性要求高的场景中实用性存疑。 📌 核心摘要要解决什么问题：语音情感识别（SER）系统在真实世界噪声环境中性能会严重下降，传统多模态方法（结合音频与文本）使用的转录文本或简单场景描述缺乏足够语义深度，且对情绪预测（尤其是唤醒度和主导度）贡献有限。方法核心是什么：提出使用由小型音频语言模型Mellow生成的“推理驱动字幕”作为额外的文本模态。这种字幕不仅包含文字转录，还包括对声源、环境声、声音特征（如响度、频率）的推理性描述，从而提供更丰富的高阶语义信息。系统采用跨注意力机制融合音频（WavLM提取）与文本（CLAP文本编码器提取）特征进行情绪预测。与已有方法相比新在哪里：不同于以往使用转录或粗略场景描述，本文首次将能进行音频推理的小型语言模型生成的、富含情境语义的字幕应用于噪声鲁棒SER，旨在为模型提供更“均衡”的情绪判断依据。主要实验结果如何：在MSP-Podcast数据集模拟的多种噪声（SNR从5dB到-10dB）下，使用Mellow推理字幕的方案在唤醒度、效价、主导度三个维度上的平均CCC分数（越接近1越好）均优于使用场景描述或MS-CLAP字幕的基线。特别是在极低信噪比（-10dB）下，其性能优势最为明显（平均CCC比场景描述基线高5.5%，比MS-CLAP基线高9.3%），并实现了三个情绪维度更均衡的预测。实际意义是什么：为构建在嘈杂环境中仍能可靠工作的情感计算系统提供了新思路。通过引入高级语义上下文，使得SER系统对噪声的鲁棒性更强，预测结果更符合人类对情绪多维度的综合感知，有利于推动SER在现实场景（如智能助手、客服监测）中的应用。主要局限性是什么：1) 生成推理字幕的计算成本极高（训练时间约为场景描述方法的22倍）；2) 验证仅在单一数据集（MSP-Podcast）和特定噪声集上进行，泛化性有待验证；3) “推理”能力的体现更多在于生成文本的描述性，而非模型架构中的显式推理过程。 🏗️ 模型架构论文提出了一个清晰的端到端流水线，主要包含两个部分：上下文感知文本生成和基于跨注意力的多模态融合架构。整体架构如图1所示。 ...

Recovering Performance in Speech Emotion Recognition from Discrete Tokens Via Multi-Layer Fusion and Paralinguistic Feature Integration

📄 Recovering Performance in Speech Emotion Recognition from Discrete Tokens Via Multi-Layer Fusion and Paralinguistic Feature Integration #语音情感识别 #特征融合 #自监督学习 #预训练 ✅ 6.5/10 | 前50% | #语音情感识别 | #特征融合 | #自监督学习 #预训练学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Esther Sun（卡内基梅隆大学，语言技术研究所）通讯作者：未说明（三位作者邮箱均来自同一单位）作者列表：Esther Sun（卡内基梅隆大学语言技术研究所）、Abinay Reddy Naini（卡内基梅隆大学语言技术研究所）、Carlos Busso（卡内基梅隆大学语言技术研究所） 💡 毒舌点评这篇论文像一份非常详尽的“诊断与修复报告”，对离散token用于语音情感识别的“病症”（性能下降）诊断得非常清楚，并给出了“多层融合”和“特征补充”两剂对症药，实验证明药效不错。但美中不足的是，它没有给出自己这剂药的完整“配方”（关键训练细节缺失），让人想按方抓药时会遇到困难。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及是否公开微调后的WavLM或下游分类器权重。数据集：使用MSP-Podcast v1.12，论文提供了引用信息（[27, 28]），这是一个公开可获取的数据集。 Demo：未提供在线演示。复现材料：提供了部分实验设置（层配置、K值、特征列表），但缺少核心的训练超参数（如优化器、学习率、batch size）、模型初始化细节和完整的代码，复现难度较高。论文中引用的开源项目：明确提及使用了WavLM（预训练模型）、OpenSMILE（特征提取工具）、以及对比实验中使用的SpeechTokenizer、DAC、EnCodec等模型。开源计划：论文中未提及开源计划。 📌 核心摘要问题：离散语音token因其存储效率和与大语言模型的兼容性而备受关注，但其在语音情感识别（SER）任务中的应用受限于量化过程中副语言信息的丢失。方法核心：本文提出一种基于微调WavLM-Large的离散SER框架，并采用两种策略恢复信息：(1) 使用温度缩放的注意力机制动态融合来自不同Transformer层的离散token；(2) 将传统的OpenSMILE副语言特征（7类74维）离散化后，与语音token在特征层进行分层融合。创新性：与多数仅分析最后一层或有限层的工作相比，本文系统评估了不同层配置和码本大小（K=256-4000）对性能的影响；创新性地将离散副语言特征引入融合框架，以显式补偿离散化损失。主要实验结果：在MSP-Podcast数据集的8类SER任务上，离散WavLM token相比连续特征性能下降6-14%。多层融合能恢复约62%的性能损失（最佳Macro F1从0.3248提升至0.3479）。结合OpenSMILE特征（特别是共振峰特征）后，最佳配置（L0-23层+共振峰）的Macro F1达到0.3534，恢复了约75%的离散-连续性能差距（连续基准为0.3624）。主流神经编解码器（SpeechTokenizer, DAC, EnCodec）性能显著低于离散WavLM（最高仅0.1758）。实际意义：研究证明，通过精心的特征层与架构层补偿，离散token在SER任务上可以接近连续表示的性能，这为构建兼容LLM的统一语音理解模型提供了可能性。主要局限性：(1) 论文未报告与同领域其他先进离散token SER方法的直接定量对比；(2) 缺少关键的模型训练细节；(3) 提出的融合方法在概念上较为直接（注意力加权、特征拼接），未展示其在更复杂任务上的泛化性。 🏗️ 模型架构本文提出了三种核心架构，均共享下游的注意力池化与分类头（见图1）。 ...

Scaling Ambiguity: Augmenting Human Annotation in Speech Emotion Recognition with Audio-Language Models

📄 Scaling Ambiguity: Augmenting Human Annotation in Speech Emotion Recognition with Audio-Language Models #语音情感识别 #数据增强 #音频大模型 #多模态模型 #低资源 ✅ 6.5/10 | 前50% | #语音情感识别 | #数据增强 | #音频大模型 #多模态模型学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Wenda Zhang (University of Melbourne, Melbourne, Australia) 通讯作者：Hongyu Jin (University of Melbourne, Melbourne, Australia) （论文中标注为*Equal contribution）作者列表： Wenda Zhang (University of Melbourne) Hongyu Jin (University of Melbourne) Siyi Wang (University of Melbourne) Zhiqiang Wei (Xi’an Jiaotong University, Xi’an, China) Ting Dang (University of Melbourne) 💡 毒舌点评这篇论文的核心亮点在于它首次系统性地将音频语言模型（ALM）生成的合成标注引入到情感分布估计任务中，并设计了一套包含数据增强（DiME-Aug）与评估的完整流程，为解决情感标注稀疏问题提供了新颖且可扩展的思路。然而，其短板也很明显：ALM生成的“合成感知代理”在面对人类本身就存在高度分歧的模糊情感时效果甚微，这恰恰是AER任务最具挑战性的部分，使得该方法目前更像是对低模糊区域的“锦上添花”，而非解决核心矛盾的“雪中送炭”。 ...

SmoothCLAP: Soft-Target Enhanced Contrastive Language-Audio Pretraining for Affective Computing

📄 SmoothCLAP: Soft-Target Enhanced Contrastive Language-Audio Pretraining for Affective Computing #语音情感识别 #对比学习 #预训练 #零样本 #跨语言 ✅ 6.5/10 | 前50% | #语音情感识别 | #对比学习 | #预训练 #零样本学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Xin Jing（CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany）通讯作者：未明确标注作者列表： Xin Jing（CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany） Jiadong Wang（CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany） Andreas Triantafyllopoulos（CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany） Maurice Gerczuk（CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany） Shahin Amiriparian（† Huawei, Netherlands, ⋆ CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany） Jun Luo（† Huawei, Netherlands） Björn Schuller（⋆ CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany; ‡ GLAM, Imperial College London, UK） 💡 毒舌点评论文的亮点在于精准地指出了标准对比学习在情感建模上的“非黑即白”硬伤，并用模态内相似性构建软目标加以缓解，这是一个优雅且有效的工程改良。然而，短板在于其“安全牌”打法：仅在英语数据上训练，却大谈跨语言迁移，说服力有限；且在部分关键数据集（如RAVDESS）上，相比基线提升微弱甚至下降，使得“显著优于”的结论有些底气不足。 ...

Speaker Anonymisation for Speech-Based Suicide Risk Detection

📄 Speaker Anonymisation for Speech-Based Suicide Risk Detection #语音匿名化 #语音大模型 #语音转换 #语音情感识别 #隐私保护 ✅ 7.5/10 | 前25% | #语音匿名化 | #语音转换 | #语音大模型 #语音情感识别学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Ziyun Cui (上海人工智能实验室 & 清华大学电子工程系) 通讯作者：Chang Lei (清华大学万科公共卫生与健康学院)，Wen Wu (上海人工智能实验室) 作者列表：Ziyun Cui (上海人工智能实验室、清华大学电子工程系)，Sike Jia (清华大学电子工程系)，Yang Lin (清华大学为阳书院)，Yinan Duan (清华大学万科公共卫生与健康学院)，Diyang Qu (清华大学万科公共卫生与健康学院)，Runsen Chen (清华大学万科公共卫生与健康学院)，Chao Zhang (上海人工智能实验室、清华大学电子工程系)，Chang Lei (清华大学万科公共卫生与健康学院)，Wen Wu (上海人工智能实验室) 💡 毒舌点评亮点：这是首个系统性研究语音匿名化对下游自杀风险检测任务影响的工作，其构建的多维评估框架（语音质量、说话人鉴别、语义/情感保留）和对互补性匿名化策略的验证（CosyVoice+RVC组合）具有很强的实用指导价值。短板：论文的核心下游任务（自杀风险检测）仅为一个简单的二分类，且未公开核心数据集和代码，使得其关键结论（如“接近原始性能”）的普适性和可复现性大打折扣。 🔗 开源详情代码：论文中未提及提供本研究工作的代码仓库链接。模型权重：未提及公开论文中使用的匿名化模型（如SSL-SAS, FreeVC等）或下游检测模型的权重。数据集：数据集为临床采集的青少年语音，涉及隐私，未公开。 Demo：未提供在线演示。复现材料：未给出训练细节（如学习率）、超参配置文件或检查点。论文中引用的开源项目：论文在脚注中引用了多个开源项目或模型，包括： Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B Paraformer/FunASR Spark-TTS: https://huggingface.co/SparkAudio/Spark-TTS-0.5B CosyVoice 2.0: https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B RVC项目: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI Emotion2Vec: https://huggingface.co/emotion2vec/emotion2vec_plus_seed 📌 核心摘要问题：利用语音自动检测青少年自杀风险具有重要潜力，但语音数据本身包含丰富的个人可识别信息。如何在保护这一脆弱群体隐私（实现说话人匿名化）的同时，保留用于风险检测的关键信息，是一个亟待研究的空白。方法：首次系统性评估了三大类语音匿名化技术：传统信号处理（基频调整、McAdams）、基于神经声码器的内容-说话人解耦（SSL-SAS， FreeVC， SeedVC， RVC）以及基于转录文本的语音合成（SparkTTS， CosyVoice）。构建了一个包含语音质量、说话人鉴别、基频偏移、语义和情感内容保留的五维评估框架。下游检测模型采用基于Qwen2.5-Omni-7B的语音大模型，通过DoRA进行微调。创新：首次将隐私保护的“说话人匿名化”与心理健康领域的“语音自杀风险检测”任务进行深度耦合研究；提出了一个全面的匿名化效果评估框架；通过实验揭示了不同匿名化方法保留信息的互补性（RVC擅长保留声学特征，CosyVoice擅长保留语义内容），并验证了组合策略的有效性。结果：在1,223名中国青少年的语音数据集上，原始语音检测准确率为0.702。单一匿名化方法中，RVC表现最好（准确率0.680， EER 0.510），CosyVoice次之（准确率0.658）。将二者概率平均的集成方法达到了0.692的准确率，与原始语音仅差1%，且统计上无显著差异（p=0.677），同时保持了有效的匿名化（EER ~0.5）。方法检测准确率说话人等错误率 (EER) 基频相关性 (PCC_F0) 情感相似度语义错误率 (CER) 原始语音 0.702 0.185 - - - RVC 0.680 0.510 0.443 0.619 0.362 CosyVoice 0.658 0.497 -0.002 0.257 0.024 CosyVoice+RVC 0.692 ~0.50 (组合) (组合) (组合) 其他方法 0.625-0.644 0.248-0.512 - - - 图4: 不同匿名化方法下的自杀风险检测准确率。集成CosyVoice+RVC达到了接近原始语音的性能。 ...

Speech Emotion Recognition based on Hierarchical Transformer with Shifted Windows

📄 Speech Emotion Recognition based on Hierarchical Transformer with Shifted Windows #语音情感识别 #分层Transformer #预训练 #对比学习 #音频分类 🔥 8.0/10 | 前25% | #语音情感识别 | #分层Transformer | #预训练 #对比学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：张文浩 (Wenhao Zhang)（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院））通讯作者：张鹏 (Peng Zhang)*（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院））作者列表：张文浩（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院）），张鹏（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院）），赵伟（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院）），王富强（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院）），李烨（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院）），吴晓明（山东计算中心（国家超级计算济南中心）、齐鲁工业大学（山东省科学院）） 💡 毒舌点评这篇论文将图像领域的Swin Transformer思路迁移到语音情感识别，构建了一个从帧级到语句级的清晰分层建模框架，思路系统且有效。然而，其核心组件（如滑动窗口注意力）创新性相对有限，更像是对成熟技术的精巧组合与适配；此外，在MELD等数据集上对少数类（如“恐惧”和“厌恶”）的识别瓶颈并未得到根本解决，说明模型对数据不平衡的鲁棒性仍有提升空间。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/AY549/HTSW-for-SER。模型权重：论文中未提及是否公开模型权重。数据集：使用了公开数据集（IEMOCAP, MELD, CASIA），但论文未涉及数据集的公开或分发工作。 Demo：论文中未提及提供在线演示。复现材料：论文详细给出了模型的层数、窗口大小、学习率、优化器、训练轮数等关键训练细节和超参数，复现信息较为充分。论文中引用的开源项目：主要依赖预训练模型WavLM（论文中引用了相关文献[13]）。 📌 核心摘要要解决的问题：传统基于全局自注意力机制的Transformer在语音情感识别中弱化了局部情感特征的表示能力，而语音信号丰富的时序动态对分层建模提出了挑战。方法核心：提出一种基于移位窗口的分层Transformer模型（HTSW）。该模型首先使用预训练WavLM提取特征，然后通过三个阶段的移位窗口Transformer和块合并操作，实现从帧级到语句级的多尺度特征学习；最后在顶层使用全局注意力机制整合全局上下文信息，完成情感分类。与已有方法相比新在哪里：相较于传统Transformer，该方法引入了层次化、多尺度的局部窗口注意力机制，能更有效地捕捉语音中不同时间粒度（音素、词、短语）的情感特征。其设计的滑动重叠窗口和块合并下采样策略，在保持计算效率的同时，促进了特征层级间的交互与融合。主要实验结果： IEMOCAP (5-fold)：WAR 73.3%, UAR 74.6%，优于表1中所有对比方法（如DST: 71.8%/73.6%）。 MELD：WF1 48.2%，与最佳对比方法（ENT: 73.9% UAR）相当或略低，论文指出类别不平衡是主要挑战。 CASIA (leave-one-speaker-out)：WAR和UAR均为66.7%，显著优于表2中所有对比方法（如SpeechSwin-TF: 54.3%）。消融实验 (Table 3)：在IEMOCAP和MELD上，所提HTSW方法（WAR 73.3%/WF1 48.2%）显著优于固定窗口Transformer（69.4%/44.2%）和稀疏窗口注意力（70.1%/45.7%）。实际意义：该工作为语音情感识别提供了一种高效且性能优越的建模框架，特别是在处理长语音序列时，其分层结构能有效降低计算复杂度，对实际应用（如客服情感分析、人机交互）具有参考价值。主要局限性：模型在极端类别不平衡的数据集（如MELD）上，对少数类情感的识别能力仍然有限。所采用的窗口大小为固定值，缺乏自适应调整机制以更灵活地匹配不同情感动态。 🏗️ 模型架构模型的整体输入是原始语音，输出是情感类别概率。 ...

Staged Diffusion with Hybrid Mixture-of-Experts (MOE) for Multimodal Sentiment Analysis

📄 Staged Diffusion with Hybrid Mixture-of-Experts (MOE) for Multimodal Sentiment Analysis #多模态模型 #扩散模型 #多模态模型 #语音情感识别 #鲁棒性 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #扩散模型 #鲁棒性学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kaiyang Zheng（上海交通大学计算机科学与技术学院）通讯作者：Gehao Sheng（上海交通大学计算机科学与技术学院）作者列表：Kaiyang Zheng（上海交通大学计算机科学与技术学院）、Gehao Sheng（上海交通大学计算机科学与技术学院） 💡 毒舌点评亮点：该工作将扩散模型从生成任务“跨界”到语义修复，用于对齐和修正多模态下的噪声文本，是一个颇具巧思的“认知模拟”尝试，为处理模态缺失提供了新思路。短板：整体框架依赖外部的情绪描述生成模块（EDG），核心创新更侧重于框架整合与特定组件（如Hybrid MoE）的设计，而非底层原理突破；论文对“Semantic Cortex Emulator”等命名略显“包装”，部分机制解释深度有限。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/zhengky-paper-account/SDHM。模型权重：未提及。数据集：论文中使用了公开数据集CMU-MOSI和CH-SIMS，但未说明是否提供已处理好的数据或特定预处理脚本。 Demo：未提供。复现材料：论文给出了一些关键超参数（如扩散步数、beta范围、模型深度、专家数等），但未提供完整的训练配置文件、预训练权重或训练日志。引用的开源项目：论文引用了DEVA、Linear-MoE等开源工作，并在其基础上进行改进。 📌 核心摘要要解决的问题：多模态情感分析（MSA）中，文本模态常因口语化和ASR错误而包含噪声和歧义，现有方法处理此类噪声鲁棒性不足。方法核心：提出受认知启发的两阶段框架SDHM。第一阶段，使用混合线性注意力与Transformer的MoE模型渐进增强单模态特征，并引入基于扩散模型的重建损失来对齐多模态线索、修复损坏内容。第二阶段，将重建后的语义特征与原始文本特征融合，形成鲁棒的主模态表示进行最终预测。与已有方法相比新在哪里：首次在MSA领域将扩散模型用于文本模态的语义修复（而非高层融合或生成）；设计了交替使用线性MoE和Transformer-MoE的“混合专家”结构，旨在平衡特征描述对齐与上下文语义提取，并抑制噪声放大。主要实验结果：在MOSI和SIMS数据集的随机模态缺失设定下，SDHM取得了SOTA性能。在MOSI上，MAE降至0.698，相关系数Corr提升至0.800（均为p<0.01显著提升）。在模态缺失鲁棒性测试中，当缺失率为0.3时，其MAE仍比LNLN低0.086，Corr高0.084。消融实验证明，结合混合MoE与扩散损失能带来最大性能增益。实际意义：提升了MSA模型在真实世界（多噪声、多缺失模态）场景下的预测准确性和鲁棒性，对人机交互、情感计算等应用有直接价值。主要局限性：在极端模态缺失（如缺失率0.8）条件下，分类准确率（如Acc-7）仍略低于部分基线模型。框架依赖外部生成的情绪描述，增加了系统复杂度。 🏗️ 模型架构 SDHM是一个两阶段、多组件的端到端框架。其整体处理流程如下图所示（图1）： ...