AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

📄 AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization #语音情感识别 #多模态模型 #偏好优化 #基准测试 #零样本 🔥 8.0/10 | 前25% | #语音情感识别 | #偏好优化 | #多模态模型 #基准测试 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ashutosh Chaubey(南加州大学创新技术研究所) 通讯作者:Mohammad Soleymani(南加州大学创新技术研究所) 作者列表:Ashutosh Chaubey(南加州大学创新技术研究所)、Jiacheng Pang(南加州大学创新技术研究所)、Maksim Siniukov(南加州大学创新技术研究所)、Mohammad Soleymani(南加州大学创新技术研究所) 💡 毒舌点评 本文提出的 EmoReAlM 基准测试系统性地揭示了现有多模态模型在情感推理上“瞎扯淡”的两种主要模式(虚假关联与幻觉),其 AVEm-DPO 优化方法针对性地解决了问题,并在零样本设定下取得了显著提升,是一项扎实且完整的工作。短板在于,其优化方法和基准测试的构建高度依赖 GPT-4o 等大模型,虽然进行了人工验证,但这使得整个工作在一定程度上建立在“模型评价模型”的基础上,其上限可能受制于标注模型自身的理解能力,且引入了难以完全消除的偏差。 📌 核心摘要 要解决的问题:现有多模态大语言模型在进行音频视觉情感推理时,存在两大核心缺陷:一是将情绪错误地归因于无关的音视频线索(推理错误),二是为了合理化情绪而“编造”出不存在的音视频线索(感知错误/幻觉)。后者主要由语言模型的文本先验偏差导致。 方法核心:论文提出了一个两阶段方案。首先,构建了名为 EmoReAlM 的专用基准测试(包含4000个人工验证的多选题),用于系统评估模型在关联、一致性及幻觉等方面的表现。其次,提出了 AVEm-DPO 技术,这是一种直接偏好优化方法,通过构建两种偏好对来对齐模型响应:a) 基于提示的多模态输入偏好(Prompt-based Modality Preference),确保模型关注正确的模态;b) 基于情感的响应偏好(Emotion-based Response Preference),区分正确、无关和幻觉的响应。此外,引入了 文本先验去偏(Text Prior Debiasing) 正则化项,抑制模型仅凭文本线索生成响应。 与已有方法相比新在哪里: 评估:超越了现有情感推理或幻觉基准,提供了一个标准化、无需外部LLM评估的、专注于音视觉情感理解中特定错误的测试集。 优化:在应用 DPO 到多模态领域时,创新性地结合了“基于提示的模态偏好”和“文本先验去偏”,比通用的 Naive-DPO 和 Vista-DPO 更具针对性。 主要实验结果:在零样本设定下,AVEm-DPO 显著提升了两个基线模型(Our base, EmotionLLaMA⋆)的性能。在提出的 EmoReAlM 基准上,相对性能提升达 6-19%。在现有情感识别数据集(DFEW, RAVDESS, MER2023)和推理数据集(EMER)上也取得了最优或极具竞争力的结果。关键结果对比如下表所示: 模型 EmoReAlM (平均准确率) DFEW (UAR) RAVDESS (UAR) MER2023 (F1) EMER (Clue) Our base (基线) 65.1% 56.78% 53.59% 89.19% 5.63 + AVEm-DPO 83.3% 58.54% 58.66% 92.18% 6.37 EmotionLLaMA⋆ (基线) 63.8% 54.89% 52.59% 90.01% 5.78 + AVEm-DPO 80.1% 57.06% 56.21% 91.68% 6.02 Qwen 2.5 Omni (SOTA对比) 70.0% 46.94% 32.88% 79.72% 5.85 实际意义:该工作为构建可靠、可解释的社会AI代理提供了更精确的评估工具(EmoReAlM)和更有效的训练方法(AVEm-DPO),有助于减少多模态模型在情感理解中的不准确性,提升人机交互的可靠性。 主要局限性:1) EmoReAlM 基准测试源于 DFEW 数据集,可能继承其文化偏见;2) 模型在识别“厌恶”等复杂/模糊情绪时表现仍不佳;3) 论文承认在缓解虚假音频线索关联方面仍有改进空间。 🏗️ 模型架构 本文的核心贡献并非提出一个全新的端到端模型架构,而是提出了一种训练方法(AVEm-DPO) 来提升现有音频视觉多模态大语言模型(MLLMs)的性能。其作用的对象是两个参考基线模型:“Our base”和“EmotionLLaMA⋆”。因此,架构描述将围绕AVEm-DPO如何作用于基础模型展开。 ...

2026-05-04 · 更新于 2026-07-03 · 3 min · 477 words

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

📄 EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models #基准测试 #语音对话系统 #模型评估 #语音情感识别 #音频大模型 ✅ 7.0/10 | 前25% | #基准测试 | #模型评估 | #语音对话系统 #语音情感识别 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Li Zhou(香港中文大学(深圳)) 通讯作者:Benyou Wang(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院),Haizhou Li(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院) 作者列表:Li Zhou(香港中文大学(深圳))、Lutong Yu(香港中文大学(深圳))、You Lyu(香港中文大学(深圳))、Yihang Lin(香港中文大学(深圳))、Zefeng Zhao(香港中文大学(深圳))、Junyi Ao(香港中文大学(深圳))、Yuhao Zhang(香港中文大学(深圳))、Benyou Wang(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院)、Haizhou Li(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院) 💡 毒舌点评 这篇论文系统性地构建了首个面向语音大模型共情能力的多层级评估基准,设计框架清晰(理解-推理-对话),并通过控制变量的脚本设计(语义中性+语音风格变化)巧妙隔离了文本与声学信息的贡献,实验全面(覆盖12个主流模型)。然而,作为一项纯评估工作,其核心贡献在于“发现差距”而非“提供解决方案”,且基准本身的构建依赖于现成的语音合成工具(如Doubao TTS、GPT-4o)和人工标注,通用性和抗偏倚能力有待更广泛的验证。 🔗 开源详情 代码:论文中提及项目网站 https://hlt-cuhksz.github.io/EchoMind/,并承诺将提供代码,但未给出具体代码仓库链接。 模型权重:不适用。本论文是评估基准,不提出新模型。 数据集:论文明确表示将公开所有构建的数据(音频文件、元数据、标注协议)。获取方式预计通过上述项目网站。 Demo:论文中未提及在线演示。 复现材料:论文承诺提供复现所需的数据、代码和实验配置。附录(A-C)详细描述了数据集构建、任务设计、评估指标、实验设置(提示模板、人工评估流程)等细节,为复现提供了充分信息。 论文中引用的开源项目:主要依赖以下开源工具/模型进行评估:Audio Flamingo 3 (Goel et al., 2025), DeSTA2.5-Audio (Lu et al., 2025), VITA-Audio (Long et al., 2025), LLaMA-Omni2 (Fang et al., 2025), Baichuan-Omni-1.5 (Li et al., 2025), GLM-4-voice (Zeng et al., 2024), OpenS2S (Wang et al., 2025c), Qwen2.5-Omni-7B (Xu et al., 2025), Kimi-Audio (KimiTeam et al., 2025), Step-Audio (Huang et al., 2025b), EchoX (Zhang et al., 2025), GPT-4o-Audio (OpenAI, 2024)。以及用于评估的指标模型:Qwen3-Embedding-0.6B, emotion2vec, Gemini-2.5-Pro。 📌 核心摘要 要解决的问题:现有的语音大模型(SLM)基准测试往往孤立地评估语言理解、声学识别或对话能力,缺乏对模型整合非词汇声学线索(如韵律、情绪、生理信号)以实现共情对话能力的系统性评估。 方法核心:提出了EchoMind基准,这是一个模拟人类共情对话认知过程的层次化评估框架,包含三个相互关联的任务层级:(1)内容与语音理解;(2)整合推理;(3)共情对话生成。所有任务共享语义中性、无情感线索的对话脚本,并通过控制不同的语音风格(目标、替代、中性)来隔离语音表达本身的影响。 与已有方法相比新在哪里:EchoMind是首个专注于评估SLM共情能力、且任务间具有关联性的多层级基准。其创新点在于:(a) 构建了覆盖3大维度、12个细分类别、39种声学属性的共情导向评估框架;(b) 设计了从感知到推理再到生成的递进式任务链,并确保任务共享上下文以支持跨层级相关性分析;(c) 引入了针对对话生成响应的多维度(文本和音频)评估指标。 主要实验结果:对12个先进SLM的测试表明,即使是SOTA模型(如GPT-4o-Audio)也难以在生成响应中有效利用高表现力的声学线索。例如,在依赖声学线索的文本评估维度“语音信息相关性”(CSpeechRel)上,没有任何模型的平均分超过4分(满分5分)。音频层面的“声乐共情得分”(VES)也普遍较低。模型在“语音风格检测”和“背景声音检测”等理解任务,以及“先行事件推断”和“共情响应选择”等推理任务上表现尤其薄弱。 实际意义:该基准为评估和推动SLM向具备真正情感智能的对话系统发展提供了标准化工具,揭示了当前模型在指令遵循、对自然语音变体的鲁棒性以及有效利用声学线索方面的普遍短板,指明了未来研究方向。 主要局限性:a) 基准构建高度依赖TTS合成语音,虽然提供了人工录制子集进行对比,但合成语音的自然度和表现力可能存在上限;b) 评估主要依赖自动化指标(包括用大模型评分),虽然进行了人工评估验证,但主观评估成本高,难以大规模进行;c) 作为评估工作,其本身并不提出解决模型共情能力不足的新方法。 🏗️ 模型架构 本文提出的EchoMind并非一个AI模型,而是一个评估基准框架。其核心是设计一个模拟人类共情对话认知过程的评估流水线。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 261 words

EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

📄 EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning #语音情感识别 #强化学习 #语音大模型 #数据集 #可解释AI 🔥 8.0/10 | 前25% | #语音情感识别 | #强化学习 | #语音大模型 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Dingdong Wang (香港中文大学、微软) 通讯作者:未明确说明 作者列表:Dingdong Wang (香港中文大学、微软), Shujie Liu (微软), Tianhua Zhang (未说明), Youjun Chen (未说明), Jinyu Li (微软), Helen Meng (香港中文大学) 💡 毒舌点评 亮点在于将RL范式引入语音情感推理,并提出了一个新颖的“渐进式信任感知”奖励机制来约束推理过程,思路清晰且具有启发性。短板在于其核心的“推理质量”高度依赖一个由合成数据训练的奖励模型和GPT-4o的自动评估,这种“用AI评AI”的闭环验证其可靠性和泛化性仍需更多元的外部检验。 🔗 开源详情 代码:论文提供了项目主页和GitHub仓库链接(https://github.com/dingdongwang/EmotionThinker)。 模型权重:论文中未明确说明是否会开源EmotionThinker或EmotionThinker-Base的模型权重。 数据集:论文构建了EmotionCoT-35K数据集,并描述了构建方法,预计会公开。 Demo:未提及。 复现材料:在附录中提供了详细的数据构建流程、模型训练细节(SFT和RL)、奖励模型训练数据构造、评估prompt等,复现信息较为充分。 依赖的开源项目:论文明确依赖并提及的开源项目包括:Qwen2.5-Omni(骨干模型)、WhiStress(重音检测)、wav2vec 2.0(说话人属性分类)、GPT-4o API(数据合成与评估)。 📌 核心摘要 这篇论文旨在解决当前语音大语言模型(SpeechLLMs)在情感理解上仅进行简单分类、缺乏可解释性推理的问题。论文首次尝试将情感识别(SER)重新定义为一个深度推理问题,并提出EmotionThinker框架。该框架的核心方法包括:1)构建了首个面向语音情感推理的Chain-of-Thought数据集EmotionCoT-35K;2)通过韵律感知的监督微调(SFT)构建了基础模型EmotionThinker-Base,显著提升了模型对音高、能量等韵律线索的感知能力;3)设计了GRPO-PTR强化学习策略,该策略在标准规则奖励(结果准确性)基础上,逐步引入并动态调整一个评估推理过程质量的奖励模型。实验表明,EmotionThinker在IEMOCAP、MELD等多个基准上,情感识别平均准确率达68.89%,推理质量(由GPT-4o评估的4个维度平均分)达3.98,均显著优于对比的16个开源SpeechLLM。该工作的实际意义是推动SER从“是什么”走向“为什么”,为构建可解释、可信赖的情感AI迈出了一步。主要局限性在于其推理监督和评估对大型语言模型的合成数据和自动评分依赖较重。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 229 words

ICLR 2026 - 语音情感识别 论文列表

ICLR 2026 - 语音情感识别 共 5 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 VowelPrompt: Hearing Speech Emotions from Text via Vowel-lev 8.5分 前25% 🥈 AVERE: Improving Audiovisual Emotion Reasoning with Preferen 8.0分 前25% 🥉 Learnable Fractional Superlets with a Spectro-Temporal Emoti 8.0分 前25% 4. EmotionThinker: Prosody-Aware Reinforcement Learning for Exp 8.0分 前25% 5. Speech World Model: Causal State–Action Planning with Explic 7.5分 前25% 📋 论文详情 🥇 VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation 🔥 8.5/10 | 前25% | #语音情感识别 | #强化学习 | #多语言 #大语言模型 ...

2026-05-04 · 更新于 2026-07-03 · 3 min · 637 words

Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition

📄 Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition #语音情感识别 #时频分析 #端到端 🔥 8.0/10 | 前25% | #语音情感识别 | #时频分析 | #端到端 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Alaa Nfissi(数据科学实验室(DOT-Lab), Université TÉLUQ;康考迪亚大学信息系统工程学院(Concordia Institute for Information Systems Engineering)) 通讯作者:未明确说明 作者列表:Alaa Nfissi(数据科学实验室(DOT-Lab), Université TÉLUQ;康考迪亚大学信息系统工程学院)、Wassim Bouachir(数据科学实验室(DOT-Lab), Université TÉLUQ)、Nizar Bouguila(康考迪亚大学信息系统工程学院)、Brian Mishara(魁北克大学蒙特利尔分校心理学系;蒙特利尔自杀、伦理问题及临终实践研究与干预中心) 💡 毒舌点评 这篇论文的亮点在于它不满足于简单地使用或微调现有前端,而是试图从数学原理上重新定义一个更灵活、可学习的时频分析框架(LFST),体现了扎实的信号处理功底和理论建模能力。然而,其主要短板在于计算效率:论文附录的复杂度分析显示,LFST+STEE在FLOPs、延迟和内存占用上远超STFT、LEAF等基线,这使得“紧凑”的STEE编码器所节省的参数优势在端到端系统中可能被前端的计算成本抵消,削弱了其实用吸引力。 🔗 开源详情 代码:论文中明确提供了GitHub代码仓库链接:https://github.com/alaaNfissi/LFST-for-SER。 模型权重:论文中未提及公开的模型权重。 数据集:NSPL-CRISE为私有数据集(经IRB批准使用),论文中未提及公开获取方式。IEMOCAP和EMO-DB为公开数据集,论文中提供了引用。 Demo:论文中未提及在线演示。 复现材料:论文提供了详尽的超参数设置(Table 8)、训练细节(Section 4.2)、算法伪代码(Algorithm 1-3)和技术附录,为复现提供了充分信息。 论文中引用的开源项目:论文未明确提及依赖的外部开源工具或模型(除作为基线对比的方法外)。 📌 核心摘要 要解决什么问题:传统语音情感识别(SER)的前端(如STFT、小波变换)存在固定的时间-频率(TF)分辨率权衡,且参数需人工调优,无法自适应任务需求。已有超小波变换(Superlet)局限于整数阶,存在阶跃伪影。 方法核心:提出可学习分数阶超小波变换(LFST)作为全可微的前端。LFST通过学习每个频带上的分数阶阶数(通过对数域几何平均实现)、单调对数频率网格和频率依赖的基频周期,生成TF幅度图S和相位一致性图κ。结合一个可学习非对称硬阈值(LAHT)模块对S去噪。之后,设计了紧凑的频谱时序情感编码器(STEE),利用深度可分离卷积、混合TF块、自适应FiLM门控和轴向自注意力处理S和κ,输出情感分类。 新在哪里:相比固定前端或先前非可学习的超小波,LFST首次将超小波的阶数、频率网格和周期全部设为可学习参数,并进行了端到端训练。同时,引入了物理意义明确的相位一致性κ通道和LAHT去噪模块,形成了一个理论完备、可数据驱动的TF表示学习框架。 主要实验结果:在IEMOCAP(4类)上,准确率87.5%,F1值86.8%;在EMO-DB(7类)上,准确率91.4%,F1值90.4%;在NSPL-CRISE(5类,电话语音)上,准确率76.9%,F1值76.6%。在与相同STEE编码器下的STFT、小波、固定超小波、LEAF前端对比中,LFST在三个数据集上均取得最佳性能。关键消融显示,在NSPL-CRISE上,移除κ导致F1下降9.7个百分点,移除LAHT下降2.5个百分点。 实际意义:为语音及音频分析提供了一种可学习、可解释、数学基础扎实的TF表示学习前端,可替代传统固定设计,并可能应用于其他需要精细时频分析的场景。 主要局限性:系统计算成本较高,LFST前端的FLOPs和内存占用远高于STFT等轻量级前端,限制了部署。此外,研究未在更大规模、更多语言的数据集上验证,也未与强大的预训练SSL模型进行直接性能对比。 🏗️ 模型架构 整个系统(LFST+STEE)处理流程为:原始波形 → LFST前端 → 两通道TF图(幅度S, 相位一致性κ) → STEE编码器 → 情感类别。所有组件端到端可训练。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 402 words

Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech

📄 Speech World Model: Causal State–Action Planning with Explicit Reasoning for Speech #语音情感识别 #因果图 #显式推理 #语音大模型 #多模态 ✅ 7.5/10 | 前25% | #语音情感识别 | #因果图 | #显式推理 #语音大模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xuanru Zhou (浙江大学), Jiachen Lian (UC Berkeley) (论文明确标注两位作者贡献均等) 通讯作者:未明确说明 作者列表:Xuanru Zhou (浙江大学), Jiachen Lian (UC Berkeley), Henry Hong (UC Berkeley), Xinyi Yang (浙江大学), Gopala Anumanchipalli (UC Berkeley) 💡 毒舌点评 亮点是将认知科学的模块化思想形式化为一个可计算的因果图(WMA, ToM, SA, Prag),并利用其结构化先验显著提升了训练效率和推理能力,为“如何让语音模型像人一样思考”提供了一个新颖的框架。短板在于,该因果图的结构是预定义的,限制了模型对未见依赖关系的适应能力,且完全依赖合成标签训练指令微调阶段,可能成为性能上限的瓶颈。 ...

2026-05-04 · 更新于 2026-07-03 · 3 min · 499 words

VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation

📄 VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation #语音情感识别 #强化学习 #多语言 #大语言模型 🔥 8.5/10 | 前25% | #语音情感识别 | #强化学习 | #多语言 #大语言模型 学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Yancheng Wang(Arizona State University; Meta Superintelligence Labs) 通讯作者:Osama Hanna(Meta Superintelligence Labs,基于邮箱推测) 作者列表: Yancheng Wang (Arizona State University, Meta Superintelligence Labs) Osama Hanna (Meta Superintelligence Labs) Ruiming Xie (Meta Superintelligence Labs) Xianfeng Rui (Meta Superintelligence Labs) Maohao Shen (Massachusetts Institute of Technology; Meta Superintelligence Labs) Xuedong Zhang (Meta Superintelligence Labs) Christian Fuegen (Meta Superintelligence Labs) Jilong Wu (Meta Superintelligence Labs) Debjyoti Paul (Meta Superintelligence Labs) Arthur Guo (Meta Superintelligence Labs) Zhihong Lei (Meta Superintelligence Labs) Ozlem Kalinli (Meta Superintelligence Labs) Qing He (Meta Superintelligence Labs) Yingzhen Yang (Arizona State University) 💡 毒舌点评 亮点在于从语音学常识(元音承载韵律)出发,设计了一套精巧且可解释的“翻译”流程,将隐晦的语音信号转化为LLM能读的文本,比直接灌入黑盒音频嵌入“高级”不少。短板则是其效果高度依赖强制对齐的准确性,对于口音重、背景噪或语速极快的语音,这套“元音显微镜”可能会失灵,且忽略辅音区域可能存在的互补情感线索(如送气、鼻化)。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 335 words

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

📄 EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models #基准测试 #语音大模型 #语音对话系统 #模型评估 #语音情感识别 🔥 8.5/10 | 前25% | #基准测试 | #模型评估 | #语音大模型 #语音对话系统 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Li Zhou(香港中文大学(深圳)) 通讯作者:Benyou Wang(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院), Haizhou Li(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院) 作者列表:Li Zhou(香港中文大学(深圳)), Lutong Yu(香港中文大学(深圳)), You Lyu(香港中文大学(深圳)), Yihang Lin(香港中文大学(深圳)), Zefeng Zhao(香港中文大学(深圳)), Junyi Ao(香港中文大学(深圳)), Yuhao Zhang(香港中文大学(深圳)), Benyou Wang(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院), Haizhou Li(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院) 💡 毒舌点评 这篇论文的价值在于它清晰地揭示了当前语音大模型在“听懂弦外之音”并“有温度地回应”上的集体短板,其精心设计的控制变量实验(中性文本搭配不同语音风格)是评估共情能力的关键创新。不过,作为一项评估基准研究,它本身并未提出新的模型架构或训练方法,其核心贡献是提出了问题并提供了标尺,解决问题的下一步还需依赖后续的模型开发工作。 🔗 开源详情 代码:论文中提及将提供代码,但未在提供的文本中给出具体代码仓库链接。 模型权重:未提及。该工作评估的是现有模型,未提出新模型。 数据集:论文明确承诺将发布EchoMind(TTS版和人工录音版)的所有数据、元数据及标注协议。获取方式未具体说明(预计会开源)。 Demo:未提供在线演示信息。 复现材料:论文附录详细说明了音频输入统计(A.1)、对话数据示例(A.2)、人工录音细节(A.3)、MCQ构建示例(A.4)以及所有评估指标的定义和标准(B.2, B.4),为复现评估流程提供了充分信息。 引用的开源项目:论文在数据构建和评估中使用了多种开源或公开工具/模型,包括: TTS:Doubao TTS API(火山引擎), GPT-4o-mini-TTS(OpenAI) 语音/音频模型:emotion2vec(Ma et al., 2024), Gemini-2.5-Pro(Comanici et al., 2025) 评估工具:NISQA, UTMOS, BERTScore, Qwen3-Embedding-0.6B 数据集:AudioCaps(Kim et al., 2019) 总结:论文承诺开源核心数据与代码,并提供了详尽的构建与评估细节,开源计划较为明确。 📌 核心摘要 要解决什么问题:现有的语音大模型(SLM)评估基准通常孤立地评估语言理解、声学识别或对话能力,缺乏一个能够系统性评估模型在整合非语言语音线索(如情感、副语言、环境音)进行共情对话能力的统一框架。 方法核心是什么:提出EchoMind,一个关联的多层级基准,模拟人类共情对话的认知过程,包含三个连续任务层级:语音内容理解(ASR & MCQ)、语音线索感知(MCQ)、集成推理(MCQ)和开放式共情对话生成。所有任务使用语义中性的相同脚本,但配以不同的语音风格(目标表达、中性、替代表达),以隔离和测试语音表达本身的影响。 与已有方法相比新在哪里:EchoMind是首个将理解、推理、对话三个评估层级通过共享上下文(相同脚本+不同语音)关联起来的基准,支持对模型内部认知链的端到端分析。它构建了一个覆盖3大类、12小类、39个具体语音属性的共情框架,并设计了多维度的评估指标(包括音频级的情感对齐度)。 主要实验结果如何:对12个先进SLM的测试表明: 模型在文本内容理解上表现良好(如WER和SemSim分数较高),但在语音线索理解和推理上能力参差不齐,闭源模型GPT-4o-Audio通常优于开源模型。 在开放式对话生成中,尽管回复在上下文相关性、自然度等方面得分尚可,但在需要利用语音线索来调整回复语气和情感的维度(CSpeechRel, VES)上得分普遍不高,最高分也未超过4/5。 人工评估验证了自动指标的有效性,并发现即使是GPT-4o-Audio,其回复的语音风格也与人工期望存在差距。 分析揭示了模型对提示词敏感、对人声的鲁棒性弱于合成语音,以及当提供理想语音线索信息时,模型的共情回复潜力(上界)会显著提升。 模型 语音理解准确率(%) 推理准确率(%) 对话-VES分数 对话-CSpeechRel分数 GPT-4o-Audio 66.25 68.04 3.34 3.42 Qwen2.5-Omni-7B 60.87 57.70 3.24 2.92 Step-Audio 40.74 45.90 3.20 3.09 (其他11个模型数据见论文表4) 表1:关键指标对比摘录(模型、语音理解、推理、对话相关主观分数)。数据来源:论文表4。 ...

2026-05-02 · 更新于 2026-07-03 · 2 min · 287 words

EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

📄 EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning #语音情感识别 #强化学习 #语音大模型 #数据集 🔥 8.0/10 | 前25% | #语音情感识别 | #强化学习 | #语音大模型 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Dingdong WANG (1, 2*) (1: 香港中文大学; 2: 微软) 通讯作者:Helen M. Meng (1) (香港中文大学) 作者列表:Dingdong WANG (香港中文大学,微软), Shujie LIU (微软), Tianhua Zhang (香港中文大学), Youjun Chen (香港中文大学), Jinyu Li (微软), Helen M. Meng (香港中文大学) 💡 毒舌点评 论文将语音情感识别从“贴标签”重构为“讲道理”,引入强化学习监督推理过程,思路清晰且新颖,提出的GRPO-PTR方法有效缓解了奖励黑客问题。然而,其核心的“情感CoT-35K”数据集高度依赖GPT-4o合成与自动化标注管线,情感推理的“真实性”与“泛化性”存疑;此外,强化学习训练的稳定性与超参数敏感性也是一大挑战,论文中的消融实验虽已说明,但实际落地调参难度可能被低估。 ...

2026-05-02 · 更新于 2026-07-03 · 2 min · 251 words

Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition

📄 Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition #语音情感识别 #时频分析 #端到端 #音频分类 ✅ 7.5/10 | 前25% | #语音情感识别 | #时频分析 | #端到端 #音频分类 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Alaa Nfissi (Concordia University, Concordia Institute for Information Systems Engineering; Université TÉLUQ, Data Science Laboratory (DOT-Lab)) 通讯作者:Brian L. Mishara (University of Québec at Montréal, Psychology Department; Center for Research and Intervention on Suicide, Ethical Issues and End-of-Life Practices)(根据作者列表顺序及机构性质推断) 作者列表:Alaa Nfissi(Concordia University, Université TÉLUQ)、Wassim Bouachir(Université TÉLUQ, Data Science Laboratory (DOT-Lab))、Nizar Bouguila(Concordia University, Concordia Institute for Information Systems Engineering)、Brian L. Mishara(University of Québec at Montréal, Psychology Department; Center for Research and Intervention on Suicide, Ethical Issues and End-of-Life Practices) 💡 毒舌点评 这篇论文将经典的信号处理理论(Superlet)与现代可微学习框架结合得堪称教科书级别,数学推导和实验设计都非常严谨扎实,特别是那张展示学习到的分数阶分布与频率关系的可视化图(图5)非常直观地展示了模型的“可解释性”。但其短板在于,以“紧凑”为名的STEE编码器在搭配LFST前端后,实际计算开销(FLOPs、延迟、显存)远高于STFT、LEAF等基线(见附录表5),这使得“高效”二字在实时或资源受限场景下需要打上问号,论文在“效率-性能”权衡的讨论上稍显不足。 ...

2026-05-02 · 更新于 2026-07-03 · 2 min · 329 words