MindMelody: A Closed-Loop EEG-Driven System for Personalized Music Intervention

📄 MindMelody: A Closed-Loop EEG-Driven System for Personalized Music Intervention #音乐生成 #音乐信息检索 #预训练 #多模态模型 #大语言模型 ✅ 7.0/10 | 前50% | #音乐生成 | #预训练 | #音乐信息检索 #多模态模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(论文声明Yimeng Zhang, Yueru Sun, Haoyu Gu贡献相等) 通讯作者:未说明 作者列表:Yimeng Zhang(华南理工大学)、Yueru Sun(华南理工大学)、Haoyu Gu*(华南理工大学) 💡 毒舌点评 亮点:论文提出了一个完整且逻辑清晰的“EEG-情感-干预计划-音乐生成”闭环框架,巧妙地引入“情感中介”来规避直接EEG-音乐映射的对齐难题,工程集成度高。 短板:核心用户研究仅在小规模(未说明具体人数)的短期实验内进行,缺乏临床有效性和长期效果验证;且系统严重依赖未公开的知识库和特定闭源大模型(Qwen2.5),限制了可复现性与独立验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中提及使用了公开的DEAP数据集(用于EEG情感建模)和MusicCaps数据集(用于音乐-文本数据,论文中使用了其2000个片段的子集进行情感标注)。论文中未提供这两个数据集的具体下载链接。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点等具体的复现材料链接。 论文中引用的开源项目: DEAP (Dataset for Emotion Analysis using Physiological Signals):论文中提及的公开EEG情感数据集,无具体链接。 MusicCaps:论文中提及的公开音乐-文本数据集,无具体链接。 MusicGen-medium (1.5B):论文中提及用作预训练音乐生成骨干的模型,无具体链接。 Qwen2.5-7B-Instruct:论文中提及作为干预规划器中使用的大语言模型,无具体链接。 CLAP:论文中提及的用于文本和音频对齐的模型,无具体链接。 JASCO:论文中提及的用于可控音乐生成的模型,无具体链接。 补充信息 [模型架构] 补充:论文明确指出,局部情感轨迹(local affect trajectory)的训练采用了弱监督学习。这是因为原始数据集(如DEAP)仅提供试次(trial)级别的效价-唤醒度标注,而非连续的片段级标注。因此,系统通过构造与全局标签一致性的弱监督信号,来学习EEG片段内部细粒度的情感时序变化。这是一个关键的设计动机,直接针对EEG数据标注稀疏的核心挑战。 [细节详述] 补充:论文在描述用于音乐生成辅助监督的MusicCaps子集标注时,强调了标注流程的规范性以确保数据质量。具体包括:向标注员提供书面说明和低/高效价、低/高唤醒度的锚点示例;音乐片段以随机顺序呈现;最终标签取三名标注员评分的平均值。此外,论文指出该标注子集涵盖了MusicCaps中多样化的流派和乐器编排模式,有助于减少模型训练时的风格偏差(style-specific bias),增强了辅助监督数据的可靠性。 [作者与机构] 补充:论文致谢部分提及该工作由本科生创新创业国家级训练计划(项目编号:202510561174) 支持。 📌 核心摘要 要解决什么问题:现有数字音乐服务依赖静态偏好,无法根据用户的实时心理状态(如压力、焦虑)进行自适应调整,难以满足个性化心理干预的需求。 方法核心是什么:构建一个名为MindMelody的闭环系统。其核心是“情感中介”策略:首先使用混合Transformer-GNN模型从实时EEG信号中解码全局效价-唤醒度(VA)状态和局部情感轨迹;接着,将这些状态输入到一个配备了检索增强生成(RAG)技术的大语言模型(LLM),生成结构化的音乐干预计划(包括节奏、动态等);最后,通过一个分层的EEG控制器,将这些控制条件注入到预训练的音乐生成模型(MusicGen)中,合成音乐,并根据用户反馈的EEG变化持续更新参数,形成闭环。 与已有方法相比新在哪里:不同于直接映射EEG到波形(数据稀疏且不可解释)或静态推荐,MindMelody引入了层次化的语义桥梁(情感解码 -> 语言计划 -> 层次化音乐控制),并通过闭环反馈机制实现了动态适应。其分层控制器能同时处理全局情感方向和局部时序变化,提升了可控性。 主要实验结果如何:在自动评估中,完整模型在情感对齐(Emo-MSE: 0.082)、动态一致性(Dyn-Corr: 0.63)和计划符合度(Plan-Cons: 0.78)上均优于基线。在包含人类选择歌单、纯文本、文本+静态VA等条件的主观评估中,MindMelody在情感匹配度(Emo.-MOS: 4.21)、感知帮助性(Help.: 4.18)、效价提升(ΔValence: 0.22)和唤醒度偏差(Aro.-Dev.: 0.14)方面取得最佳表现。其在DEA数据集上的跨被试情感解码精度分别为效价76.8%,唤醒度72.4%。 实际意义是什么:该工作为利用可穿戴生理传感设备(如EEG)进行实时、自适应的数字音乐情绪干预提供了一个完整的技术框架和概念验证,展示了脑机接口与生成式AI结合在心理健康领域的应用潜力。 主要局限性是:用户研究规模较小且为短期实验,缺乏临床对照和长期效果验证;系统依赖未公开的音乐治疗知识库和特定大模型,通用性和可复现性受限;情感解码的跨被试泛化能力仍是挑战。 🏗️ 模型架构 MindMelody系统是一个端到端的闭环框架,其整体架构如图2所示,包含三个核心模块:情感编码器(Affect Encoder)、干预计划器(Intervention Planner)和EEG控制模块(EEG Control Module)。 ...

2026-05-05 · 更新于 2026-06-19 · 2 min · 331 words

Mitigating Multimodal LLMs Hallucinations via Relevance Propagation at Inference Time

📄 Mitigating Multimodal LLMs Hallucinations via Relevance Propagation at Inference Time #多模态模型 #对比学习 #跨模态 #模型评估 ✅ 7.5/10 | 前25% | #多模态幻觉缓解 | #推理时优化 | #多模态模型 #对比学习 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Itai Allouche(Technion, Israel, 电气与计算机工程系) 通讯作者:Joseph Keshet(Technion, Israel, 电气与计算机工程系) 作者列表:Itai Allouche(Technion, Israel, 电气与计算机工程系)、Joseph Keshet(Technion, Israel, 电气与计算机工程系) 💡 毒舌点评 亮点:这篇工作成功地将视觉领域的幻觉缓解方法无缝扩展到了音频领域,且实验设计严谨,对比基线全面,说服力较强。 短板:推理时每个token都要做多次梯度优化,导致速度慢近10倍,这在实际部署中可能是致命伤,论文对如何权衡这一开销讨论不足。 🔗 开源详情 代码: https://github.com/ItaiAllouche/lime 模型权重: 论文中未提供具体下载链接。论文使用了以下预训练开源模型:LLaVA-1.5-7B, Qwen-VL-Chat, Qwen2.5-VL-7B-Instruct, SALMONN-7B, Qwen2-Audio-7B-Instruct。 数据集: 论文中未提供数据集下载链接。论文在评估中使用了以下公开数据集:MSCOCO, A-OKVQA, POPE (基于MSCOCO和A-OKVQA构建), CHAIR (基于MSCOCO), AIR-Bench, Audio Hallucination QA, DCASE 2019 Task 4。 Demo: 论文中未提及。 复现材料: 论文在附录B.2中提供了详细的超参数设置表(表A.1),包括每个模型的优化步数、学习率、KL权重和温度参数。未提及提供预训练检查点或完整训练代码。 论文中引用的开源项目: OPERA: 论文引用了方法[12],未提供具体链接。 Visual Contrastive Decoding (VCD): 论文引用了方法[18],未提供具体链接。 Instruction Contrastive Decoding (ICD): 论文引用了方法[35],未提供具体链接。 MemVR: 论文引用了方法[40],未提供具体链接。 V-ITI: 论文引用了方法[31],未提供具体链接。 Audio-Aware Decoding (AAD): 论文引用了方法[11],并指出其作者未发布代码。 AttnLRP (Attention-Aware Layer-wise Relevance Propagation): 论文引用了框架[1],未提供具体链接。 CLIP: 论文引用了模型[27],未提供具体链接。 LLaMA: 论文引用了模型[33],未提供具体链接。 Qwen: 论文引用了模型[4],未提供具体链接。 Vicuna: 论文引用了模型[7],未提供具体链接。 Whisper: 论文引用了模型[28],未提供具体链接。 Adam Optimizer: 论文引用了优化器[15],未提供具体链接。 GPT-4: 论文在附录B.1中提及使用GPT-4作为AIR-Bench的评估器,但GPT-4是闭源的。 补充信息 [模型架构] 补充:论文在附录A中详细阐述了用于计算Token级相关性的AttnLRP(Attention-Aware Layer-wise Relevance Propagation) 框架的具体传播规则。这包括:LRP-z规则、LRP-ε规则(用于稳定传播)、通过softmax的传播规则、通过注意力-值矩阵乘积的分解规则,以及对LayerNorm/RMSNorm层的近似恒等映射处理。这些是LIME方法中可解释性信号的技术基础,分析中仅概括提及“基于LRP”,未展开此技术细节。 [细节详述] 补充:1) 超参数具体值:分析中提及学习率为“3e-5 ~ 5e-5(模型相关)”,原文表A.1给出了具体值:LLaVA-1.5-7B为3e-4,Qwen-VL-Chat为4e-4,SALMONN-7B为3e-4,Qwen2-Audio-7B为5e-4。2) 消融实验具体结果:分析中仅提及“联合修改K和V效果最好”,原文图5的曲线还显示了:在不同λ下,仅修改ΔK、仅修改ΔV、修改ΔKV三者的性能趋势。尤其在Qwen2-Audio模型上,λ过小(如1e-4)时性能显著下降,证明了KL正则化权重的关键作用。3) 优化器细节:论文明确说明使用Adam优化器进行所有推理时优化步骤。 [实验结果] 补充:1) 更完整的POPE基线对比:分析中仅列出了LLaVA-1.5-7B在MSCOCO上的结果。原文表A.3和表A.4补充了Qwen-VL-Chat、Qwen2.5-VL-7B-Instruct在MSCOCO和A-OKVQA数据集上的结果,以及LLaVA-1.5-7B在A-OKVQA上的结果,提供了更全面的跨模型、跨数据集对比。2) 与SOTA的具体差距数值:在POPE(LLaVA-1.5-7B, MSCOCO)上,LIME的平均准确率(87.89%)比最强基线MemVR(86.93%)高出0.96个百分点;在CHAIR_S上,LIME(42.7%)比MemVR(46.6%)降低了3.9个百分点。在Audio Hallucination QA(Qwen2-Audio-7B, 随机分片)上,LIME的F1(36.85%)显著高于AAD(18.78%)。 [评分/标签] 补充:主方法标签建议从“#对比学习”调整为更准确的“#推理时KV优化”或“#相关性传播”。因为LIME的核心是通过优化KV扰动来调整相关性,对比学习思想仅用于定义相关性目标函数(式2),并非主要技术手段。 📌 核心摘要 要解决的问题:多模态大语言模型在推理时容易产生幻觉,即生成与输入视觉或音频证据不符的内容。根本原因是文本token在生成过程中占据主导地位,而感知模态token未被充分利用。 方法核心:提出LIME,一个无需训练的推理时框架。其核心是利用层相关性传播(LRP)量化每个token对输出的贡献,并定义一个基于相关性的目标函数,通过优化模型关键值(KV)表示的加性扰动(ΔKV),在解码时动态增强感知模态token的贡献权重。 与已有方法相比新在哪里:现有训练无关方法多基于启发式规则(如惩罚主导token)或对比解码,未直接量化和干预模态token的贡献。LIME首次使用LRP作为信号,在推理时直接优化内部表示(KV),以显式地重新平衡模态与文本token的影响力,同时保持KL散度以稳定原始模型行为。 主要实验结果:在视觉(POPE, CHAIR)和音频(Audio Hallucination QA, AIR-Bench)的多个基准测试上,LIME一致减少了幻觉并提升了准确性。例如,在POPE(LLaVA-1.5-7B, MSCOCO)上,LIME将平均准确率从79.83%提升至87.89%;在CHAIR上,将CHAIRS从52%降至42.7%。在音频任务上,同样显著优于基线模型和AAD方法。 实际意义:提供了一种通用的、即插即用的推理时增强策略,可直接应用于已训练好的多模态大模型,提升其可靠性和事实依据,对于构建可信AI系统有直接价值。 主要局限性:推理时需要为每个生成token进行多次优化步,引入了显著的计算开销(速度降低约9倍),限制了在延迟敏感场景的应用。此外,需要针对不同模型和任务调整超参数(如λ, τ)。 🏗️ 模型架构 本论文并未提出一个新的端到端模型架构,而是提出了一种推理时干预方法(LIME),应用于现有的多模态大语言模型(MLLM)。其核心思想是在模型生成过程中,动态调整中间表示,而非修改模型参数。 ...

2026-05-05 · 更新于 2026-06-19 · 2 min · 389 words

Multimodal Confidence Modeling in Audio-Visual Quality Assessment

📄 Multimodal Confidence Modeling in Audio-Visual Quality Assessment #音视频 #多模态模型 #模型评估 ✅ 7.0/10 | 前25% | #音视频 | #多模态模型 | #模型评估 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Mayesha Maliha R. Mithila(论文中未说明其所属机构) 通讯作者:未说明 作者列表:Mayesha Maliha R. Mithila(未说明)、Mylene C. Q. Farias(未说明) 💡 毒舌点评 本文最大的亮点在于将“模态置信度”从模糊的心理学概念,落地为一个可端到端训练、并能显式调控特征级融合的模块,使模型在“一边瞎一边瞎”的极端场景下依然表现稳健,这比简单堆叠注意力要聪明得多。然而,论文在创新性上略显“缝合”,将已有的MVAD、SCOREQ、Swin等工具进行组合,虽有效但不够性感;更关键的是,在音频/视频质量评估这样一个结果高度依赖主观标注的领域,仅在有限数据集上宣称SOTA,离解决泛化与工业化部署的鸿沟还差得远。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中提及了三个AVQA数据集:UnB-AV、UnB-AVQ和LIVE-SJTU。但论文中未提供这些数据集的获取链接。 Demo:论文中未提及 复现材料:论文中未提供检查点或附录链接,但提供了详细的训练配置细节,包括:使用Swin-Small和VGGish作为特征提取器;每视频均匀采样8帧;数据集划分比例为70:15:15(训练:验证:测试);使用Adam优化器,学习率为5×10⁻⁵,批量大小为6,L2权重衰减为5×10⁻³;采用早停策略,耐心为20轮;训练损失为MSE与PCC损失(权重λ=0.15)之和;所有结果在3个随机种子上取平均。 论文中引用的开源项目: Swin Transformer:论文中作为视觉特征提取骨干网络使用,但未提供项目主页链接。 VGGish:论文中作为音频特征提取器使用,但未提供项目主页链接。 补充信息 根据对深度分析结果与论文原文的仔细比对,发现现有分析遗漏了以下对理解论文有重要价值的信息: 模型架构 补充:论文中明确指出,其置信度引导的音视频混合器(AVM)的注意力权重计算(公式6:α = σ(qₐ ⊙ k_v^gated))采用了逐元素乘法,而非标准的注意力矩阵乘法。这种设计直接生成通道特异性的注意力权重,避免了计算复杂度高的矩阵乘法,并实现了对每个特征通道的独立调制。 实验结果 补充:在UnB-AV数据集的统计显著性分析中(表2),论文给出了MCM-AVQA与最佳基线Nave+w2v的绝对预测误差均值差异为0.054,并提供了详细的p值(如配对t检验p=2.1×10⁻³)。这一具体数值量化了MCM-AVQA的优势程度。 细节详述 补充:在训练策略部分,论文原文明确指出视频输入是“均匀采样8帧”(uniformly sampled frames per video (e.g. 8))进行处理。这是模型实现中的一个关键超参数。 📌 核心摘要 本文针对音视频质量评估(AVQA)在现实流媒体场景中常面临的“不对称失真”(如视频损坏但音频清晰,或反之)问题,指出现有方法多平等对待两种模态,导致不可靠信号被过度依赖。为此,论文提出了一个名为MCM-AVQA的多模态置信度感知框架。其核心方法是显式估计音频和视频各自的“置信度”分数,并利用一个定制的“音视频混合器”将该置信度注入到特征级的跨模态注意力机制中,通过置信度门控的通道注意力来调制特征交互,使得高置信度模态主导融合,低置信度输入被抑制。与已有方法(如NAViDAd的自动编码器、注意力晚期融合)相比,MCM-AVQA的新颖之处在于将置信度建模为驱动特征融合的核心信号,而非仅在决策层加权。在LIVE-SJTU、UnB-AV和UnB-AVQ三个AVQA基准数据集上的实验表明,MCM-AVQA在PLCC和SROCC指标上取得了最优或极具竞争力的结果。消融研究证实,其置信度引导的音视频混合器及置信度估计模块是性能提升的关键。该工作的实际意义在于提升了AVQA模型在真实、非理想条件下的鲁棒性和可解释性。其主要局限性可能在于:置信度模块(MVAD, SCOREQ)的依赖引入了额外的预训练模型和计算复杂度;模型在更广泛、更复杂的失真类型或场景下的泛化能力有待进一步验证。 ...

2026-05-05 · 更新于 2026-06-19 · 3 min · 433 words

MultiSense-Pneumo: A Multimodal Learning Framework for Pneumonia Screening in Resource-Constrained Settings

📄 MultiSense-Pneumo: A Multimodal Learning Framework for Pneumonia Screening in Resource-Constrained Settings #多模态模型 #领域适应 #医疗应用 #低资源 #音频分类 ✅ 6.5/10 | 前50% | #肺炎筛查 | #多模态融合 | #多模态模型 #领域适应 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Dineth Jayakody(Old Dominion University, Department of Computer Science) 通讯作者:未说明 作者列表:Dineth Jayakody(Old Dominion University, Department of Computer Science)、Pasindu Thenahandi(Old Dominion University, Department of Computer Science)、Chameli Dommanige(Old Dominion University, Department of Computer Science) 💡 毒舌点评 亮点在于其务实的“工程师思维”——将多种异构模态(症状、咳嗽、语音、影像)整合成一个可解释、可离线运行的端到端筛查管线,非常契合题目所强调的“资源受限”部署场景。短板是部分核心模块(如咳嗽分析)性能较弱,且整体框架缺乏在真实配对多模态数据集上的端到端联合训练与评估,更像一个精心设计的原型演示,而非在方法论或性能上具有突破性的研究。 ...

2026-05-05 · 更新于 2026-06-19 · 2 min · 386 words

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

📄 OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models #数据集 #多模态模型 #海洋科学 #知识图谱 #基准测试 ✅ 7.0/10 | 前25% | #数据集 | #知识图谱 | #多模态模型 #海洋科学 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yida Xue (徐一达) (浙江大学计算机科学与技术学院, 软件技术学院) 通讯作者:Ningyu Zhang (张宁钰) (浙江大学计算机科学与技术学院), Guozhou Zheng (郑国舟) (舟山海洋研究中心) 作者列表:Yida Xue (浙江大学计算机科学与技术学院, 软件技术学院)、Ningyu Zhang (浙江大学计算机科学与技术学院)、Tingwei Wu (浙江大学计算机科学与技术学院, 软件技术学院)、Zhe Ma (浙江大学计算机科学与技术学院)、Daxiong Ji (软件技术学院)、Zhao Wang (软件技术学院)、Guozhou Zheng (舟山海洋研究中心)、Huajun Chen (浙江大学计算机科学与技术学院, 海洋感知国家重点实验室) 💡 毒舌点评 论文构建了一个非常全面且质量控制严格的海洋领域多模态数据集,从教科书到实地采集数据无所不包,是海洋AI领域一项扎实的基础工程。然而,实验部分仅展示了在开源小模型上微调的性能提升,缺乏更大规模模型预训练或与更多SOTA模型的直接比较,使得“基础模型”这一宏大目标的论证稍显薄弱。 ...

2026-05-05 · 更新于 2026-06-19 · 2 min · 302 words

PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention

📄 PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention #多模态讽刺检测 #对比学习 #图神经网络 #多模态模型 #语音情感识别 🔥 8.0/10 | 前25% | #多模态讽刺检测 | #对比学习 | #图神经网络 #多模态模型 | arxiv 学术质量 6.2/7 | 选题价值 1.0/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Maoheng Li(澳门科技大学计算机科学与工程学院) 通讯作者:Ling Zhou(澳门科技大学计算机科学与工程学院),Xiaohua Huang(南京工程学院欧路学院) 作者列表: Maoheng Li(澳门科技大学计算机科学与工程学院) Ling Zhou(澳门科技大学计算机科学与工程学院) Xiaohua Huang(南京工程学院欧路学院) Rubing Huang(澳门科技大学计算机科学与工程学院,澳门科技大学珠海研究院) Wenming Zheng(东南大学儿童发展与学习科学教育部重点实验室,东南大学生物科学与医学工程学院) Guoying Zhao(芬兰奥卢大学机器视觉与信号分析中心) 💡 毒舌点评 这篇论文在针对讽刺检测任务的“矛盾建模”思路上做出了精巧的设计,极性调制注意力机制堪称“对症下药”,比简单拼接或计算相似性的方法高明不少。然而,其性能严重依赖于提供的连续情感值(Valence)标签进行冷启动,这在现实场景中往往是稀缺甚至不存在的监督信号,极大地限制了该模型的通用性和可迁移性。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中提及了以下数据集,但未提供具体下载链接。 MUStARD [3] MUStARD++ [22] MUStARD++ Balanced [37] Demo:论文中未提及 复现材料:论文提供了详细的实现细节,包括模型架构、超参数设置(如编码维度 d_enc=512,极性空间维度 d_p=16,图卷积层数 L_mac=2,上下文窗口 J=3 等)以及优化策略(两阶段优化、损失权重 λ_val=1.0, λ_cls=0.2, λ_con=0.8 等),这些信息构成了复现材料。但未提供预训练检查点或完整配置文件的直接链接。 论文中引用的开源项目: BERT:论文中使用了BERT-large模型。主要开源仓库:https://github.com/huggingface/transformers Wav2Vec 2.0:论文中使用了Wav2Vec 2.0-base模型。主要开源仓库:https://github.com/facebookresearch/wav2vec2 和 https://github.com/huggingface/transformers YOLOv8:论文中用于视觉目标检测。主要开源仓库:https://github.com/ultralytics/ultralytics CLIP:论文中使用了CLIP ViT-B/32模型。主要开源仓库:https://github.com/openai/CLIP 和 https://github.com/huggingface/transformers GPT-4o:作为基线模型被比较,但论文未提供其使用代码链接。 Llama 3-8B:作为基线模型被比较。主要开源仓库:https://github.com/meta-llama/llama Qwen 2-7B:作为基线模型被比较。主要开源仓库:https://github.com/QwenLM/Qwen2 论文中提到的其他基线模型(如ESAM [33])的代码,论文作者在文中提到“我们显式复现了最近的ESAM [33]模型”,但未提供具体链接。 补充信息 以下是对已有分析结果的补充,这些信息在原始全文中有明确陈述,但未在深度分析中得到体现。 ...

2026-05-05 · 更新于 2026-06-19 · 3 min · 464 words

The 2026 ACII Dyadic Conversations (DaiKon) Workshop & Challenge

📄 The 2026 ACII Dyadic Conversations (DaiKon) Workshop & Challenge #语音情感识别 #多模态模型 #数据集 #基准测试 #多语言 ✅ 7.0/10 | 前50% | #语音情感识别 | #多模态模型 | #数据集 #基准测试 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文列出了多位作者,但未明确排序或指明第一作者) 通讯作者:未说明(论文未明确指出通讯作者) 作者列表:Panagiotis Tzirakis(未说明)、Alice Baird(未说明)、Jeffrey Brooks(未说明)、Emilia Parada-Cabaleiro(未说明)、Lukas Stappen(未说明)、Sharath Rao(未说明)、Theo Lebryk(未说明)、Jakub Piotr Cłapa(未说明)、Jens Madsen(未说明) 💡 毒舌点评 亮点在于它提供了一个规模庞大、多语言、多模态的双人对话数据集,并设计了三个有层次的任务(影响、轮流、融洽)来系统评估人际动力学建模,填补了现有基准多偏向单说话人预测的空白。但短板也很明显:作为一篇挑战赛论文,其技术贡献主要停留在基线方法的设计上,而基线本身是极其简单的双层MLP,且实验部分仅展示了单一基线的结果,并未与任何复杂的现有SOTA方法进行对比分析,因此难以判断所提基准的实际挑战高度。 🔗 开源详情 代码:论文中未提及代码链接。论文鼓励参与者上传代码以支持可复现性,但未在论文正文中提供具体代码仓库地址。 模型权重:论文中未提及具体模型权重下载链接。论文提及提供了“baseline systems”(基线系统),但未给出模型权重的直接获取方式。 数据集:数据集名称为Hume-DaiKon。论文指出,参与者需要完成 Hume AI 的最终用户许可协议(end-user license agreement)并遵循官方竞赛主页上提供的数据访问说明来获取数据。论文未给出数据集的直接下载 URL。 Demo:论文中未提及在线演示链接。 复现材料:论文提供了详细的基线实验描述,包括特征提取方法(使用Whisper-small和FaceNet)、模型架构(两层MLP编码器)、训练配置(优化器、学习率、损失函数等)以及评估指标。这些信息已足够用于复现论文中的基线实验。但未提及提供具体的训练配置文件或检查点下载链接。 论文中引用的开源项目: Whisper (Whisper-small encoder):用于音频特征提取。项目地址:https://github.com/openai/whisper FaceNet:用于视频(人脸)特征提取。论文引用的实现是 FaceNet,通常指 Google 的开源模型或其 PyTorch 实现。相关项目地址可参考:https://github.com/timesler/facenet-pytorch PyTorch:用于实现所有模型。项目地址:https://github.com/pytorch/pytorch Qwen2.5-72B-Instruct:用于生成 Rapport 伪标签的大语言模型。项目地址:https://github.com/QwenLM/Qwen2.5 vLLM:用于部署 Qwen2.5-72B-Instruct 以进行推理的引擎。项目地址:https://github.com/vllm-project/vllm 补充信息 [模型架构] 补充:在轮流发言预测任务中,时间头将预测值裁剪到 [-5, 10] 秒范围,此设计是为了同时适应预测发言间隙(正值)与重叠(负值)的情况。 [核心创新点] 补充:论文强调挑战旨在鼓励“文化意识建模”,其多语言数据集的设计就是为了支持这一点,这是其框架的重要动机之一。 [细节详述] 补充:数据集在发布时明确“旨在保留语料库的多语言特性,而不是将其限制在一两种语言中”,因此训练、验证和测试集都包含了五种语言的数据,并进行了分层划分。 [毒舌点评/核心摘要] 补充(对局限性的强调):论文自身在结论中明确指出,基准的建立鼓励了“文化意识建模”的研究,但这也恰恰是其挑战所在,即模型需要具备跨文化泛化能力,而简单的基线并未涉及此维度。 📌 核心摘要 这篇论文介绍了2026年ACII情感计算会议下的双人对话(DaiKon)工作坊与挑战赛。它旨在解决现有对话情感基准大多以单个说话人为中心,忽略了对话双方之间动态、耦合的人际过程(如单向影响、轮流发言、融洽关系发展)的问题。方法核心是基于新发布的Hume-DaiKon数据集(包含945段、743.4小时的五语种自然对话),设计三个相互关联的子挑战:预测说话人情感强度、预测下一说话人及发言时间、预测对话过程中的融洽关系轨迹。与已有工作相比,新在提供了一个统一的多语言、多模态基准框架,鼓励模型超越说话人中心预测,去建模人际间的时序依赖和动态交互。实验上,论文公布了基于简单MLP的基线结果:在情感影响预测任务上达到0.40 CCC / 0.50 Pearson;轮流发言任务上为0.66 Macro-F1 / 1.50秒 MAE;融洽预测任务上为0.68 CCC / 0.70 Pearson。主要结论是音频特征在各任务中表现最好,但简单的多模态融合并未带来提升,表明更复杂的时序建模和融合策略是必要的。其实际意义是为情感计算、人机交互、行为分析等社区提供了一个可复现的、聚焦于双人动态交互的研究平台和评估标准。主要局限性在于基线方法过于简单,未能充分展示任务的挑战性上限;同时,融洽关系的标签是通过大语言模型生成的伪标签,其可靠性未得到验证。 ...

2026-05-05 · 更新于 2026-06-19 · 2 min · 261 words

TMD-Bench: A Multi-Level Evaluation Paradigm for Music-Dance Co-Generation

📄 TMD-Bench: A Multi-Level Evaluation Paradigm for Music-Dance Co-Generation #音乐生成 #基准测试 #流匹配 #多模态模型 ✅ 7.5/10 | 前25% | #音乐生成 | #流匹配 | #基准测试 #多模态模型 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(论文作者列表未按惯例排序,未明确标注) 通讯作者:未说明 作者列表:Xiaoda Yang, Majun Zhang, Changhao Pan, Nick Huang, Yang Yuguang, Fan Zhuo, Pengfei Zhou, Jin Zhou, Sizhe Shan, Shan Yang, Miles Yang, Yang You, Zhou Zhao(所有作者所属机构在论文中未明确说明) 💡 毒舌点评 亮点:该工作真正填补了“音乐-舞蹈共同生成”评估领域的空白,提出的多层级评估框架(从物理节拍对齐到MLLM感知判断)非常系统且具有前瞻性。 短板:论文在宣传自身模型“RhyJAM”的竞争力时,其音频美感、视频质量等关键指标与顶级闭源模型(如Veo 3)仍有可见差距,却未深入讨论为何“统一架构”未能在所有维度上全面超越级联或闭源方案。 ...

2026-05-05 · 更新于 2026-06-19 · 2 min · 420 words

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

📄 AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer #音频生成 #流匹配 #多模态模型 #零样本 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #多模态模型 #零样本 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Pengjun Fang(香港科技大学) 通讯作者:未明确说明。论文列出了多位作者及其单位,通常通讯作者会在投稿系统中标注,但此处文本未明确指出。根据作者列表顺序和惯例,可能为Qifeng Chen或Harry Yang,但为避免猜测,此处标记为“未说明”。 作者列表: Pengjun Fang(香港科技大学) Yingqing He(香港科技大学) Yazhou Xing(香港科技大学) Qifeng Chen(香港科技大学) Ser-Nam Lim(中佛罗里达大学) Harry Yang(中佛罗里达大学) 💡 毒舌点评 AC-Foley的亮点在于用“听觉范例”替代“文字描述”来指挥AI配音,这巧妙绕过了语言在描述“微妙质感”时的无力感,并通过精心设计的两阶段训练确保了模型不是简单复读机。然而,其短板也明显:当视频或参考音本身涉及多重声源交叠或节奏极端错配时(比如用猫叫配急促打字),模型的协调能力就会捉襟见肘,暴露了其在处理复杂声景和时序冲突上的稚嫩。 🔗 开源详情 代码:论文中未提及代码仓库链接。仅在伦理声明中提及未来将以Apache 2.0许可证发布模型。 模型权重:未提及公开预训练权重。 数据集:使用公开数据集(VGGSound, AudioCaps2.0, WavCaps),并说明了其许可证(见附录F)。 Demo:未提供在线演示链接。 复现材料:提供了详尽的训练细节(优化器、学习率schedule、batch size、训练硬件与时间)、网络结构参数(隐藏维度、block数量),以及消融实验的设置,复现信息较为充分。 引用的开源项目/模型:论文依赖并提及了以下开源工作:CLIP(视觉/文本编码器)、Synchformer(同步特征提取器)、BigVGAN(声码器)、ImageBind(多模态嵌入,用于数据筛选和评估)、AdamW(优化器)。 📌 核心摘要 这篇论文(ICASSP 2026 / ICLR 2026)针对现有视频到音频(V2A)生成方法中依赖文本控制导致的语义粒度粗和描述模糊两大瓶颈,提出了AC-Foley,一种参考音频引导的视频到音频合成框架。其核心方法是直接将参考音频的声学特征作为条件信号,通过多模态Transformer和基于流匹配的生成模型,合成与视频同步且具有参考音频音色特性的声音。与已有方法相比,AC-Foley的新颖之处在于:1) 用音频直接控制,实现了细粒度音色迁移和零样本声音生成;2) 提出了包含重叠与非重叠条件的两阶段训练策略,解决了参考音频的时间适配与泛化问题。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 250 words

AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching

📄 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching #音频分离 #流匹配 #音视频 #基准测试 #多模态模型 ✅ 7.5/10 | 前25% | #音频分离 | #流匹配 | #音视频 #基准测试 学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:未说明(论文声明Xize Cheng, Chenyuhao Wen, Tianhao Wang为共同第一作者“Equal Contribution”) 通讯作者:未说明 作者列表:Xize Cheng (浙江大学1), Chenyuhao Wen (浙江大学1), Tianhao Wang (独立作者2), Yongqi Wang (浙江大学1), Zehan Wang (浙江大学1), Rongjie Huang (浙江大学1), Tao Jin (浙江大学1), Zhou Zhao (浙江大学1)。(注:1指浙江大学,2指独立作者,具体实验室或部门未在文中提供) 💡 毒舌点评 亮点:这是首个将流匹配范式成功引入视频引导声音分离的工作,并敏锐地指出了其与传统文本生成任务在“多条件生成”上的本质差异,为后续研究者提供了清晰的思路和新的挑战性基准。 短板:模型架构(拼接+FFN Transformer)略显“直给”,缺乏更精巧的跨模态交互设计;虽然实验充分,但“流匹配”相对于“扩散模型”在本任务中的具体优势论证(如表7所示)并不构成压倒性差距,说服力有提升空间。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 299 words