Towards Multi-View Hierarchical Video-to-Piano Generation with MIDI Guidance

📄 Towards Multi-View Hierarchical Video-to-Piano Generation with MIDI Guidance #音乐生成 #扩散模型 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 | #多模态模型 #跨模态 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Chang Liu(巨像AI Lab;特伦托大学) 通讯作者:Zihao Chen†(巨像AI Lab) 作者列表:Chang Liu(巨像AI Lab;特伦托大学), Zihao Chen†(巨像AI Lab), Gongyu Chen(巨像AI Lab), Chaofan Ding(巨像AI Lab), Nicu Sebe(特伦托大学) 💡 毒舌点评 论文的核心思路——用分层、多视角的符号化MIDI信息来“指挥”扩散模型生成更精准的钢琴音频,是清晰且有效的,实验中SI-SDR的巨幅提升(如从-4.87 dB到2.45 dB)也极具说服力。然而,这篇工作就像在精心打磨一个高度定制的工具,却对工具的内部齿轮(控制分支具体如何融合MIDI特征)和打造工具的材料(训练数据集细节)语焉不详,这给希望跟进的同行留下了不小的障碍。 📌 核心摘要 问题:现有视频到音频(V2A)的生成方法在直接映射视频到波形时,难以精确捕捉钢琴演奏中细微的时序、力度和延音控制,导致生成音频的时序对齐和音乐表现力不足。 方法核心:提出一个分层的视频到钢琴(V2P)生成框架。其核心是引入MIDI作为中间表示,通过一个多视角MIDI预测器从不同摄像头视角(顶视、前视、侧视、踏板视)渐进式地预测音符起始、力度和延音等符号信息,然后利用一个控制分支将这些层级化的MIDI信息注入到基于扩散变换器(DiT)的音频生成模型中,以引导更精确的波形合成。 创新性:相比于现有“视频->波形”的端到端方法,该工作首次在V2P任务中提出:a) 分层MIDI引导的生成范式;b) 利用多视角视频(特别是踏板视角)捕捉完整演奏动态;c) 通用的控制分支设计,可集成到不同V2A模型中。 主要实验结果:在Audeo和EGQ两个测试集上,将所提方法应用于YingSound、MMAudio等多个基线模型。结果显示,加入MIDI引导后,音频生成质量显著提升。例如,在MMAudio-S-16kHz模型上,SI-SDR从-2.15 dB提升至2.31 dB(提升207.44%),FDPANNS从3.0643降至2.0657(降低32.59%)。频谱图对比也显示MIDI引导能有效修复基线模型生成的不准确片段。 实际意义:该方法能生成与演奏视频高度同步且富有表现力的钢琴音频,可应用于无声钢琴视频配音、音乐教学反馈、自动乐谱生成辅助等场景。 主要局限性:a) 方法目前仅针对钢琴这一种乐器,未验证其对其他乐器的泛化性;b) 多视角输入在实际应用中可能增加部署复杂度和成本;c) 训练依赖多视角同步录制的钢琴视频-MIDI数据集,数据获取门槛较高。 🏗️ 模型架构 本文提出的分层V2P框架包含三个阶段,其整体架构如图2所示。 ...

2026-04-29

Tpeformer: Temporal Patch Embedding Transformer

📄 Tpeformer: Temporal Patch Embedding Transformer #多模态模型 #语音情感识别 #端到端 #预训练 ✅ 7.5/10 | 前25% | #语音情感识别 | #多模态模型 | #端到端 #预训练 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:Ziqing Yang(Department of Computer Science, New York Institute of Technology, New York, United States) 通讯作者:未说明(论文未明确标注) 作者列表:Ziqing Yang(纽约理工学院计算机系)、Houwei Cao(纽约理工学院计算机系) 💡 毒舌点评 亮点:论文巧妙地将Mamba2模型引入作为ViT的位置编码,这不仅是一个新颖的技术融合,更在实验上证明了其在数据稀缺场景下相比传统位置编码的优越性,提升了模型的数据效率。短板:号称是端到端多模态系统,但实验仅在CREMA-D这一个规模不大的数据集上完成,泛化能力未经考验;且全篇未提供任何代码或模型链接,所谓的“从零训练”和“效率提升”在缺乏复现支持的情况下,说服力打了折扣。 📌 核心摘要 问题:多模态情感识别在现实场景中常面临数据有限的问题,而主流的大规模预训练模型(如ViT、AST)在此条件下效率低下、收敛慢,且模型参数量大。 方法核心:提出TPEformer,一个端到端的多模态情感识别模型。其核心是使用ResNet-18作为特征提取器并进行“特征级”patch化,然后用双向Mamba2模块替代传统的位置编码,以更高效地捕捉时序依赖关系,最后采用标准Transformer编码器和瓶颈融合策略进行多模态决策。 创新点:1) 将Mamba2模型适配为Transformer的位置编码,利用其选择性状态空间特性增强时序建模和数据效率;2) 采用从ResNet中间层提取特征再进行patch化的方法,而非直接对像素或原始频谱图进行patch,平衡了全局与局部特征;3) 整个架构可灵活嵌入现有Transformer骨干网络。 主要实验结果:在CREMA-D数据集上,多模态TPEformer(使用预训练ResNet权重)达到85.2% 的准确率,超越了预训练的ViT & AST融合基线(81.4%)、MultiMAE-DER-FSLF(79.4%)等现有方法。即使从零训练,其性能(81.4%)也与预训练基线持平,同时参数量从1.72亿减少至1.08亿。消融实验表明,移除Patchify ResNet会导致性能骤降至0.450,而Mamba2在配合它时能将准确率从0.791提升至0.852。 实际意义:为资源受限(数据量小、算力有限)的多模态情感识别任务提供了一个轻量、高效且性能优异的解决方案,降低了对该类技术应用的门槛。 主要局限性:实验验证仅在一个公开数据集(CREMA-D)上进行,缺乏在更多元、更大规模数据集上的泛化性验证;未探讨模型在包含更多模态(如文本)或更复杂情感场景下的表现。 🏗️ 模型架构 ...

2026-04-29

Training-Free Multimodal Guidance for Video to Audio Generation

📄 Training-Free Multimodal Guidance for Video to Audio Generation #音频生成 #多模态模型 #扩散模型 #音视频 🔥 8.0/10 | 前25% | #音频生成 | #扩散模型 #多模态模型 | #多模态模型 #扩散模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Eleonora Grassucci*(罗马第一大学信息工程、电子与电信系) 通讯作者:未说明 作者列表:Eleonora Grassucci(罗马第一大学信息工程、电子与电信系)、Giuliano Galadini(罗马第一大学信息工程、电子与电信系;米兰理工大学电子、信息与生物工程系)、Giordano Cicchetti*(罗马第一大学信息工程、电子与电信系)、Aurelio Uncini(罗马第一大学信息工程、电子与电信系)、Fabio Antonacci(米兰理工大学电子、信息与生物工程系)、Danilo Comminiello(罗马第一大学信息工程、电子与电信系) 💡 毒舌点评 亮点:巧妙地将多模态嵌入空间的“体积”作为语义一致性度量,并将其融入扩散过程的梯度引导,为训练-free的V2A生成提供了一个优雅且理论动机清晰的新方向。短板:该方法高度依赖于一个强大的预训练多模态对齐空间(GRAM),且实验主要限于合成数据集VGGSound和描述性数据集AudioCaps,其在复杂真实场景(如声源不可见、环境噪声大)下的鲁棒性和有效性有待进一步验证。 📌 核心摘要 问题:现有视频到音频(V2A)生成方法要么需要在大规模配对数据上进行昂贵的联合训练,要么依赖于成对的相似度(如余弦相似度)进行引导,这可能导致全局多模态一致性不足,生成语义不对齐的音频。 方法核心:提出了一种新颖的训练-free多模态扩散引导(MDG)机制。其核心思想是利用视频、音频、文本三种模态的嵌入向量在共享潜在空间中张成的平行六面体体积作为语义相似度的度量。在推理时,通过最小化这个体积来引导预训练的音频扩散模型的去噪过程,使生成的音频在嵌入空间中与视频和文本条件“对齐”。 与已有方法相比新在哪里:不同于之前依赖成对余弦相似度的引导方法(如Seeing&Hearing),MDG提出了基于三模态联合几何结构(体积)的引导信号,能更有效地捕捉跨模态的全局语义一致性。该方法是训练-free、即插即用的,无需修改扩散模型或编码器。 主要实验结果:在VGGSound数据集上,MDG在几乎所有评估指标(FAD、FAVD、PEAVS、KL、ISc、FD)上均优于基线方法(SpecVQGAN, Diff-Foley, Seeing&Hearing)。例如,FAD从Seeing&Hearing的7.80降至6.04,FAVD从3.44降至2.60。在AudioCaps数据集上,MDG也持续优于Seeing&Hearing。语义一致性分析显示,MDG生成音频与原始视频及文本的体积V和跨模态距离均更小。 实际意义:提供了一种轻量、高效、可即插即用地增强现有音频生成模型多模态对齐能力的方法,无需昂贵的训练,降低了V2A生成技术的应用门槛。 主要局限性:性能依赖于GRAM预训练编码器的质量;引导过程需要额外的编码和优化计算;在音频与视觉内容关联不直接的数据集(如AudioCaps)上,提升幅度相对有限。 🏗️ 模型架构 本文提出的多模态扩散引导(MDG)是一个训练-free的推理时引导框架,它不设计新的生成模型,而是为现有的预训练音频扩散模型提供一个控制信号。其整体流程如下: 输入:一个无声视频 x_v 和一个可选的文本描述 x_p。 预训练组件: 音频生成模型:采用一个潜在扩散模型(LDM),具体是预训练的 AudioLDM。它包含音频编码器 E_a、解码器 D、扩散去噪网络 ε_θ 和一个基于文本的条件机制。 多模态编码器:采用预训练的 GRAM 编码器,它能将视频帧、音频频谱图和文本分别映射到一个共享的、对齐的D维潜在空间中。具体使用:EVAClip-ViT-G(视频),BEATS(音频),BERT-B(文本),记为 E_v, E_a, E_p。 引导流程(如算法1所示): 条件编码:首先,使用 E_p 和 E_v 分别编码文本和视频,得到固定的嵌入 e_p 和 e_v。 扩散采样循环:启动 AudioLDM 的标准DDIM采样过程(共T步)。 注入引导:在采样循环的后80%步数中(即当 t < K,K为warmup步数),在每个去噪步骤后执行引导优化: 根据当前带噪潜变量 z_a^t,通过去噪网络预测一个干净的音频潜变量 ~z_a^0。 使用 E_a 将 ~z_a^0 编码为音频嵌入 e_a。 计算由向量 e_v, e_a, e_p 构成的格拉姆矩阵 K 及其行列式的平方根,即体积 V(公式7)。 通过梯度下降更新带噪潜变量:z_a^t ← z_a^t - η ∇_{z_a^t} V,使体积减小。 输出:采样结束后,得到引导后的音频潜变量 z_a^0,经解码器 D 得到最终音频频谱图,再可通过任何声码器转换为波形。 图2] 图2:多模态扩散引导(MDG)框架概览。图中显示了视频输入 x_v 和文本输入 x_p 被编码为嵌入,与当前生成的音频嵌入 e_a 一起计算体积 V,该体积信号通过梯度反向传播来调整音频扩散模型的去噪轨迹 z_a^t。 ...

2026-04-29

Uncertainty-Aware 3D Emotional Talking Face Synthesis with Emotion Prior Distillation

📄 Uncertainty-Aware 3D Emotional Talking Face Synthesis with Emotion Prior Distillation #音视频 #生成模型 #不确定性估计 #多模态模型 🔥 8.0/10 | 前25% | #音视频 | #生成模型 | #不确定性估计 #多模态模型 学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Nanhan Shen(天津大学人工智能学院) 通讯作者:Zhilei Liu(天津大学人工智能学院) 作者列表:Nanhan Shen(天津大学人工智能学院)、Zhilei Liu(天津大学人工智能学院) 💡 毒舌点评 这篇论文精准地指出了3D情感说话人脸生成中“情感对齐差”和“多视图融合粗糙”两大痛点,并给出了模块化的解决方案,特别是首次引入不确定性建模来优化融合策略,思路值得肯定。然而,论文在工程实践上“留白”过多,关键代码和训练细节缺失,使得这个“不确定性”的黑盒更难被学界复现和验证。 📌 核心摘要 问题:现有3D情感说话人脸合成方法存在两大挑战:音视觉情感对齐差(难以从音频提取情感且微表情控制弱);多视图融合采用“一刀切”策略,忽略了不同视图特征质量的不确定性,导致渲染效果受损。 方法:提出UA-3DTalk框架,以3D高斯溅射为渲染骨干。其包含三个核心模块:先验提取模块,将音频解耦为内容同步特征和个性特征;情感蒸馏模块,通过多模态注意力融合和4D高斯编码,实现细粒度音频情感提取与表情控制;基于不确定性的变形模块,为每个视图估计偶然不确定性和认知不确定性,实现自适应多视图融合。 创新:首次在该领域系统性地建模并利用不确定性;提出不确定性感知的自适应融合策略;通过情感先验蒸馏协同解决情感对齐问题。 结果:在常规和情感数据集上的实验表明,UA-3DTalk在情感对齐(E-FID)、唇同步(SyncC)和渲染质量(LPIPS)上均优于SOTA方法。定量结果如下: 方法 数据集 LMD↓ PSNR↑ LPIPS↓ SSIM↑ Sync-C↑ E-FID↓ UA-3DTalk (本文) 常规/情感 2.492 / 5.407 28.923 / 28.408 0.032 / 0.067 0.928 / 0.938 5.750 / 5.152 0.072 / 0.145 DEGSTalk 常规/情感 1.960 / 3.923 27.104 / 28.051 0.042 / 0.162 0.891 / 0.924 5.663 / 5.007 0.076 / 0.154 EDTalk 常规/情感 3.827 / 6.548 25.627 / 18.061 0.073 / 0.297 0.888 / 0.864 6.173 / 7.550 0.483 / 0.668 TalkingGaussian 常规/情感 3.018 / 5.934 26.943 / 25.533 0.045 / 0.096 0.906 / 0.892 5.011 / 4.886 0.089 / 0.356 StableAvatar 常规/情感 4.117 / 7.150 18.403 / 19.290 0.258 / 0.228 0.480 / 0.619 4.421 / 3.972 0.546 / 0.430 消融研究(在MEAD情感数据集)显示,各模块均带来性能提升:完整模型(w/ P,E,U)相比基线,在E-FID上从0.356降至0.145,Sync-C从4.886提升至5.152。 ...

2026-04-29

UTI-LLM: A Personalized Articulatory-Speech Therapy Assistance System Based on Multimodal Large Language Model

📄 UTI-LLM: A Personalized Articulatory-Speech Therapy Assistance System Based on Multimodal Large Language Model #语音对话系统 #多模态模型 #医疗应用 #数据集 ✅ 7.5/10 | 前25% | #语音对话系统 | #多模态模型 | #医疗应用 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文首页列有多个作者,但未明确标注第一作者。根据作者列表顺序推测为Yudong Yang或Xiaokang Liu,但不明确) 通讯作者:Nan Yan, Lan Wang(论文中明确标注为“Corresponding authors”) 作者列表: Yudong Yang (1, 2) Xiaokang Liu (1) Shaofeng Zhao (3) Rongfeng Su (1) Nan Yan (1, 2, *) Lan Wang (1, 2, *) 单位1:Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, China (中国科学院深圳先进技术研究院) 单位2:Key Laboratory of Biomedical Imaging Science and System, Chinese Academy of Sciences, China (中国科学院生物医学成像科学与系统重点实验室) 单位3:Department of Rehabilitation Medicine, The Eighth Affiliated Hospital of Sun Yat-sen University, China (中山大学附属第八医院康复医学科) 💡 毒舌点评 亮点:系统性地解决了从领域数据构建(创新性的双智能体协作生成)、模型设计(针对UTI特性的时空特征融合)到多维度评估的完整流程,是一套“交钥匙”式的解决方案,对于想在医疗垂直领域应用MLLM的研究者有很好的示范作用。 短板:核心的“多模态融合”方法(图2)实质上是将语音特征与UTI的时空特征简单拼接后输入LLM,缺乏更精巧的跨模态交互机制;更重要的是,整个系统的“个性化”和“治疗辅助”效果目前仅通过离线数据集上的分析准确率和文本生成质量来间接证明,缺乏真实医患交互场景的验证和用户研究,离临床实用尚有距离。 ...

2026-04-29

UVT-LM: Unifying Visual and Tactile Perception with Language Model

📄 UVT-LM: Unifying Visual and Tactile Perception with Language Model #多模态模型 #跨模态 #音频分类 #大语言模型 #机器人 ✅ 7.0/10 | 前25% | #跨模态 | #多模态模型 | #音频分类 #大语言模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Jinlin Wang(四川大学,合成视觉国家重点实验室) 通讯作者:Hongyu Yang(四川大学计算机学院),Yulong Ji(四川大学航空航天学院) 作者列表:Jinlin Wang(四川大学合成视觉国家重点实验室)、Hongyu Yang(四川大学计算机学院)、Yulong Ji(四川大学航空航天学院) 💡 毒舌点评 亮点:该工作巧妙地将大语言模型(LLM)作为“语义粘合剂”,用文本查询引导将视觉、触觉图像、音频、压力等异构信号映射到共享语义空间,这种设计思路在解决多模态对齐难题上具有启发性,且实验中的跨数据集零样本性能(51.85%)证明了其泛化潜力。 短板:论文在实验部分声称“outperforming state-of-the-art methods”,但未清晰说明其对比的基线方法(如MTF, MViTac)是否真正代表了当前最优水平;更关键的是,作为一篇方法论文,其训练细节(如LLM如何参与训练、所有超参数)近乎完全缺失,这严重削弱了研究的可复现性和工程参考价值,无异于“只给菜谱不给火候”。 📌 核心摘要 要解决的问题:现有机器人视觉-触觉融合方法受限于特定传感器配对,且难以有效融合异构的触觉信号(如图像、音频、压力)与视觉输入,制约了通用化多模态感知能力的发展。 方法核心:提出UVT-LM框架,采用四阶段流程:1) 使用模态特定编码器将各类输入转化为特征;2) 通过“模态语义映射器”,以文本查询生成的Key,引导视觉和触觉特征通过交叉注意力对齐到共享语义空间;3) 利用预训练的Llama2-7B作为“语义编码器”进一步处理融合特征;4) 通过任务头进行预测。 与已有方法相比新在哪里:首次提出一个统一架构,能够处理包括触觉图像、音频、压力在内的多种异构触觉信号,并利用LLM的预训练知识进行语义级对齐,而非传统的特征级简单拼接或对比学习。 主要实验结果:在物体识别(Au数据集,89.58%)、材料分类(Au数据集95.83%,PHAC-2数据集85.05%)和抓取结果预测(Calandra数据集98.82%)任务上,UVT-LM的准确率均优于所对比的基线方法。在跨数据集零样本迁移(Jianhua数据集)中,达到51.85%的准确率,显著高于随机初始化模型(SNAP, 36.46%)。关键对比结果如下表所示: 任务 数据集 指标 UVT-LM 最强基线 差距 物体识别 Au 准确率(%) 89.58 CRNN: 88.89 +0.69 材料分类 Au 准确率(%) 95.83 C2M: 88.92 +6.91 材料分类 PHAC-2 准确率(%) 85.05 C3: 76.19 +8.86 抓取预测 Calandra 准确率(%) 98.82 MoCo: 81.83 +16.99 零样本迁移 Jianhua 准确率(%) 51.85 SNAP: 36.46 +15.39 实际意义:为机器人感知提供了一种更通用、可扩展的多模态融合框架,使机器人能利用更丰富的触觉信号理解环境与操作对象,有望提升其在复杂物理交互任务中的鲁棒性和适应性。 主要局限性:1) 训练细节(超参数、硬件、策略)完全缺失,严重影响可复现性;2) 实验对比的基线方法是否全面代表了各任务的最先进水平存疑;3) 未探讨模型效率、推理延迟等在实际机器人部署中的关键问题。 🏗️ 模型架构 UVT-LM的整体架构(如图1所示)是一个四阶段的管道,旨在将异构输入统一到由LLM主导的语义空间中。 ...

2026-04-29

VMSP: Video-to-Music Generation with Two-Stage Alignment and Synthesis

📄 VMSP: Video-to-Music Generation with Two-Stage Alignment and Synthesis #音乐生成 #扩散模型 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 | #多模态模型 #跨模态 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Xin Gu(中国传媒大学信息与通信工程学院) 通讯作者:Wei Jiang*(中国传媒大学信息与通信工程学院) 作者列表:Xin Gu(中国传媒大学信息与通信工程学院)、Wei Jiang*(中国传媒大学信息与通信工程学院)、Yujian Jiang(中国传媒大学信息与通信工程学院)、Zhibin Su(中国传媒大学信息与通信工程学院)、Ming Yan(中国传媒大学信息与通信工程学院) 💡 毒舌点评 论文的亮点在于其清晰的“先对齐中间表示,再生成”的两阶段框架设计,这有效缓解了端到端模型常忽略音乐结构的问题,逻辑自洽。但短板也明显:它严重依赖特定的、可能闭源的MLLM(Qwen2.5-VL, Qwen2-Audio)来生成感知描述,这增加了复现成本和不可控性,且论文未开源任何资源,让后续研究者“只能看,不能练”。 📌 核心摘要 问题:现有的视频生成音乐(V2M)方法大多直接将视频特征映射到声学标记或波形,跳过了对音乐中间表示(如语义、结构)的建模,导致生成的音乐结构连贯性差、和声不丰富。 方法核心:提出VMSP,一个基于分层条件映射的两阶段生成框架。第一阶段(跨模态映射)通过Transformer学习视频与音乐语义特征的段级对齐,并利用多模态大语言模型(MLLM)确保视频与音乐在感知层面的一致性。第二阶段(音乐生成)使用扩散Transformer(DiT),将上述对齐后的语义特征和感知信息作为分层条件,指导音乐波形的生成。 与已有方法的新颖性:相比于直接映射或依赖文本中间描述的方法,VMSP显式地建模了音乐的“中间表示”(语义和感知),并设计了分层条件注入机制(全局感知条件+局部语义条件),旨在同时保证全局氛围一致和局部时间对齐。 主要实验结果:在MVED和MuVi-Sync数据集上训练,在V2M-bench数据集上评估。定量对比显示VMSP在KL、FAD、Density和Coverage指标上均优于CMT、Video2Music、M2UGen和VidMuse等基线模型。消融实验表明两阶段框架和双重条件(语义+感知)缺一不可。用户研究也显示VMSP在音频质量、音乐性、对齐度和感知和谐度上具有优势。 模型/方法 KL↓ FAD↓ Density↑ Coverage↑ GT 0.000 0.000 1.167 1.000 CMT[7] 1.220 8.637 0.080 0.070 Video2Music[9] 1.782 18.722 0.103 0.023 M2UGen[18] 0.997 5.104 0.608 0.433 VidMuse[6] 0.734 2.459 1.250 0.730 VMSP 0.607 2.580 1.280 0.870 表1: 客观定量对比结果(来自论文) ...

2026-04-29

VT-Heads: Voice Cloning and Talking Head Generation from Text Based on V-DiT

📄 VT-Heads: Voice Cloning and Talking Head Generation from Text Based on V-DiT #语音克隆 #视频生成 #多模态模型 #扩散模型 ✅ 6.5/10 | 前50% | #视频生成 | #扩散模型 | #语音克隆 #多模态模型 学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yali Cai(国防科技大学计算机学院) 通讯作者:Peng Qiao, Dongsheng Li(国防科技大学计算机学院,并行与分布式计算国家重点实验室) 作者列表:Yali Cai, Peng Qiao, Dongsheng Li(国防科技大学计算机学院,并行与分布式计算国家重点实验室) 💡 毒舌点评 亮点:论文将语音克隆、多模态融合和视频扩散模型(V-DiT)整合成一个端到端框架,并创新性地为T2S模块引入帧级时间锚点以改善音视频同步,整体技术路线清晰。 短板:T2S模块中“动态节奏控制”的具体机制(公式f(S, Θ))描述过于模糊,核心创新点之一缺乏技术细节支撑;实验部分的对比方法(如表3)更新不够及时,且部分指标(如多样性Diver)在所有方法中几乎无差异,难以证明其优越性。 📌 核心摘要 这篇论文旨在解决文本驱动会说话头部生成(THG)中存在的唇部同步不准确和面部表情多样性有限的问题。方法核心是提出一个多模态融合框架VT-Heads,它包含三个关键部分:1)一个带有帧级时间锚点和动态节奏控制的T2S模块,用于生成与视频帧节奏同步的语音;2)一个基于注意力的多模态融合模块,用于细粒度融合文本和语音特征;3)一个以条件V-DiT为骨干的扩散模型,将视频生成建模为时序迭代去噪过程。与现有两阶段方法(先T2S再驱动视频)不同,VT-Heads通过多模态融合增强了文本语义与视觉生成的关联。实验表明,在HDTF数据集和YouTube视频上,VT-Heads在图像质量(FID↓10.12)、唇形同步(Sync↑5.99/6.21)等指标上优于部分基线。其实际意义在于为文本驱动的数字人内容生成提供了一种更同步、更自然的方案。主要局限性在于T2S模块的技术细节不够透明,且与最新SOTA方法的对比有待加强。 🏗️ 模型架构 VT-Heads的整体架构是一个条件扩散模型框架,其输入为驱动文本、参考语音和参考图像,输出为生成的会说话头部视频序列。核心流程如下(参考图1): 输入处理: 文本(T):送入T2S模块合成语音,并通过Word2Vec提取文本特征。 参考语音(Xr):送入T2S模块作为音色参考,并通过Wav2Vec提取语音特征。 参考图像(yr):通过编码器Er提取外观条件r的一部分。 运动帧(ym):可能来自参考视频或生成的中间帧,与参考图像特征共同构成外观条件r = Er(yr) ⊕ Er(ym)。 T2S模块:生成与帧同步的语音波形,其语音特征S’作为多模态融合的输入之一。 多模态融合模块(图2): 文本特征和语音特征分别经LSTM提取时序信息。 通过一个交叉注意力Transformer进行融合,文本作为Query,语音作为Key/Value,学习跨模态关联,输出融合特征。 融合特征f与经ConvNet Ek提取的面部关键点特征Ey(yr)相加,形成最终的时间条件m = Ey(yr) ⊕ f。 V-DiT骨干网络: 接收三部分输入:噪声图像块(Pi)、外观条件r、时间条件m。所有输入被线性投影为1D token。 通过L个Transformer块进行迭代去噪。每个块包含时间注意力(同一空间位置跨帧交互)和空间注意力(同一帧内不同位置交互)两个核心操作(公式2),建模时空依赖。 输出预测的噪声。 输出:经多步去噪后,由VAE解码器将潜在空间的视频帧解码为最终的高清视频。 关键设计选择:采用V-DiT(Video Diffusion Transformer)而非传统的UNet,旨在更好地建模视频的长程时空依赖性。 ...

2026-04-29

Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models

📄 Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models #音频大模型 #音频问答 #模型评估 #基准测试 #多模态模型 ✅ 7.5/10 | 前25% | #音频问答 | #模型评估 | #音频大模型 #基准测试 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chun-Yi Kuan (台湾大学 电信工程研究所) 通讯作者:Hung-yi Lee (台湾大学 电信工程研究所, 台湾大学人工智能卓越研究中心 (AI-CoRE)) 作者列表:Chun-Yi Kuan (台湾大学 电信工程研究所), Wei-Ping Huang (台湾大学 电信工程研究所), Hung-yi Lee (台湾大学 电信工程研究所, 台湾大学人工智能卓越研究中心) 💡 毒舌点评 本文作为首篇系统评估音频大模型不确定性估计的研究,实验设计严谨、结论清晰,填补了重要空白;但其核心创新是将文本大模型领域的成熟方法“搬运”到新领域进行比较,方法论上的突破有限,更像是一个扎实的“开山评测”。 ...

2026-04-29

When Audio Matters: A Lightweight, Hierarchical Fusion Model for Speech and Non-Verbal Emotion Recognition

📄 When Audio Matters: A Lightweight, Hierarchical Fusion Model for Speech and Non-Verbal Emotion Recognition #语音情感识别 #多模态模型 #音频分类 #自监督学习 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #音频分类 #自监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Alkis Koudounas(Politecnico di Torino, Italy) 通讯作者:未明确说明(论文中两位作者贡献均等,提供了各自邮箱) 作者列表:Alkis Koudounas(Politecnico di Torino, Italy)、Moreno La Quatra(Kore University of Enna, Italy)、Elena Baralis(Politecnico di Torino, Italy) 💡 毒舌点评 这篇论文的亮点在于它没有盲目追求“1+1>2”的粗暴融合,而是精准地指出了音频的“专家”角色——专门解决文本含糊不清的时刻,并通过优雅的残差注意力机制让音频“打辅助”而不是“抢C位”,这种问题驱动的设计思路值得肯定。但其短板也明显:一是主实验依赖的数据集(NonVerbalTTS)本身规模有限且相对小众,可能限制了结论的普适性冲击力;二是虽然论文给出了代码仓库链接,但并未明确承诺开源模型权重和完整训练流程,对于想直接使用其成果的读者来说,这一步的“最后一公里”有点模糊。 📌 核心摘要 问题:在多模态情感识别中,文本模态通常过于强大,导致音频(尤其是包含情感信息的非语言声音,如笑声、叹息)的贡献被掩盖或引入噪声,简单融合往往适得其反。 方法核心:提出了HERON模型,其核心思想是音频的主要作用是消歧文本中中性或模糊的语义。架构分为两步:首先统一融合语音(HuBERT)和非语言声音(voc2vec)的音频表征;然后通过残差跨注意力机制,将统一的音频表征作为“增强信息”注入到文本(RoBERTa)表征中,确保文本的强语义始终被保留。 新在何处:1)假设驱动:明确将音频定位为文本消歧的“专家”,而非全能选手;2)分层残差融合:创新的两阶段架构,先内模态融合音频,再以文本为中心进行跨模态残差融合,有效防止文本主导;3)轻量化:在冻结骨干的参数高效设置下(仅7.6M可训练参数),即可匹配全训练的单模态文本基线。 主要实验结果: 在NonVerbalTTS数据集上,HERON(全微调)的F1 Macro为0.39,相比最强基线(voc2vec-RoBERTa,0.36)有+3%的绝对提升,达到SOTA。 关键消融实验(Table 2)表明,其提出的“拼接-残差”(concat-residual)融合策略在两种训练设置下均最优。 细粒度分析显示,HERON在文本信息弱的“Neutral”和“Other”类别上相比RoBERTa分别有+17%和+56%的巨大提升。 在MELD数据集(无针对性调优)上,HERON(全微调)也达到0.63的准确率,优于所有基线。 模型 准确率 F1 Macro RoBERTa (文本) 0.65 0.36 HuBERT (语音) 0.57 0.28 voc2vec (NVV) 0.54 0.29 HERON (冻结骨干) 0.71 0.39 HERON (全微调) 0.71 0.39 实际意义:为多模态情感识别,特别是涉及非语言声音的场景,提供了一个高效、可解释且泛化性良好的融合范式,对开发更细腻的人机交互、心理健康监测等应用有参考价值。 主要局限性:1)依赖的NonVerbalTTS数据集规模有限(约4000条),可能影响模型泛化能力的充分评估;2)未与更多前沿的多模态融合方法(如基于对比学习或最优传输的方法)进行直接对比;3)论文未提供模型权重,复现依赖自行训练。 🏗️ 模型架构 HERON的整体架构(见图1)包含三个预训练骨干网络和一个分层融合模块,最后接分类头。 ...

2026-04-29